Sumary of Person Surveillance Using Visual and Infrared Imagery

Person Surveillance Using Visual and Infrared Imagery

Author: Stephen J. Krotosky and Mohan Manubhai Trivedi

Abstract I

• Metodologia per analizzare i sistemi multimodali e multiprospettiva di sorveglianza di persone.

• Materiali:– Due telecamera di colore– Due telecamere a infrarossi

• Usando un algoritmo basato in HOG hanno creato un sistema probabilistico per evaluare il riconoscimento de persone all'interno di una scena.

HOG (Histogram of Oriented Gradients - Istogramma di gradienti orientati)

Abstract II

• Detector trifocale – Tensore trifocale combinano le visione delle due telecamere di infrarosso e le due telecamera di colore.

• Gli esperimenti fatti dagli autori certificano il maggior rendimento della metodologia multimodale del sensore trifocale invece di la metodologia monomodale.

• Queste esperimenti sonno stati fatti nelle sequenze di immagini di videosorveglianza.

Introduzione I

• Usando una combinazione di HOG nelle due caratteristiche (color e infrarosso) hanno creato un SVM per individuare persone all’interno de una scena.

• Hanno notato la differenza tra la grandezza della persona nella immagine e la profondità nella immagine

Essempio 2D di SVM (Support Vector Machines - Macchine a Vettori di Supporto)

Introduzione II

• Hanno assunto che le immagini delle telecamere possono essere trattati indipendentemente e anche combinati creando un solo output per analizzare.

• La sua valutazione finale ha dimostrato che il tensore trifocale (con la combinazione tra colore e infrarosso) ha un rendimento molto più soddisfacente per il riconoscimento de persone all’interno di una scena.

Ricerche collegate I

• Il campo della visione trifocale è molto nuovo e, per tanto, non ci sono molti articoli chi parlano di queste tipo di analisi.

• Zhang: Comparativa tra immagini di telecamere di colore e telecamere infrarossi di tipo monomodale per creare un SVM.

• Ran: Progetti con telecamare termale e de colore. Obiettivo, far vedere la possibilità di usare tecniche di analisi di immagini di colore a immagini infrarossi.

Ricerche collegate II

• Altri studi hanno esaminato il riconoscimento di persone come la fusione di immagine di colore e immagini infrarossi.

• Davis and Sharma hanno fatto un insieme di dati di video di colore e infrarosso. Questo insieme permette la comparazione pixel a pixel di tutti le immagine. Così, se può fare una omografia planare di confronto con le due tipi.

• Questi dati hanno permesso il sviluppo di algoritmi di combinazione tra colore e infrarossi.

Ricerche collegate III

• Tuttavia, la omografia planare per l'analisi delle immagini di colore e infrarossi è un po limitata, perché in quella supponiamo di potere allineare totalmente le due/tre immagini registrare (colore + infrarossi), ma a volte non è semplice.

• La migliore forma di registrare le immagini di colore e termale per analisi generale è steroimmagine che da conto della profondità e delle diversi prospettiva.

• Bertozzi: Ha disegnato una tetratelecamere per analizzare persone in telecamere di colore e termale. I risultati sono separati e dopo uniti secondo la sua posizione in 3D.

Ricerche collegate IV

• Gli autori dell’articolo hanno introdotto il fuoco trifocale.

• A traverso le estimazione de la profondità in modo monomodale se può registrare la seconda modalità con precisione usando il fuoco trifocale.

• Questo articolo amplia il campo multispettrale proposto in un altro studio, migliorando i metodi per combinare le due tipi di caratteristiche e facendo un detector di persone multispettrale.

Tensore trifocale vs Omografia

● Omografia: E tutto basato in un solo plano, quindi, le telecamere devono essere tutti in una posizione determinata per entrare nel stesso plano oppure solo possiamo analizzare un solo plano.

● Possiamo vedere come in omografia le persone sembrano molto lontani delle telecamere e della stessa scala

Tensore trifocale vs Omografia

● Tensore trifocale: Permette analizzare la immagine con diversi gradi di profondità e fa vedere chiaramente le diversi scali nelle persone.

● Se può registrare ogni singolo pixel di una immagini planare ed analizzarli.

● La variazione delle scale possono arrivare a una difficoltà maggiore per individuare la persona perché da più possibili candidati.

Tensore trifocale vs Omografia Sistema algoritmico

● Il obiettivo e studiare come il tensore trifocale affetta alle individuazione delle persone e le possibile falsi candidati.

● Per questo, si fa un sistema chi registra in modo multimodale e estrae le caratteristiche che servono per la individuazione.

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Approccio di 4 telecamere, par stereo unimodal (colore o infrarossi) combinati con un secondo par di la seconda modalità.

● Se usa la estimazione delle disparità per registrare le pixel della terza immagine con il tensore trifocale – insieme di matrici che relazionano le corrispondenze tra le immagini.

● Il tensore trifocale può essere stimato minimizzando il errore algebrico nelle corrispondenze di punti.


● Per fare il tensore sono necessari 7 corrispondenze di point-point-point.

● In pratica si usano molti di più corrispondenze per ridurre gli errori delle estimazione puntuali.

● Il risultato è scritto come segue:

Τ=[T1+T2+T3]Dove Ti è una matrice 3x3 della i-esima immaginne

● Qui, se possono determinare parametri della geometria 2D come matrici P (proiezione) e F(fondamentale) ed e.


● Sia dato un punto x' ↔ x'' se può stimare il punto del tensore trifocale con a formula.

● Otteniamo punti della terza immagini

Tensore trifocale vs OmografiaAnnotation

● Una volta fata la registrazione dobbiamo fare la annotazione.

● Positivo e negativo. I mostri positivi si fanno con le sequenze di video. Le negativi possono essere generati dal posto dove non c'è la persona

● Si fa, tanto per il stero di colore come di infrarossi.

● Lo hanno fatto solo per le persone non occluse nella immagine.

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● Se debbi estrarre le caratteristiche delle immagini per differenziare tra positive e negative.

● Hanno scelto estrarre le caratteristiche HOG simile a Dalal e Triggs.

● Queste caratteristiche codificano la rilevanza di bordi in termini di orientamento e la posizione spaziale.

● Informazione in termini di XxYxΘ, dimensione di intervalli del istogramma de larghezza, altezza e gradiente di orientazione.


● La combinazione di colori, infrarossi, e la disparità esegue l'alto nella valutazione.

● Questo è un risultato un po falsato perché il ROC se fa sol tanto con le parti delle immagini già annotati

● Quando se ha provato in un altra immagine nuova sono stato un risultato non tanto buono. In alcuni casi hanno avuto più falsi positivi che persone.


● Questi errori possono darsi perché il HOG e ottimo per individuare oggetti prossimi ai bordi, quindi, in una immagine con persone vicini al fondo danno problemi.

● Lo che hanno fatto è modellare una persona per la sua dimensione media e hanno modellato la correlazione lineare tra la dimensione de la cassa di individuazione e la mediana della disparità al interno


● La linea può essere parametrizatta come:

Ax + By + C = 0– La x e la larghezza dela immagine.

– La y è la disparità media.

● Per fare una cassa di contorno ottima calcoliamo la distanza ottima a questa linea:

Tensore trifocale vs OmografiaApprendimento e classificazione

● ΔL è un nuovo parametro che se bassa in un altra nuova proprietà fisica che combina le caratteristiche del HOG e le caratteristiche de disparità per fare una classifica comune.

● Loro usano HOG per il colore e SVM per gli infrarossi e poi fanno il croce tra queste per estimare la probabilità di avere una persona nella cassa (in una regione).

Erfc: funzione di errore complementareσ parametro di controllo deviazione standard del modellato gaussiano.

Tensore trifocale vs OmografiaApprendimento e classificazione

● La probabilità de classificazione finale è:

● Il fatto de avere la classificazione separata in due può essere vantaggioso perché se reduce il numero di cassa a studiare.

● Esempio: Se ho 100000 possibile casse, avró 10000 ad analizzare

Campo esperimentaleBanco di prova sperimentale e Acquisizione Immagine

● Sono due pari, uno di colore stereo e un altro di infrarossi

● Permette di avere Color Stereo, Infrared Stereo, Trifocal Color Stereo + Infrared (CSI), Trifocal Infrared Stereo + Color (ISC), and Tetravision approaches

● Ha una quadruple entrata di video e un allineatore di queste quattro.

● La calibrazione la hanno fato con il Matlab Camera Calibration Toolbox

Campo esperimentaleSet di dati e formazione

● Se hanno registrato 21 video (immagini slide 15), 19 per le annotazione e 2 di prova (le più complessi).

● L'analisi se ha fatto per un operatore umano.● Per cada sequenza se hanno fato il colore

stereo, trifocal CSI, stereo a infrarossi, e trifocale varianti della ISC dei dati originali utilizzando la generazione de disparità.


● Annotation of color stereo and trifocal CSI data:– 1654 campioni positivi (6 to 46 pixels).

– Per cada positivo se cercano 10 negativi, finalmente se sono stati notati 22520. Problemi con regione dense e le scale più piccoli de persone.

● Annotation of infrared stereo and trifocal ISC data:

– 1425 campioni positivi (6 to 46 pixels)– 19533 negativi


● Per formazione, se hanno ridimensionato le parti di colore e infrarossi a 24x60 pixels.

● Una dimensione di HOG di 6x15x8 è computata per cada parte di colore e infrarossi e se usa SVM con RBF (Radial Basis Function)

● Se usano sistema di croce per ottenere gli stimatori probabilistici per tutte quattro combinazione di colore e infrarossi.

● Hanno ottenuto una estimazione lineare per colore e infrarossi de la altura della cassa.

Valutazione esperimentale

● Le false positive sono stati perché la cassa no era su una persona oppure perché il classificatore non ha riconosciuto a la persona all'interno.

● Tutti esperimenti sono stati offline.● Per fare un analisi a tempo reale era

necessario una SVM a tempo reale.● Attualmente si se fa in tempo reale

Valutazione esperimentaleConfronto

● Soglia di probabilità di rilevamento è stato fissato al 80%, 85%, 90%, e il 95%.


● Probabilità di rilevamento è stato fissato al 90%


● Chiaramente, i due classificatori trifocale superano i classificatori singola modalità con un ampio margine

● Per un tasso di falsi positivi di uno per fotogramma, i classificatori multimodali aumentano il tasso di rilevamento di oltre il 45%, da 0,65 a quasi 0,95.

● Questo approccio trifocale è più adatto a rilevare pedoni rispetto alla classificazione indipendenti. Per una percentuale di falsi positivi di uno per frame, vediamo un aumento della rilevazione di quasi il 20%


● L'analisi in infrarossi hanno dato migliore risultati del di colore, questo può sembrare strano in un primo analisi, ma si spiega con il fatto de che a più densità, più difficoltà di individuazione:– Gli infrarossi hanno più densità nelle casse che c'è una persona, e

quindi e più facile avere casi positivi.

– A volte, nel colore il fondo ha un colore molto similare a le persone, e quindi ci sono più falsi positivi.

● Tuttavia, il caso contrario e vero, nel analisi SVM funziona meglio il colore.

● Ci aspettiamo che quando non se può registrare su infrarossi (nella notte) i risultati se assimilano alle sue analisi unimodali.

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali


● Tasso complessivo di rilevamento del 92.15% con 0,606 falsi positivi per fotogramma.

● Tale coerenza enfatizza ulteriormente i vantaggi di utilizzare il quadro CSI trifocal.


● Il tasso di rilevamento risulta relativamente alto, abbiamo anche raggiunto un apparentemente alto tasso di falsi positivi del 0,606 falsi positivi per frame (FPP).

● I falsi positivi nelle immagini sono mostrate in giallo. ● I nostri analisi hanno dimostrato che la stragrande maggioranza dei falsi

positivi generati si trovano nelle aree indicate in questi esempi.● Obiettivo: Riqualificare la SVM di raggiungere un tasso di falsi positivi

inferiore.

Valutazione esperimentale Test in ambienti differenti

● Il classificatore basato nella disparità è stato riqualificato per tenere conto del cambiamento in funzione della disparità della dimensione de la cassa nella nuova prospettiva.

● Il trifocal CSI è in grado di rilevare con successo ogni persona senza falsi positivi, mentre il trifocal ISC classificatore rileva tutti, meno un solo pedonale, ancora una volta senza alcun falso positivo.

● No hanno modellato le altre oggetti della foto (arboli, erba..etc) sol tanto se ha usato il stesso modello di prima.




● Possiamo vedere una nota diminuzione del tasso di rilevazione.

● Può essere per la classificazione de una immagine che non ha aiuto del classificatore allenato.

● Anche gli immagini hanno il doppio di persone e questo incrementa la possibilità della occlusione.

Valutazione esperimentale Detezione di filtrato temporale e puntamento

● Credono che questi tassi di rilevamento per fotogramma che otteno sono davvero il limite inferiore e che l'aumento delle prestazioni può venire dall'analisi temporale di rilevazioni del per-frame.

● Tutti falsi positivi sono stati per una mala elezione di marco o cassa che se corregge nelle seguenti analisi.

● Tutti gli errori possono essere considerati un errore di grandezza del marco.

Valutazione esperimentale Rilevazione di filtrato temporale e puntamento

● Qui si mostra una successione de immagini propria dell'analisi

● In cerchio di colore (rosso, blue verde e rosa) se evidenziano le vere positivi nella traiettoria e in cerchio gialli le falsi positivi.

● Se può vedere che con questo analisi trifocale se può ricostruire la sequenza de tutte le persone a anche la interazione tra oggetti

● Quindi, se guarda un sistema di sorveglianza abbastanza robusto e solido.

Conclusione I

● Hanno presentato una metodologia per analizzare in forma multimodale e multiprospettiva la immagini di sorveglianza.

● Incorporando un sistema di 4 telecamere (due telecamere di colore e due de infrarossi) mostrando un risultato più soddisfatto e completo dalle analisi anteriori unimodali.

● Hanno presentato un sistema algoritmico che combina probabilisticamente un SVM addestrato sulle caratteristiche HOG estratte da colori e immagini a infrarossi con un sensore basato sul rapporto tra dimensione delle persone e la profondità nella scena per creare un rilevatore in base disparità.

● Hanno addestrato il rilevatore per le 4 possibilità di: color stereo, infrared stereo, tetravision, and trifocal tensor configurations.

Conclusione II

● Dopo, hanno valutato il suo sistema e hanno visto che il tensore trifocale che combina le immagini di colore e infrarossi in una sola è molto più buono delle analisi monomodale. La valutazione dimostra un miglioramento molto considerabili delle prestazione è un sistema robusto.

● La configurazione trifocale e le tetratelecamere superano in rendimento a le sue caratteristiche monomodale.

● Anche le sue valutazione dimostrano che il sistema da buoni risultati su immagini di tipo generale e provvede robusti input per analisi posteriori.

Sumary of Person Surveillance Using Visual and Infrared Imagery

Technology