Top Banner
Person Surveillance Using Visual and Infrared Imagery Author: Stephen J. Krotosky and Mohan Manubhai Trivedi
42

Sumary of Person Surveillance Using Visual and Infrared Imagery

Jan 24, 2017

Download

Technology

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Sumary of Person Surveillance Using Visual and Infrared Imagery

Person Surveillance Using Visual and Infrared Imagery

Author: Stephen J. Krotosky and Mohan Manubhai Trivedi

Page 2: Sumary of Person Surveillance Using Visual and Infrared Imagery

Abstract I

• Metodologia per analizzare i sistemi multimodali e multiprospettiva di sorveglianza di persone.

• Materiali:– Due telecamera di colore– Due telecamere a infrarossi

• Usando un algoritmo basato in HOG hanno creato un sistema probabilistico per evaluare il riconoscimento de persone all'interno di una scena.

HOG (Histogram of Oriented Gradients - Istogramma di gradienti orientati)

Page 3: Sumary of Person Surveillance Using Visual and Infrared Imagery

Abstract II

• Detector trifocale – Tensore trifocale combinano le visione delle due telecamere di infrarosso e le due telecamera di colore.

• Gli esperimenti fatti dagli autori certificano il maggior rendimento della metodologia multimodale del sensore trifocale invece di la metodologia monomodale.

• Queste esperimenti sonno stati fatti nelle sequenze di immagini di videosorveglianza.

Page 4: Sumary of Person Surveillance Using Visual and Infrared Imagery

Introduzione I

• Usando una combinazione di HOG nelle due caratteristiche (color e infrarosso) hanno creato un SVM per individuare persone all’interno de una scena.

• Hanno notato la differenza tra la grandezza della persona nella immagine e la profondità nella immagine

Essempio 2D di SVM (Support Vector Machines - Macchine a Vettori di Supporto)

Page 5: Sumary of Person Surveillance Using Visual and Infrared Imagery

Introduzione II

• Hanno assunto che le immagini delle telecamere possono essere trattati indipendentemente e anche combinati creando un solo output per analizzare.

• La sua valutazione finale ha dimostrato che il tensore trifocale (con la combinazione tra colore e infrarosso) ha un rendimento molto più soddisfacente per il riconoscimento de persone all’interno di una scena.

Page 6: Sumary of Person Surveillance Using Visual and Infrared Imagery

Ricerche collegate I

• Il campo della visione trifocale è molto nuovo e, per tanto, non ci sono molti articoli chi parlano di queste tipo di analisi.

• Zhang: Comparativa tra immagini di telecamere di colore e telecamere infrarossi di tipo monomodale per creare un SVM.

• Ran: Progetti con telecamare termale e de colore. Obiettivo, far vedere la possibilità di usare tecniche di analisi di immagini di colore a immagini infrarossi.

Page 7: Sumary of Person Surveillance Using Visual and Infrared Imagery

Ricerche collegate II

• Altri studi hanno esaminato il riconoscimento di persone come la fusione di immagine di colore e immagini infrarossi.

• Davis and Sharma hanno fatto un insieme di dati di video di colore e infrarosso. Questo insieme permette la comparazione pixel a pixel di tutti le immagine. Così, se può fare una omografia planare di confronto con le due tipi.

• Questi dati hanno permesso il sviluppo di algoritmi di combinazione tra colore e infrarossi.

Page 8: Sumary of Person Surveillance Using Visual and Infrared Imagery

Ricerche collegate III

• Tuttavia, la omografia planare per l'analisi delle immagini di colore e infrarossi è un po limitata, perché in quella supponiamo di potere allineare totalmente le due/tre immagini registrare (colore + infrarossi), ma a volte non è semplice.

• La migliore forma di registrare le immagini di colore e termale per analisi generale è steroimmagine che da conto della profondità e delle diversi prospettiva.

• Bertozzi: Ha disegnato una tetratelecamere per analizzare persone in telecamere di colore e termale. I risultati sono separati e dopo uniti secondo la sua posizione in 3D.

Page 9: Sumary of Person Surveillance Using Visual and Infrared Imagery

Ricerche collegate IV

• Gli autori dell’articolo hanno introdotto il fuoco trifocale.

• A traverso le estimazione de la profondità in modo monomodale se può registrare la seconda modalità con precisione usando il fuoco trifocale.

• Questo articolo amplia il campo multispettrale proposto in un altro studio, migliorando i metodi per combinare le due tipi di caratteristiche e facendo un detector di persone multispettrale.

Page 10: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs Omografia

● Omografia: E tutto basato in un solo plano, quindi, le telecamere devono essere tutti in una posizione determinata per entrare nel stesso plano oppure solo possiamo analizzare un solo plano.

● Possiamo vedere come in omografia le persone sembrano molto lontani delle telecamere e della stessa scala

Page 11: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs Omografia

● Tensore trifocale: Permette analizzare la immagine con diversi gradi di profondità e fa vedere chiaramente le diversi scali nelle persone.

● Se può registrare ogni singolo pixel di una immagini planare ed analizzarli.

● La variazione delle scale possono arrivare a una difficoltà maggiore per individuare la persona perché da più possibili candidati.

Page 12: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs Omografia Sistema algoritmico

● Il obiettivo e studiare come il tensore trifocale affetta alle individuazione delle persone e le possibile falsi candidati.

● Per questo, si fa un sistema chi registra in modo multimodale e estrae le caratteristiche che servono per la individuazione.

Page 13: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Approccio di 4 telecamere, par stereo unimodal (colore o infrarossi) combinati con un secondo par di la seconda modalità.

● Se usa la estimazione delle disparità per registrare le pixel della terza immagine con il tensore trifocale – insieme di matrici che relazionano le corrispondenze tra le immagini.

● Il tensore trifocale può essere stimato minimizzando il errore algebrico nelle corrispondenze di punti.

Page 14: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Per fare il tensore sono necessari 7 corrispondenze di point-point-point.

● In pratica si usano molti di più corrispondenze per ridurre gli errori delle estimazione puntuali.

● Il risultato è scritto come segue:

Τ=[T1+T2+T3]Dove Ti è una matrice 3x3 della i-esima immaginne

● Qui, se possono determinare parametri della geometria 2D come matrici P (proiezione) e F(fondamentale) ed e.

Page 15: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaRegistrazione delle immagini

● Sia dato un punto x' ↔ x'' se può stimare il punto del tensore trifocale con a formula.

● Otteniamo punti della terza immagini

Page 16: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaAnnotation

● Una volta fata la registrazione dobbiamo fare la annotazione.

● Positivo e negativo. I mostri positivi si fanno con le sequenze di video. Le negativi possono essere generati dal posto dove non c'è la persona

● Si fa, tanto per il stero di colore come di infrarossi.

● Lo hanno fatto solo per le persone non occluse nella immagine.

Page 17: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● Se debbi estrarre le caratteristiche delle immagini per differenziare tra positive e negative.

● Hanno scelto estrarre le caratteristiche HOG simile a Dalal e Triggs.

● Queste caratteristiche codificano la rilevanza di bordi in termini di orientamento e la posizione spaziale.

● Informazione in termini di XxYxΘ, dimensione di intervalli del istogramma de larghezza, altezza e gradiente di orientazione.

Page 18: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● La combinazione di colori, infrarossi, e la disparità esegue l'alto nella valutazione.

● Questo è un risultato un po falsato perché il ROC se fa sol tanto con le parti delle immagini già annotati

● Quando se ha provato in un altra immagine nuova sono stato un risultato non tanto buono. In alcuni casi hanno avuto più falsi positivi che persone.

Page 19: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● Questi errori possono darsi perché il HOG e ottimo per individuare oggetti prossimi ai bordi, quindi, in una immagine con persone vicini al fondo danno problemi.

● Lo che hanno fatto è modellare una persona per la sua dimensione media e hanno modellato la correlazione lineare tra la dimensione de la cassa di individuazione e la mediana della disparità al interno

Page 20: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaCaratterizzazione delle immagini

● La linea può essere parametrizatta come:

Ax + By + C = 0– La x e la larghezza dela immagine.

– La y è la disparità media.

● Per fare una cassa di contorno ottima calcoliamo la distanza ottima a questa linea:

Page 21: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaApprendimento e classificazione

● ΔL è un nuovo parametro che se bassa in un altra nuova proprietà fisica che combina le caratteristiche del HOG e le caratteristiche de disparità per fare una classifica comune.

● Loro usano HOG per il colore e SVM per gli infrarossi e poi fanno il croce tra queste per estimare la probabilità di avere una persona nella cassa (in una regione).

Erfc: funzione di errore complementareσ parametro di controllo deviazione standard del modellato gaussiano.

Page 22: Sumary of Person Surveillance Using Visual and Infrared Imagery

Tensore trifocale vs OmografiaApprendimento e classificazione

● La probabilità de classificazione finale è:

● Il fatto de avere la classificazione separata in due può essere vantaggioso perché se reduce il numero di cassa a studiare.

● Esempio: Se ho 100000 possibile casse, avró 10000 ad analizzare

Page 23: Sumary of Person Surveillance Using Visual and Infrared Imagery

Campo esperimentaleBanco di prova sperimentale e Acquisizione Immagine

● Sono due pari, uno di colore stereo e un altro di infrarossi

● Permette di avere Color Stereo, Infrared Stereo, Trifocal Color Stereo + Infrared (CSI), Trifocal Infrared Stereo + Color (ISC), and Tetravision approaches

● Ha una quadruple entrata di video e un allineatore di queste quattro.

● La calibrazione la hanno fato con il Matlab Camera Calibration Toolbox

Page 24: Sumary of Person Surveillance Using Visual and Infrared Imagery

Campo esperimentaleSet di dati e formazione

● Se hanno registrato 21 video (immagini slide 15), 19 per le annotazione e 2 di prova (le più complessi).

● L'analisi se ha fatto per un operatore umano.● Per cada sequenza se hanno fato il colore

stereo, trifocal CSI, stereo a infrarossi, e trifocale varianti della ISC dei dati originali utilizzando la generazione de disparità.

Page 25: Sumary of Person Surveillance Using Visual and Infrared Imagery

Campo esperimentaleSet di dati e formazione

● Annotation of color stereo and trifocal CSI data:– 1654 campioni positivi (6 to 46 pixels).

– Per cada positivo se cercano 10 negativi, finalmente se sono stati notati 22520. Problemi con regione dense e le scale più piccoli de persone.

● Annotation of infrared stereo and trifocal ISC data:

– 1425 campioni positivi (6 to 46 pixels)– 19533 negativi

Page 26: Sumary of Person Surveillance Using Visual and Infrared Imagery

Campo esperimentaleSet di dati e formazione

● Per formazione, se hanno ridimensionato le parti di colore e infrarossi a 24x60 pixels.

● Una dimensione di HOG di 6x15x8 è computata per cada parte di colore e infrarossi e se usa SVM con RBF (Radial Basis Function)

● Se usano sistema di croce per ottenere gli stimatori probabilistici per tutte quattro combinazione di colore e infrarossi.

● Hanno ottenuto una estimazione lineare per colore e infrarossi de la altura della cassa.

Page 27: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale

● Le false positive sono stati perché la cassa no era su una persona oppure perché il classificatore non ha riconosciuto a la persona all'interno.

● Tutti esperimenti sono stati offline.● Per fare un analisi a tempo reale era

necessario una SVM a tempo reale.● Attualmente si se fa in tempo reale

Page 28: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleConfronto

● Soglia di probabilità di rilevamento è stato fissato al 80%, 85%, 90%, e il 95%.

Page 29: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleConfronto

● Probabilità di rilevamento è stato fissato al 90%

Page 30: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleConfronto

● Chiaramente, i due classificatori trifocale superano i classificatori singola modalità con un ampio margine

● Per un tasso di falsi positivi di uno per fotogramma, i classificatori multimodali aumentano il tasso di rilevamento di oltre il 45%, da 0,65 a quasi 0,95.

● Questo approccio trifocale è più adatto a rilevare pedoni rispetto alla classificazione indipendenti. Per una percentuale di falsi positivi di uno per frame, vediamo un aumento della rilevazione di quasi il 20%

Page 31: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleConfronto

● L'analisi in infrarossi hanno dato migliore risultati del di colore, questo può sembrare strano in un primo analisi, ma si spiega con il fatto de che a più densità, più difficoltà di individuazione:– Gli infrarossi hanno più densità nelle casse che c'è una persona, e

quindi e più facile avere casi positivi.

– A volte, nel colore il fondo ha un colore molto similare a le persone, e quindi ci sono più falsi positivi.

● Tuttavia, il caso contrario e vero, nel analisi SVM funziona meglio il colore.

● Ci aspettiamo che quando non se può registrare su infrarossi (nella notte) i risultati se assimilano alle sue analisi unimodali.

Page 32: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

Page 33: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

● Tasso complessivo di rilevamento del 92.15% con 0,606 falsi positivi per fotogramma.

● Tale coerenza enfatizza ulteriormente i vantaggi di utilizzare il quadro CSI trifocal.

Page 34: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentaleAnalisi estesa di rivelatori trifocali

● Il tasso di rilevamento risulta relativamente alto, abbiamo anche raggiunto un apparentemente alto tasso di falsi positivi del 0,606 falsi positivi per frame (FPP).

● I falsi positivi nelle immagini sono mostrate in giallo. ● I nostri analisi hanno dimostrato che la stragrande maggioranza dei falsi

positivi generati si trovano nelle aree indicate in questi esempi.● Obiettivo: Riqualificare la SVM di raggiungere un tasso di falsi positivi

inferiore.

Page 35: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Test in ambienti differenti

● Il classificatore basato nella disparità è stato riqualificato per tenere conto del cambiamento in funzione della disparità della dimensione de la cassa nella nuova prospettiva.

● Il trifocal CSI è in grado di rilevare con successo ogni persona senza falsi positivi, mentre il trifocal ISC classificatore rileva tutti, meno un solo pedonale, ancora una volta senza alcun falso positivo.

● No hanno modellato le altre oggetti della foto (arboli, erba..etc) sol tanto se ha usato il stesso modello di prima.

Page 36: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Test in ambienti differenti

Page 37: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Test in ambienti differenti

Page 38: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Test in ambienti differenti

● Possiamo vedere una nota diminuzione del tasso di rilevazione.

● Può essere per la classificazione de una immagine che non ha aiuto del classificatore allenato.

● Anche gli immagini hanno il doppio di persone e questo incrementa la possibilità della occlusione.

Page 39: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Detezione di filtrato temporale e puntamento

● Credono che questi tassi di rilevamento per fotogramma che otteno sono davvero il limite inferiore e che l'aumento delle prestazioni può venire dall'analisi temporale di rilevazioni del per-frame.

● Tutti falsi positivi sono stati per una mala elezione di marco o cassa che se corregge nelle seguenti analisi.

● Tutti gli errori possono essere considerati un errore di grandezza del marco.

Page 40: Sumary of Person Surveillance Using Visual and Infrared Imagery

Valutazione esperimentale Rilevazione di filtrato temporale e puntamento

● Qui si mostra una successione de immagini propria dell'analisi

● In cerchio di colore (rosso, blue verde e rosa) se evidenziano le vere positivi nella traiettoria e in cerchio gialli le falsi positivi.

● Se può vedere che con questo analisi trifocale se può ricostruire la sequenza de tutte le persone a anche la interazione tra oggetti

● Quindi, se guarda un sistema di sorveglianza abbastanza robusto e solido.

Page 41: Sumary of Person Surveillance Using Visual and Infrared Imagery

Conclusione I

● Hanno presentato una metodologia per analizzare in forma multimodale e multiprospettiva la immagini di sorveglianza.

● Incorporando un sistema di 4 telecamere (due telecamere di colore e due de infrarossi) mostrando un risultato più soddisfatto e completo dalle analisi anteriori unimodali.

● Hanno presentato un sistema algoritmico che combina probabilisticamente un SVM addestrato sulle caratteristiche HOG estratte da colori e immagini a infrarossi con un sensore basato sul rapporto tra dimensione delle persone e la profondità nella scena per creare un rilevatore in base disparità.

● Hanno addestrato il rilevatore per le 4 possibilità di: color stereo, infrared stereo, tetravision, and trifocal tensor configurations.

Page 42: Sumary of Person Surveillance Using Visual and Infrared Imagery

Conclusione II

● Dopo, hanno valutato il suo sistema e hanno visto che il tensore trifocale che combina le immagini di colore e infrarossi in una sola è molto più buono delle analisi monomodale. La valutazione dimostra un miglioramento molto considerabili delle prestazione è un sistema robusto.

● La configurazione trifocale e le tetratelecamere superano in rendimento a le sue caratteristiche monomodale.

● Anche le sue valutazione dimostrano che il sistema da buoni risultati su immagini di tipo generale e provvede robusti input per analisi posteriori.