Implementazione su GPU di un Implementazione su GPU di un sistema per l'interazione sistema per l'interazione
multimodale con ambienti multimodale con ambienti intelligenti.intelligenti.
Tesi di laurea in SISTEMI OPERATIVI
Relatore:Prof. Ing. Enzo MUMOLO
Laureando:Simone CUMAR
UNIVERSITA’ DEGLI STUDI DI TRIESTEFACOLTA’ DI INGEGNERIA
Dipartimento di Ingegneria Industriale e dell'Informazione
Introduzione - 1
Segnale
Logica di Alto Livello
PosizioneAmbiente
Arraymicrof.
Algoritmi di basso livello
Audio a distanza
Localizzazionesorgenti
Riconoscimento comandi
Comando
Introduzione – 2• Audio a distanza
Eliminare il rumore ambientale dovuto ad echi, riverberi e altre sorgenti acustiche.
• Riconoscimento comandiPossibile solo o con microfono vicino o con microfoni distanti, ma eliminando il rumore ambientale.
• LocalizzazioneL'interazione può dipendere dalla posizione dell'utente.
Introduzione – 3Strumenti Utilizzati
Schiera 8 microfoni
Scheda acquisizione audio
Nvidia Geforce GTX-580
S.O. Linux con kernel low-latency
Valgrind
Windows XP + Dragon Naturally Speaking
Piano di lavoro
CUDABeamformIt
✔ Segnale più pulito✔ Tempo di esecuzione minore✔ Tempi di ritardo localizzazione
RisultatiBeamforming: Diminuzione del rumore.
Prima
Dopo
Risultati
CUDA: Speed up ottenuti dopo la ‘‘cura’’
10s 30s 1m 1m32s(1x) 2x 4x 8x 16x0
2
4
6
8
10
12
14
XCorrXCorr-FullReal
Quantità di dati
Sp
eed
up
Possibili Applicazioni
Comandi robotici
Vai avanti, torna indietro, vieni qui...
Assistenza domestica
Telefono 118, allarme...
Comandi domotici
Accendi la luce, apri la porta...
Comando Vocale
Step da seguire:
BeamformIt applicato sul flusso audio. Invio del risultato tramite socket. API di Dragon per la comprensione. Ricezione del risultato. Apriti
Sesamo!
Conclusioni
I test eseguiti hanno dato un esito soddisfacente.
È assolutamente necessario un periodo di addestramento del riconoscitore vocale.
È preferibile mirare l'addestramento verso alcuni comandi particolari.