Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe Riccardi et Jerry Wright dijana . petrovska @ tsi . enst . fr http://www. tsi . enst . fr /~ petrovsk Conférence à l’ENST, le 17 mai 2001
27
Embed
Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Acquisition automatique de « morphèmes acoustiques » pour
la compréhension langagière
Dijana PETROVSKA-DELACRETAZ travail en commun avec
Parole est un moyen de communication familier ::moyen privilégié pour le dialogue homme-machine
Notre objectif ::dialoguer en langage spontané avec des machines
3
Méthodes actuelles =>=> besoin des corpus de parole annotés manuellement et spécifiques pour chaque tâche
Objectif =>=> développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions
Tâche difficile =>=> commencer avec un reconnaisseur phonétique
Evaluation =>=> unités apprises automatiquement, utilisés pour la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T
4
Plan
1 Etat de l’art2 Base de données et pre-traitement3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation4 Détection de ces morphèmes 5 Evaluation expérimentale =>=> classification de requêtes téléphoniques6 Conclusions7 Perspectives
5
1 Etat de l’art
Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte
Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés
Deligne et Bimbot - 1997;Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences d’unités de longueur variable dans de la parole continue
Notre objectif: exploiter la parole et sa signification pour la compréhension du langage sans transcriptions
6
2. Base de données utilisée
Corpus « How may I help you ?» (HMIHY) : transactions téléphoniques classées par type d’appel;appels + actions associées(7462 apprentissage et 1000 test)
Reconnaisseur phonétique indépendant de la tâche :
Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Taux de reconnaissance, sur les données de test de HMIHY
44% de phones reconnus correctement dans le meilleur chemin 68% dans le treillis phonétique
ASR-phone-train et ASR-phone-test
7
Comme référence :
utilisation des transcriptions des appels en mots => transcr-word-train et -test
Evaluer nos algorithmes dans le cas idéal (reconnaisseur de phones parfait) : remplacer chaque mot transcrit par sa prononciation la plus probable, sans les silences ;
« calling card » = « K ao l ih ng K aa r D » => transcr-phone-train et –test
8
2.1 Caractérisation des données ASR-phone
9
3. Morphèmes acoustiques - définitions
Morphème acoustique f = forme acoustique associée à une action = séquence f de phones pi : f = p1 p2 … pn ;
Mesure de son utilité pour la reconnaissance est évaluée par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn)
Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori, avec C =15 types d’appel de HMIHY:
fcPfP iCCi
maxmax
10
3.2 Morphèmes : schéma d’acquisition
Algorithme itératif
Seuil de sélection
Algorithme de regroupement
11
3.3 MI des séquences pré-sélectionnées
12
3.4 Pmax des séquences pré-sélectionnées
13
3.4 Séquences pertinentes
Séquences pré-sélectionnées: seuil sur Pmax >= 0.6 Exemples de séquences pertinentes, associées à collect :
Séquence Pmax Séquence pertinente
f1 0.81 K ax l eh K T
f2 0.91 K ax l eh K T K ao l
f3 0.91 bos K ax l eh K T K ao l
f4 0.97 K ax l eh K T K ao l eos
f5 0.87 K l ay K K
f6 0.92 K l ay K K ao l D
f7 0.91 P l ey s ih K l ay K
f8 0.94 P l ey s ih K l ay K K ao l
14
3.5 On arrive au « Morphème acoustique »
En utilisant une mesure de distorsion segmentale et semantique On les représente par des automates à états finis Exemple d’un morphème acoustique f (associé a collect) :
l Kay ao lK ao
aa
m
K
K
K
T
eh
eh
D
ax
15
4. Détection des morphèmes acoustiques
Classification des appels, basée sur la détection des morphèmes acoustiques
Meilleur chemin de la reco de phonèmes : 42% des appels, aucun morphème trouvé
=> classification impossible de ces appels => résultats non satisfaisants
=> les treillis du reconnaisseur phonétique
16
4.1 Détections dans les treillis de phonèmes
Treillis:
représentation des distributions d’hypothèses de reconnaissance alternatives (automates à états finis)
utilisés sous forme de : treillis complets ou treillis élagués, seuil r : ri =< r avec ri = pi / p1, et pi = prob. du chemin i