Une Grammaire Noyau Une Grammaire Noyau pour l'analyse syntaxique de pour l'analyse syntaxique de structures présentes dans tout structures présentes dans tout type de corpus type de corpus Núria Gala Pavia Núria Gala Pavia Xerox Research Centre Europe Xerox Research Centre Europe et LIMSI-CNRS et LIMSI-CNRS [email protected][email protected]S éminaire du groupe Langage et éminaire du groupe Langage et Cognition Cognition Orsay, 5 décembre 2000 Orsay, 5 décembre 2000
44
Embed
Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus
Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus. Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS [email protected]. S éminaire du groupe Langage et Cognition Orsay, 5 décembre 2000. Analyseurs robustes. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Une Grammaire Noyau Une Grammaire Noyau pour l'analyse syntaxique de structures pour l'analyse syntaxique de structures
présentes dans tout type de corpusprésentes dans tout type de corpus
Núria Gala PaviaNúria Gala Pavia
Xerox Research Centre Europe Xerox Research Centre Europe
“ “Certains accessoires Certains accessoires inappropiinappropiéés s modifient modifient la positionla position normale normale de pilotage.de pilotage.””
• Grammaires Grammaires Syntagmatiques Syntagmatiques Noyau Noyau ((chunkschunks))• Grammaires de Grammaires de DépendancesDépendances
4.4. Conclusions et perspectivesConclusions et perspectives
1. Problématique de la thèse1. Problématique de la thèse
• Texte “libre” en grandes quantitésTexte “libre” en grandes quantités• Grande variété de phénomènes Grande variété de phénomènes • Encodage de l’information Encodage de l’information
• formes appauvries (phrases dans des mails, formes appauvries (phrases dans des mails, titres “télégraphiques”…)titres “télégraphiques”…)
• formes enrichies (marques structurelles, formes enrichies (marques structurelles, marques pragmatiques…)marques pragmatiques…)
Variété et Hétérogénéité des corpusVariété et Hétérogénéité des corpus
Phénomènes “non standard” pour une grammaire : Phénomènes “non standard” pour une grammaire :
séquences linguistiques ou extralinguistiques séquences linguistiques ou extralinguistiques non modeliséesnon modelisées
Présents dans les corpus de façon hétérogène:Présents dans les corpus de façon hétérogène:
• fréquents dans tous les domainesfréquents dans tous les domaines
• particuliers à un type de corpus .particuliers à un type de corpus .
Exemples de Phénomènes “non standard”Exemples de Phénomènes “non standard”
L’Ecole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6) accueille du 28 janvier au 6 mars “Les images médiatiques et la ville” , une exposition comprenant 45.000 timbres de France, d’Allemagne, d’Espagne et des pays de l’ex-bloc de l’Est.
(Le Monde)
Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos)
Autres Exemples “non standard”Autres Exemples “non standard”
Sur les modèles à partir de 1966 :
1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour,
2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage.
(Manuel technique)
017 -- oui là je malheureusement je / je peux vous le confirmer
(Transcription de l’oral)
Problèmes actuelsProblèmes actuels
• Ensemble de phénomènes “non standard”: Ensemble de phénomènes “non standard”: pourcentage considérable dans les corpuspourcentage considérable dans les corpus..
• Les architectures des analyseurs actuels Les architectures des analyseurs actuels ne ne permettent pas une adaptation facile à des permettent pas une adaptation facile à des domaines différents.domaines différents.
Récapitulatif sur l’architectureRécapitulatif sur l’architecture
• RéconfigurabilitéRéconfigurabilité des grammaires des grammaires
en fonction du contenu des corpus (modularité: en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ;grammaire noyau et grammaires spécialisées) ;
• AdaptabilitéAdaptabilité du résultat du résultat
par rapport à des structures déjà bien par rapport à des structures déjà bien analysées (apprentissage).analysées (apprentissage).
3. Création d’un parseur modulaire3. Création d’un parseur modulaire
texte découpé en constituants avec liste de texte découpé en constituants avec liste de relations de dépendance pour chaque phraserelations de dépendance pour chaque phrase
• indépendant des règles de la grammaire indépendant des règles de la grammaire
expressions regulières améliorées avec traits expressions regulières améliorées avec traits
Nous utilisons ce moteur pour créer notre propre…Nous utilisons ce moteur pour créer notre propre…
• découpage en découpage en constituantsconstituants ( (chunkingchunking))
• extraction de extraction de dépendancesdépendances
De façon modulaireDe façon modulaire
Vue d’ensemble du parseurVue d’ensemble du parseur
input
output
ChunkingExtraction de dépendances
Traitements morphologiques
ParseurParseur
3.1 Chunking3.1 Chunking
• Découpage en constituantsDécoupage en constituants
• Approche modulaire linguistiquement motivéeApproche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes (prise en compte de la variété de phénomènes dans des corpus très différents)dans des corpus très différents)
• Trois étapes de traitement différentes faites par:Trois étapes de traitement différentes faites par:
• un grammaire noyauun grammaire noyau
• un module de diagnosticun module de diagnostic
• des grammaires spécialiséesdes grammaires spécialisées
Vue d’ensemble du parseurVue d’ensemble du parseur
input
output
ChunkingExtraction de dépendances
Traitements morphologiques
g2
noyau
diagnosticgng1
(a) Grammaire Noyau(a) Grammaire Noyau
Ensemble de règles de l’analyseurEnsemble de règles de l’analyseur
• permettant permettant
• le découpage d’un corpus en constituants ;le découpage d’un corpus en constituants ;
• l’envoi de l’envoi de quelquesquelques phrases vers le module phrases vers le module d’extraction de dépendances ;d’extraction de dépendances ;
• garantisant garantisant
• un taux de un taux de couverture couverture minimaleminimale pour tout pour tout corpus (e.g. 25%);corpus (e.g. 25%);
• un un rappelrappel et une et une précision précision maximalesmaximales quel que quel que soit le type de corpus (soit le type de corpus (e.g. plus que 90%e.g. plus que 90%).).
MesuresMesures
• couverturecouverture: :
phrases analysées correctement avec GNphrases analysées correctement avec GN
“En dépit d’un désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion d’une conférence qui relancerait le processus démocratique.”
[Le Monde]
• Découpage en segments de base:Découpage en segments de base:
• Découpage en segments additionnelsDécoupage en segments additionnels
• Marquage de phrases de premier niveauMarquage de phrases de premier niveau
MéthodeMéthode
Objectifs de la Grammaire NoyauObjectifs de la Grammaire Noyau
• Analyser des phrases deAnalyser des phrases de premierpremier niveau niveau
structures couvertes par la Grammaire Noyau structures couvertes par la Grammaire Noyau quel que soit le type de corpus;quel que soit le type de corpus;
• Détecter des phrases de Détecter des phrases de deuxième niveaudeuxième niveau
pour lesquelles il faudra des modules d’analyse pour lesquelles il faudra des modules d’analyse spécialisés.spécialisés.
Architecture Architecture
premier niveaupremier niveau deuxième niveaudeuxième niveau
ChunkingChunking et et TriTri
Modules spécialisésModules spécialisés
Module de ‘diagnostic’Module de ‘diagnostic’
DépendancesDépendances output
input
Module noyauModule noyau
• Création de plusieurs versions de la grammaireCréation de plusieurs versions de la grammaire
• Moyen de contrôler la diversité de structures des Moyen de contrôler la diversité de structures des corpus tout venantcorpus tout venant
• Chaque version plus riche que la précédente Chaque version plus riche que la précédente (admettant des structures plus complexes du point (admettant des structures plus complexes du point de vue de l’analyse syntaxique)de vue de l’analyse syntaxique)
VersionsVersions
• Maintient d’un taux de précision et de rappel très Maintient d’un taux de précision et de rappel très élévésélévés
• Quand la précision et le rappel vont se dégrader de Quand la précision et le rappel vont se dégrader de façon considérable par l’ajout de nouvelles règles façon considérable par l’ajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) (limite entre premier et deuxième niveau)
• Les phrases analysées avec une précision faible Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus auront besoin de traitements syntaxiques plus puissantspuissants
-documents d’économie et financesdocuments d’économie et finances
Résultats du Résultats du chunkingchunking
0%
20%
40%
60%
80%
100%
v5 v6 v7
Couverture
Precision
Rappel
Rappel architecture Rappel architecture
premier niveaupremier niveau deuxième niveaudeuxième niveau
ChunkingChunking et et TriTri
Modules spécialisésModules spécialisés
Module de ‘diagnostic’Module de ‘diagnostic’
DépendancesDépendances output
input
Module noyauModule noyau
• Les phrases en entrée ont été partiellement Les phrases en entrée ont été partiellement découpées en constituants de base par le module découpées en constituants de base par le module noyaunoyau
• En raison de la présence de structures de En raison de la présence de structures de deuxième niveau ce découpage peut êtredeuxième niveau ce découpage peut être
• détecter le ou les phénomène(s) syntaxiques détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrasecomplexes présents dans chaque phrase
• les orienter vers la grammaire spécialisée les orienter vers la grammaire spécialisée correspondantecorrespondante
Buts du module de diagnosticButs du module de diagnostic
• Module fondamental car les traitements Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic syntaxiques suivants dépendent du diagnostic établi ici.établi ici.
(c) Modules spécialisés(c) Modules spécialisés
• Chacun est dedié à l’analyse d’un phénomène Chacun est dedié à l’analyse d’un phénomène spécifique ;spécifique ;
• Une même phrase peut être dirigée à plus d’un Une même phrase peut être dirigée à plus d’un module si elle contient plus d’un phénomène ;module si elle contient plus d’un phénomène ;
Jean mangeJean mange une pomme une pomme JeanJean mangemange une une pommepomme Jean Jean est pompierest pompier Jean Jean est gentilest gentil Jean Jean vient de Parisvient de Paris Jean estJean est appellé par Paulappellé par Paul JeanJean vient rapidementvient rapidement Jean DupontJean Dupont est gentilest gentilJean mange une Jean mange une pomme du jardinpomme du jardin Jean mange uneJean mange une pomme vertepomme verte Jean craint sesJean craint ses vieux ennemisvieux ennemis
Evaluation des dépendancesEvaluation des dépendances
……sur des phrases de sur des phrases de premier niveaupremier niveau
0
20
40
60
80
100
Version 6 Version 7
Moyennetotale
Moyennerelationsdeterministes
Moyennerelations nondeterministes
Récapitulatif sur l’évaluationRécapitulatif sur l’évaluation
utilisation de structures analysées avec utilisation de structures analysées avec haute précision pour améliorer le resultat final.haute précision pour améliorer le resultat final.
… … et perspectiveset perspectives
ModularitéModularité
-amélioration du module de diagnostic (en cours)amélioration du module de diagnostic (en cours)
-définition de phénomènes de deuxième niveaudéfinition de phénomènes de deuxième niveau
-création de modules spécialiséscréation de modules spécialisés
AdaptabilitéAdaptabilité
-introduction de stratégie(s) d’apprentissage -introduction de stratégie(s) d’apprentissage symbolique symbolique