1 Génération d’un analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR
1
Génération d’un analyseur syntaxique basé sur HPSG avec le LKB
Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR
2
Introduction (1/2)
• TALN (Traitement Automatique des Langues Naturelles)
Tester les hypothèses sur la communication humaine
Traiter les informations naturelles
• TALN couvre quatre niveaux de traitement : Niveau lexical
Niveau syntaxique
Niveau sémantique
Niveau pragmatique
3
• L’analyse syntaxique est une phase fondamentale
Introduction (2/2)
Insuffisance des recherches pour la langue arabe
Choix d’un formalisme adéquat
Complexité de la phase d’analyse
beaucoup d’efforts et de temps
Vérification de plusieurs contraintes
Simplification de la construction d’un analyseur
(i.e., Outils de génération, Heuristiques)
4
Objectifs
• Élaboration d’une grammaire HPSG pour la langue arabe :
Identification d’une hiérarchie de types
Spécification TDL (Type Description Language) de la grammaire conçue
Expérimentation avec l’outil de génération LKB(Linguistic Knowledge Building)
5
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
6
État de l’art • Il existe deux principales approches :
Construction propre d’un analyseur syntaxique
Génération d’un analyseur syntaxique Extensibilité du code
Maintenance facile
Choix de l’algorithme
Coût élevé (plus de temps et d’efforts)
Résultats et efficacité non garantis
Extensibilité difficile
Problème de maintenance
Algorithmes expérimentés
Coût moins cher et efficacité garantie
Ergonomie testée
Entrées sorties bien définis
Génération d’un analyseur syntaxique
(Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006)
(Oscar, 2005), (Laurens, 2007)
7
• Deux systèmes pour l’implémentation de HPSG :
LKB : Linguistic Knowledge Building
TRALE : extension de ALE (Attribute Logic Engine)
Générateurs disponibles
Deux systèmes différents mais de résultats similaires
• En terme d’accessibilité : LKB = TRALE simplifiée
• Interface LKB plus ergonomique
LKB
…État de l’art
8
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
9
Identification d’une hiérarchie de types
• En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992)
Unités simples : des mots
Unités composées : des syntagmes
Signe
SyntagmeMot
PrépositionnelVerbal Nominal
Nom
Décliné Non décliné
Particule
opérativeNon opérative
Verbe
QuadrilitèreTrilitère
10
Verbe
QuadrilatèreTrilitère
DéfectueuxSainDéfectueux Sain
سالم
مهموز
مضعف
مثال
ناقص
أجوف
لفيف
واوي مضعف
يائي مضعف
• Différents critères de catégorisation
• Catégorisation suivant le nombre de lettres
Pour les verbes
…Identification d’une hiérarchie de types
11
• Différents critères de catégorisation
Pour les noms
…Identification d’une hiérarchie de types
• Catégorisation suivant la déclinaison
Nom
Décliné Non décliné
Variable Non Variable Pronoms Non Significatif
بارز
مستتر
االشارة اسم
الموصول اسم
12
• Différents critères de catégorisation
Pour les particules
…Identification d’une hiérarchie de types
Particule
opérativeNon opérative
NomVerbe
الجرالنسخ
االستثناء
الجزم
النصب
العطف
النفي
• Opératives (عاملة) ou non opérative (مهملة)
13
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
14
• HPSG : Head-driven Phrase Structure Grammar
HPSG arabisée
• Une grammaire d’unification à base de contraintes
• Deux composants de base :
Structures Attributs Valeurs Entrées lexicales
Schémas de Domination Immédiate (DI)
Arbres de dérivation
Entrées lexicales(SAV)
Entrées lexicalesélargies
Syntagmes
Règles lexicales
Schémas de DI
Aperçu sur HPSG
15
Structure générale d’une SAV
• Une SAV se compose d’un ensemble de traits• A chaque type de mot est associé un ensemble de traits
PHON< >
SS LOC
NONLOC
CONT
CAT VAL
S-ARG <>
TETE MAJ
…HPSG arabisée
16
• HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications )
• Chaque schéma décrit un phénomène syntaxique bien déterminé
• La composition des syntagmes se fait par vérification des contraintes : Principes
Les schémas de DI
…HPSG arabisée
17
• Un ensemble de contraintes à vérifier
Principe des traits de tête
Principe de valence
Principe de spécification
Les valeurs de traits de tête d’un syntagmeet celles du fils tête doivent être identiques
PHON < le garçon >
SS LOC CATTETE
S-ARG < >
PHON < garçon >
SS LOC CAT TETE
VAL [SPR | SUJ < >]
1
1
2
PHON < le>
SS LOC CAT TÊTE []
2
Les principes
…HPSG arabisée
18
• HPSG a été conçue pour des langues latines
• Adaptation de HPSG à la langue arabe :
Au niveau des traits
Au niveau des schémas
…HPSG arabisée
Modifications apportées
19
• VFORM : Sain / Défectueux
• RADICAL : Trilitère / Quadrilatère
• TYPE : صحيح, مهموزالعين صحيح, مهموزالفاء صحيح
الالم مهموز
• VOIX : Passif /Actif
• ASPECT : Accompli / Inaccompli / Impératif
• RACINE : pour déterminer la racine (جذر) du verbe
Pour les verbes…HPSG arabisée
PHON < يشرب>
SS CAT
TETE
VAL
S – ARG < , >
SPR< particule >
COMPS < SN >
MAJVFORMRADICALTYPEVOIXASPECTRACINEDEC
verbeSainTrilitèreIntact sainَ$ActifInaccompli
ب.ر.شélidé
Opérative-verbe,جزم حرف
2
1
masc
21
LOC
20
• NFORM : Décliné (معرب)/ Non Décliné(مبني)
• DEFINI : oui / non
• NAT : Variable, non Variable, pronom démonstratif,
pronom caché, pronom apparent, pronom relatif
• TOPIC, ATTRIBUT : au niveau du trait VALENCE
Pour les noms
…HPSG arabisée
PHON < هذا>
SS
CAT TETE
MAJNFORMDEFININATDECSPEC
nomnon déclinénulp.demonstratif $saturée
CONT RESTIND 1Décliné, masc, sing
SPR< nom >
PHON < الولد>
SS CAT
TETE
VAL
MAJNFORMDEFININATDEC
nomdéclinéouivariableَ$régulière
Non décliné مبني,
non significatif مبهم
1
1
21
Pour les particules…HPSG arabisée
• PFORM : opérative_nom, opérative_verbe, non_opérative
• NATP : حرف, نصب حرف, نسخ حرف, جر حرف عطف
PHON < <لم
SS
CAT
TETE
MAJPFORMNATPDECSPEC
ParticuleOpèrative_verbe
جزم حرفsaturée $
1LOC
22
• Adaptation de HPSG à la langue arabe:
Au niveau des traits
Au niveau des schémas
…HPSG arabisée
Modifications apportées
23
Règle de spécification 1
PHON< هذا < الولد
SSLOC CAT
S-ARG <>
TETE
PHON< الولد >
SSLOC CAT TETE 1
1
VAL [SPR< >]2
PHON< هذا >
SSLOC CAT TETENFORM non décDEFINI nonNAT p.dem
2
24
Règle de spécification 2
PHON< الولد < جميل
SSLOC CAT
VAL < >
TETE 1
2
PHON< جميل >
SSLOC CAT TETENFORM déclinéDEFINI non
PHON< الولد >
SSLOC CAT TETE 1
VAL ATTRIBUT< >
2
Fils – tête Fils – non tête
25
Règle de complémentation
PHON< ولد < الجار
SSLOC CAT
VAL < >
TETE
PHON< ولد >
SSLOC CATTETE 1
1
VAL [COMPS < >]
2
NFORM déclinéDEFINI nonADJ non
PHON< الجار >
SS LOC CATTETE
NFORM déclinéDEFINI ouiADJ nonDEC réduite
2
Fils – tête Fils – comps
26
Règle de modificationPHON<فتاة < جميلة
SSLOC CAT
VAL < >
TETE 1
2
PHON<فتاة >
SSLOC CAT
VAL < >
TETE 1
2
PHON< جميلة >
SSLOC CAT
VAL < >
TETE
3
[MOD ]3
Fils – tête Fils – modifieur
27
Plan
Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
28
Spécification TDL
• TDL : Type Description Language
OPÉRATEUR
: =
&
.
,
[ ]
< >
# [a-z]
#| ... |#
FONCTION
L’élément à gauche est une instance de celui de droite
Adjonction de constraintes
Fin d’une description de type. Aussi équivalent de [ ]
Séparation des couples attribut-valeur dans une SAV
SAV
Liste
Ettiquette pour indiquer la coréference
Commentaires de plusieurs lignes
29
PHON< هذا >
SSLOC
CAT TETEMAJ nomNFORM non décDEFINI nonNAT p.dem
CONT IND NOMB singGEN masc
hadha:=lex-nom-non-decline &[PHON <!«hadha»!>,
SS[LOC[CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]],
CONT[ IND[NOMB sing, GEN masc]]]].
Spécification d’une SAV
…Spécification TDL
30
PHON< ولد < الجار
SSLOC CAT
VAL < >
TETE
PHON< ولد >
SSLOC CATTETE 1
1
VAL [COMPS] < >
2
NFORM déclinéDEFINI nonADJ non
PHON< الجار >
SS LOC CATTETE
NFORM déclinéDEFINI ouiADJ nonDEC réduite
2
…Spécification TDL Spécification d’un schéma
regle_annexion := regle-bin-t-init &[SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]].
31
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
32
• LKB (Linguistic Knowledge Building)
• Outil de génération
• Deux types de fichiers
Fichiers TDL (i.e., types.tdl, rsynt.tdl)
Fichiers LISP (i.e., script.lsp)
Expérimentation avec LKB Aperçu sur LKB
33
Étape 1 : Chargement de la grammaire conçueÉtape 2 : Expérimentation de l’analyseur syntaxique généré
Etapes d’analyses
…Expérimentation avec LKB
34
Analyse complète
…Expérimentation avec LKB
35
…Expérimentation avec LKB
Fichier in : « test.txt » Fichier out : « résultat.txt »
36
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
37
Évaluation
• Corpus de 200 phrases découpées et translittérées
• Phrases simples verbales et nominales phrases nominales : SN + SN
phrases nominales : SN + SV
phrases verbales : SV + Sujet
phrases verbales : SV + Sujet + Comps
lexique de 781 mots
38
…Évaluation
Nbre d’analyse (n) Nbre de phrasesayant n
analyse(s)
0 25
1 170
2 5
200
• 85 % des phrases sont analysées correctement
39
…Évaluation
• Cas d’échec :
Le phénomène de coordination
Le phénomène des relatives
Le phénomène de l’ellipse
Absence de règles syntaxiques
Ambiguïté
40
Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
41
Conclusion et perspectives
• Identification d’une hiérarchie de types pour l’arabe
• Élaboration d’une grammaire HPSG arabisée
• Spécification TDL
• Expérimentation sur le système LKB
• Spécification plus précise des contraintes
• Couvrir d’autres phénomènes syntaxiques
• Spécification de règles flexionnelles
42
Merci pour votre attention