Génération d’un analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR
Introduction (1/2) TALN (Traitement Automatique des Langues Naturelles) Tester les hypothèses sur la communication humaine Traiter les informations naturelles TALN couvre quatre niveaux de traitement : Niveau lexical Niveau syntaxique Niveau sémantique Niveau pragmatique
Introduction (2/2) L’analyse syntaxique est une phase fondamentale Insuffisance des recherches pour la langue arabe Choix d’un formalisme adéquat Complexité de la phase d’analyse beaucoup d’efforts et de temps Vérification de plusieurs contraintes Simplification de la construction d’un analyseur (i.e., Outils de génération, Heuristiques)
Objectifs Élaboration d’une grammaire HPSG pour la langue arabe : Identification d’une hiérarchie de types Spécification TDL (Type Description Language) de la grammaire conçue Expérimentation avec l’outil de génération LKB (Linguistic Knowledge Building)
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
État de l’art Il existe deux principales approches : Construction propre d’un analyseur syntaxique Génération d’un analyseur syntaxique Extensibilité difficile Problème de maintenance Algorithmes expérimentés Coût moins cher et efficacité garantie Ergonomie testée Entrées sorties bien définis Extensibilité du code Maintenance facile Choix de l’algorithme Coût élevé (plus de temps et d’efforts) Résultats et efficacité non garantis Génération d’un analyseur syntaxique (Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006) (Oscar, 2005), (Laurens, 2007)
Deux systèmes différents mais de résultats similaires …État de l’art Générateurs disponibles Deux systèmes pour l’implémentation de HPSG : Deux systèmes différents mais de résultats similaires LKB : Linguistic Knowledge Building En terme d’accessibilité : LKB = TRALE simplifiée TRALE : extension de ALE (Attribute Logic Engine) Interface LKB plus ergonomique LKB
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
Identification d’une hiérarchie de types Signe En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992) Mot Syntagme Unités simples : des mots Verbal Nominal Prépositionnel Unités composées : des syntagmes Particule Nom Verbe Non opérative opérative Non décliné Décliné Trilitère Quadrilitère
Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les verbes Différents critères de catégorisation Catégorisation suivant le nombre de lettres Verbe Trilitère Quadrilatère Défectueux Sain Sain Défectueux مثال مضعف واوي سالم أجوف مضعف ناقص مضعف يائي مهموز لفيف
Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les noms Différents critères de catégorisation Catégorisation suivant la déclinaison Nom Non décliné Décliné Non Significatif Pronoms Non Variable Variable اسم الاشارة بارز اسم الموصول مستتر
Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les particules Différents critères de catégorisation Opératives (عاملة) ou non opérative (مهملة) Particule Non opérative opérative العطف Verbe Nom الجزم الجر النفي النسخ النصب الاستثناء
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
HPSG arabisée HPSG : Head-driven Phrase Structure Grammar Aperçu sur HPSG Entrées lexicales (SAV) HPSG : Head-driven Phrase Structure Grammar Règles lexicales Une grammaire d’unification à base de contraintes Deux composants de base : Entrées lexicales élargies Structures Attributs Valeurs Entrées lexicales Schémas de DI Schémas de Domination Immédiate (DI) Arbres de dérivation Syntagmes
Structure générale d’une SAV …HPSG arabisée Structure générale d’une SAV Une SAV se compose d’un ensemble de traits A chaque type de mot est associé un ensemble de traits PHON< > TETE MAJ CAT VAL LOC S-ARG <> SS CONT NONLOC
Chaque schéma décrit un phénomène syntaxique bien déterminé …HPSG arabisée Les schémas de DI HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications ) Chaque schéma décrit un phénomène syntaxique bien déterminé La composition des syntagmes se fait par vérification des contraintes : Principes
Un ensemble de contraintes à vérifier …HPSG arabisée Les principes PHON < le garçon > Un ensemble de contraintes à vérifier TETE 1 SS LOC CAT S-ARG < > Principe des traits de tête Principe de valence Principe de spécification PHON < le> PHON < garçon > SS LOC CAT TÊTE [] SS LOC CAT TETE 1 2 VAL [SPR | SUJ < >] 2 Les valeurs de traits de tête d’un syntagme et celles du fils tête doivent être identiques
Modifications apportées …HPSG arabisée Modifications apportées HPSG a été conçue pour des langues latines Adaptation de HPSG à la langue arabe : Au niveau des traits Au niveau des schémas
VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère …HPSG arabisée Pour les verbes PHON < يشرب> MAJ VFORM RADICAL TYPE VOIX ASPECT RACINE DEC verbe Sain Trilitère Intact sain َActif Inaccompli ش.ر.ب élidé VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère TYPE : صحيح مهموزالفاء, صحيح مهموزالعين, صحيح مهموز اللام VOIX : Passif /Actif ASPECT : Accompli / Inaccompli / Impératif RACINE : pour déterminer la racine (جذر) du verbe TETE SS LOC CAT SPR< particule > COMPS < SN > 1 Opérative-verbe, حرف جزم VAL 2 masc S – ARG < , > 1 2
NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non …HPSG arabisée PHON < الولد> Pour les noms MAJ NFORM DEFINI NAT DEC nom décliné oui variable َrégulière TETE NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non NAT : Variable, non Variable, pronom démonstratif, pronom caché, pronom apparent, pronom relatif TOPIC, ATTRIBUT : au niveau du trait VALENCE SS CAT SPR< nom > VAL Non décliné مبني, non significatif مبهم 1 PHON < هذا> MAJ NFORM DEFINI NAT DEC SPEC nom non décliné nul p.demonstratifَ saturée CAT TETE SS 1 CONT RESTIND 1 Décliné, masc, sing
PFORM : opérative_nom, opérative_verbe, non_opérative …HPSG arabisée Pour les particules PFORM : opérative_nom, opérative_verbe, non_opérative NATP : حرف جر, حرف نسخ, حرف نصب, حرف عطف PHON < لم> MAJ PFORM NATP DEC SPEC Particule Opèrative_verbe حرف جزم saturéeَ TETE SS LOC CAT 1
Modifications apportées …HPSG arabisée Modifications apportées Adaptation de HPSG à la langue arabe: Au niveau des traits Au niveau des schémas
Règle de spécification 1 PHON< هذا الولد > TETE 1 SS LOC CAT S-ARG <> PHON< الولد > PHON< هذا > TETE 1 NFORM non déc DEFINI non NAT p.dem SS LOC CAT SS LOC CAT TETE VAL [SPR< >] 2 2
Règle de spécification 2 PHON< الولد جميل > TETE 1 SS LOC CAT VAL < > Fils – non tête Fils – tête PHON< جميل > PHON< الولد > NFORM décliné DEFINI non TETE 1 SS LOC CAT TETE SS LOC CAT VAL ATTRIBUT< > 2 2
Règle de complémentation PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > Fils – comps Fils – tête PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS < >] 2 2
Règle de modification Fils – tête Fils – modifieur PHON<فتاة جميلة > TETE 1 SS LOC CAT VAL < > 2 Fils – tête Fils – modifieur PHON< جميلة > PHON<فتاة > TETE [MOD ] 3 TETE 1 SS LOC CAT SS LOC CAT 3 VAL < > VAL < > 2
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
Spécification TDL TDL : Type Description Language OPÉRATEUR FONCTION : = & . , [ ] < > # [a-z] #| ... |# FONCTION L’élément à gauche est une instance de celui de droite Adjonction de constraintes Fin d’une description de type. Aussi équivalent de [ ] Séparation des couples attribut-valeur dans une SAV SAV Liste Ettiquette pour indiquer la coréference Commentaires de plusieurs lignes
Spécification d’une SAV …Spécification TDL Spécification d’une SAV hadha:=lex-nom-non-decline & PHON< هذا > [PHON <!«hadha»!>, SS[LOC[ CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]], MAJ nom NFORM non déc DEFINI non NAT p.dem CAT TETE SS LOC NOMB sing GEN masc CONT IND CONT[ IND[NOMB sing, GEN masc] ]]].
Spécification d’un schéma …Spécification TDL Spécification d’un schéma regle_annexion := regle-bin-t-init & [SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]]. PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS] < > 2 2
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
Expérimentation avec LKB Aperçu sur LKB LKB (Linguistic Knowledge Building) Outil de génération Deux types de fichiers Fichiers TDL (i.e., types.tdl, rsynt.tdl) Fichiers LISP (i.e., script.lsp)
Étape 1 : Chargement de la grammaire conçue …Expérimentation avec LKB Étape 1 : Chargement de la grammaire conçue Etapes d’analyses Étape 2 : Expérimentation de l’analyseur syntaxique généré
…Expérimentation avec LKB Analyse complète
…Expérimentation avec LKB Fichier out : « résultat.txt » Fichier in : « test.txt »
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
Évaluation Corpus de 200 phrases découpées et translittérées lexique de 781 mots Phrases simples verbales et nominales phrases nominales : SN + SN phrases nominales : SN + SV phrases verbales : SV + Sujet phrases verbales : SV + Sujet + Comps
85 % des phrases sont analysées correctement …Évaluation 85 % des phrases sont analysées correctement Nbre d’analyse (n) Nbre de phrases ayant n analyse(s) 25 1 170 2 5 200
Cas d’échec : …Évaluation Absence de règles syntaxiques Le phénomène de coordination Le phénomène des relatives Le phénomène de l’ellipse Ambiguïté
Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives
Conclusion et perspectives Identification d’une hiérarchie de types pour l’arabe Spécification plus précise des contraintes Élaboration d’une grammaire HPSG arabisée Couvrir d’autres phénomènes syntaxiques Spécification de règles flexionnelles Spécification TDL Expérimentation sur le système LKB
Merci pour votre attention