La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Génération d’un analyseur syntaxique basé sur HPSG avec le LKB

Présentations similaires


Présentation au sujet: "Génération d’un analyseur syntaxique basé sur HPSG avec le LKB"— Transcription de la présentation:

1 Génération d’un analyseur syntaxique basé sur HPSG avec le LKB
Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

2 Introduction (1/2) TALN (Traitement Automatique des Langues Naturelles)  Tester les hypothèses sur la communication humaine  Traiter les informations naturelles TALN couvre quatre niveaux de traitement :  Niveau lexical  Niveau syntaxique  Niveau sémantique  Niveau pragmatique

3 Introduction (2/2) L’analyse syntaxique est une phase fondamentale
Insuffisance des recherches pour la langue arabe Choix d’un formalisme adéquat Complexité de la phase d’analyse beaucoup d’efforts et de temps Vérification de plusieurs contraintes Simplification de la construction d’un analyseur (i.e., Outils de génération, Heuristiques)

4 Objectifs Élaboration d’une grammaire HPSG pour la langue arabe :
Identification d’une hiérarchie de types Spécification TDL (Type Description Language) de la grammaire conçue Expérimentation avec l’outil de génération LKB (Linguistic Knowledge Building)

5 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

6 État de l’art Il existe deux principales approches :
Construction propre d’un analyseur syntaxique Génération d’un analyseur syntaxique  Extensibilité difficile  Problème de maintenance  Algorithmes expérimentés  Coût moins cher et efficacité garantie  Ergonomie testée  Entrées sorties bien définis Extensibilité du code Maintenance facile Choix de l’algorithme Coût élevé (plus de temps et d’efforts) Résultats et efficacité non garantis Génération d’un analyseur syntaxique (Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006) (Oscar, 2005), (Laurens, 2007)

7 Deux systèmes différents mais de résultats similaires
…État de l’art Générateurs disponibles Deux systèmes pour l’implémentation de HPSG : Deux systèmes différents mais de résultats similaires  LKB : Linguistic Knowledge Building En terme d’accessibilité : LKB = TRALE simplifiée  TRALE : extension de ALE (Attribute Logic Engine) Interface LKB plus ergonomique LKB

8 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

9 Identification d’une hiérarchie de types
Signe En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992) Mot Syntagme Unités simples : des mots Verbal Nominal Prépositionnel Unités composées : des syntagmes Particule Nom Verbe Non opérative opérative Non décliné Décliné Trilitère Quadrilitère

10 Différents critères de catégorisation
…Identification d’une hiérarchie de types Pour les verbes Différents critères de catégorisation Catégorisation suivant le nombre de lettres Verbe Trilitère Quadrilatère Défectueux Sain Sain Défectueux مثال مضعف واوي سالم أجوف مضعف ناقص مضعف يائي مهموز لفيف

11 Différents critères de catégorisation
…Identification d’une hiérarchie de types Pour les noms Différents critères de catégorisation Catégorisation suivant la déclinaison Nom Non décliné Décliné Non Significatif Pronoms Non Variable Variable اسم الاشارة بارز اسم الموصول مستتر

12 Différents critères de catégorisation
…Identification d’une hiérarchie de types Pour les particules Différents critères de catégorisation Opératives (عاملة) ou non opérative (مهملة) Particule Non opérative opérative العطف Verbe Nom الجزم الجر النفي النسخ النصب الاستثناء

13 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

14 HPSG arabisée HPSG : Head-driven Phrase Structure Grammar
Aperçu sur HPSG Entrées lexicales (SAV) HPSG : Head-driven Phrase Structure Grammar Règles lexicales Une grammaire d’unification à base de contraintes Deux composants de base : Entrées lexicales élargies  Structures Attributs Valeurs Entrées lexicales Schémas de DI  Schémas de Domination Immédiate (DI) Arbres de dérivation Syntagmes

15 Structure générale d’une SAV
…HPSG arabisée Structure générale d’une SAV Une SAV se compose d’un ensemble de traits A chaque type de mot est associé un ensemble de traits PHON< > TETE MAJ CAT VAL LOC S-ARG <> SS CONT NONLOC

16 Chaque schéma décrit un phénomène syntaxique bien déterminé
…HPSG arabisée Les schémas de DI HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications ) Chaque schéma décrit un phénomène syntaxique bien déterminé La composition des syntagmes se fait par vérification des contraintes : Principes

17 Un ensemble de contraintes à vérifier
…HPSG arabisée Les principes PHON < le garçon > Un ensemble de contraintes à vérifier TETE 1 SS LOC CAT S-ARG < >  Principe des traits de tête  Principe de valence  Principe de spécification PHON < le> PHON < garçon > SS LOC CAT TÊTE [] SS LOC CAT TETE 1 2 VAL [SPR | SUJ < >] 2 Les valeurs de traits de tête d’un syntagme et celles du fils tête doivent être identiques

18 Modifications apportées
…HPSG arabisée Modifications apportées HPSG a été conçue pour des langues latines Adaptation de HPSG à la langue arabe :  Au niveau des traits  Au niveau des schémas

19 VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère
…HPSG arabisée Pour les verbes PHON < يشرب> MAJ VFORM RADICAL TYPE VOIX ASPECT RACINE DEC verbe Sain Trilitère Intact sain َActif Inaccompli ش.ر.ب élidé VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère TYPE : صحيح مهموزالفاء, صحيح مهموزالعين, صحيح مهموز اللام VOIX : Passif /Actif ASPECT : Accompli / Inaccompli / Impératif RACINE : pour déterminer la racine (جذر) du verbe TETE SS LOC CAT SPR< particule > COMPS < SN > 1 Opérative-verbe, حرف جزم VAL 2 masc S – ARG < , > 1 2

20 NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non
…HPSG arabisée PHON < الولد> Pour les noms MAJ NFORM DEFINI NAT DEC nom décliné oui variable َrégulière TETE NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non NAT : Variable, non Variable, pronom démonstratif, pronom caché, pronom apparent, pronom relatif TOPIC, ATTRIBUT : au niveau du trait VALENCE SS CAT SPR< nom > VAL Non décliné مبني, non significatif مبهم 1 PHON < هذا> MAJ NFORM DEFINI NAT DEC SPEC nom non décliné nul p.demonstratifَ saturée CAT TETE SS 1 CONT RESTIND 1 Décliné, masc, sing

21 PFORM : opérative_nom, opérative_verbe, non_opérative
…HPSG arabisée Pour les particules PFORM : opérative_nom, opérative_verbe, non_opérative NATP : حرف جر, حرف نسخ, حرف نصب, حرف عطف PHON < لم> MAJ PFORM NATP DEC SPEC Particule Opèrative_verbe حرف جزم saturéeَ TETE SS LOC CAT 1

22 Modifications apportées
…HPSG arabisée Modifications apportées Adaptation de HPSG à la langue arabe:  Au niveau des traits  Au niveau des schémas

23 Règle de spécification 1
PHON< هذا الولد > TETE 1 SS LOC CAT S-ARG <> PHON< الولد > PHON< هذا > TETE 1 NFORM non déc DEFINI non NAT p.dem SS LOC CAT SS LOC CAT TETE VAL [SPR< >] 2 2

24 Règle de spécification 2
PHON< الولد جميل > TETE 1 SS LOC CAT VAL < > Fils – non tête Fils – tête PHON< جميل > PHON< الولد > NFORM décliné DEFINI non TETE 1 SS LOC CAT TETE SS LOC CAT VAL ATTRIBUT< > 2 2

25 Règle de complémentation
PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > Fils – comps Fils – tête PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS < >] 2 2

26 Règle de modification Fils – tête Fils – modifieur
PHON<فتاة جميلة > TETE 1 SS LOC CAT VAL < > 2 Fils – tête Fils – modifieur PHON< جميلة > PHON<فتاة > TETE [MOD ] 3 TETE 1 SS LOC CAT SS LOC CAT 3 VAL < > VAL < > 2

27 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

28 Spécification TDL TDL : Type Description Language OPÉRATEUR FONCTION
: = & . , [ ] < > # [a-z] #| ... |# FONCTION L’élément à gauche est une instance de celui de droite Adjonction de constraintes Fin d’une description de type. Aussi équivalent de [ ] Séparation des couples attribut-valeur dans une SAV SAV Liste Ettiquette pour indiquer la coréference Commentaires de plusieurs lignes

29 Spécification d’une SAV
…Spécification TDL Spécification d’une SAV hadha:=lex-nom-non-decline & PHON< هذا > [PHON <!«hadha»!>, SS[LOC[ CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]], MAJ nom NFORM non déc DEFINI non NAT p.dem CAT TETE SS LOC NOMB sing GEN masc CONT IND CONT[ IND[NOMB sing, GEN masc] ]]].

30 Spécification d’un schéma
…Spécification TDL Spécification d’un schéma regle_annexion := regle-bin-t-init & [SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]]. PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS] < > 2 2

31 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

32 Expérimentation avec LKB
Aperçu sur LKB LKB (Linguistic Knowledge Building) Outil de génération Deux types de fichiers  Fichiers TDL (i.e., types.tdl, rsynt.tdl)  Fichiers LISP (i.e., script.lsp)

33 Étape 1 : Chargement de la grammaire conçue
…Expérimentation avec LKB Étape 1 : Chargement de la grammaire conçue Etapes d’analyses Étape 2 : Expérimentation de l’analyseur syntaxique généré

34 …Expérimentation avec LKB
Analyse complète

35 …Expérimentation avec LKB
Fichier out : « résultat.txt » Fichier in : « test.txt »

36 Plan Introduction Objectif État de l’art
Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

37 Évaluation Corpus de 200 phrases découpées et translittérées
 lexique de 781 mots Phrases simples verbales et nominales  phrases nominales : SN + SN  phrases nominales : SN + SV  phrases verbales : SV + Sujet  phrases verbales : SV + Sujet + Comps

38 85 % des phrases sont analysées correctement
…Évaluation 85 % des phrases sont analysées correctement Nbre d’analyse (n) Nbre de phrases ayant n analyse(s) 25 1 170 2 5 200

39 Cas d’échec : …Évaluation  Absence de règles syntaxiques
 Le phénomène de coordination  Le phénomène des relatives  Le phénomène de l’ellipse  Ambiguïté

40 Plan Introduction Objectif État de l’art
 Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

41 Conclusion et perspectives
Identification d’une hiérarchie de types pour l’arabe Spécification plus précise des contraintes Élaboration d’une grammaire HPSG arabisée Couvrir d’autres phénomènes syntaxiques Spécification de règles flexionnelles Spécification TDL Expérimentation sur le système LKB

42 Merci pour votre attention


Télécharger ppt "Génération d’un analyseur syntaxique basé sur HPSG avec le LKB"

Présentations similaires


Annonces Google