Génération d’un analyseur syntaxique basé sur HPSG avec le LKB

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
Le pluriel des noms
Les numéros
ACTIVITES Les fractions (10).
Sud Ouest Est Nord Individuel 36 joueurs
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
Approche par composant : Un cadre pour l’ingénierie de la commande
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
le profil UML en temps réel MARTE
Synchronisation et communication entre processus
May 4th – 5th 2009, Rabat, Morocco Inès ZALILA & Kais HADDAR
Rappel au Code de sécurité des travaux 1 Code de sécurité des travaux Rappel du personnel initié Chapitre Lignes de Transport (Aériennes)
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
22 janvier 2013 Commercialiser en 2013 ! Que de variables à ajuster ! 1.
LES NOMBRES PREMIERS ET COMPOSÉS
La phylogénie Définition :
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Partie 1: Ondes et Particules.
Unit 4: Les animaux - Il y a - There is/are Unit 4: Les animaux.
Unit 4: Les animaux Unit 4: Les animaux.
1 INETOP
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Chapitre 3 Syntaxe et sémantique.
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
C'est pour bientôt.....
1 INETOP
Veuillez trouver ci-joint
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Equation différentielle de 2ème ordre
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.
LES PILES ET FILES.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
UHA-FST Année L1S1-2 Examen de janvier 2006 – Durée 90 minutes Introduction aux concepts de la Physique N° carte étudiant:………………… 1-Donnez votre.
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification Sylvain Kahane Lattice, Paris 7 / Paris 10 TALN 2003, Batz-sur-mer.
Transcription de la présentation:

Génération d’un analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR

Introduction (1/2) TALN (Traitement Automatique des Langues Naturelles)  Tester les hypothèses sur la communication humaine  Traiter les informations naturelles TALN couvre quatre niveaux de traitement :  Niveau lexical  Niveau syntaxique  Niveau sémantique  Niveau pragmatique

Introduction (2/2) L’analyse syntaxique est une phase fondamentale Insuffisance des recherches pour la langue arabe Choix d’un formalisme adéquat Complexité de la phase d’analyse beaucoup d’efforts et de temps Vérification de plusieurs contraintes Simplification de la construction d’un analyseur (i.e., Outils de génération, Heuristiques)

Objectifs Élaboration d’une grammaire HPSG pour la langue arabe : Identification d’une hiérarchie de types Spécification TDL (Type Description Language) de la grammaire conçue Expérimentation avec l’outil de génération LKB (Linguistic Knowledge Building)

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

État de l’art Il existe deux principales approches : Construction propre d’un analyseur syntaxique Génération d’un analyseur syntaxique  Extensibilité difficile  Problème de maintenance  Algorithmes expérimentés  Coût moins cher et efficacité garantie  Ergonomie testée  Entrées sorties bien définis Extensibilité du code Maintenance facile Choix de l’algorithme Coût élevé (plus de temps et d’efforts) Résultats et efficacité non garantis Génération d’un analyseur syntaxique (Bahou, 2005), (Maaloul, 2005), (Abdelkader, 2006) (Oscar, 2005), (Laurens, 2007)

Deux systèmes différents mais de résultats similaires …État de l’art Générateurs disponibles Deux systèmes pour l’implémentation de HPSG : Deux systèmes différents mais de résultats similaires  LKB : Linguistic Knowledge Building En terme d’accessibilité : LKB = TRALE simplifiée  TRALE : extension de ALE (Attribute Logic Engine) Interface LKB plus ergonomique LKB

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Identification d’une hiérarchie de types Signe En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, 2004) et (Dahdeh, 1992) Mot Syntagme Unités simples : des mots Verbal Nominal Prépositionnel Unités composées : des syntagmes Particule Nom Verbe Non opérative opérative Non décliné Décliné Trilitère Quadrilitère

Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les verbes Différents critères de catégorisation Catégorisation suivant le nombre de lettres Verbe Trilitère Quadrilatère Défectueux Sain Sain Défectueux مثال مضعف واوي سالم أجوف مضعف ناقص مضعف يائي مهموز لفيف

Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les noms Différents critères de catégorisation Catégorisation suivant la déclinaison Nom Non décliné Décliné Non Significatif Pronoms Non Variable Variable اسم الاشارة بارز اسم الموصول مستتر

Différents critères de catégorisation …Identification d’une hiérarchie de types Pour les particules Différents critères de catégorisation Opératives (عاملة) ou non opérative (مهملة) Particule Non opérative opérative العطف Verbe Nom الجزم الجر النفي النسخ النصب الاستثناء

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

HPSG arabisée HPSG : Head-driven Phrase Structure Grammar Aperçu sur HPSG Entrées lexicales (SAV) HPSG : Head-driven Phrase Structure Grammar Règles lexicales Une grammaire d’unification à base de contraintes Deux composants de base : Entrées lexicales élargies  Structures Attributs Valeurs Entrées lexicales Schémas de DI  Schémas de Domination Immédiate (DI) Arbres de dérivation Syntagmes

Structure générale d’une SAV …HPSG arabisée Structure générale d’une SAV Une SAV se compose d’un ensemble de traits A chaque type de mot est associé un ensemble de traits PHON< > TETE MAJ CAT VAL LOC S-ARG <> SS CONT NONLOC

Chaque schéma décrit un phénomène syntaxique bien déterminé …HPSG arabisée Les schémas de DI HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications ) Chaque schéma décrit un phénomène syntaxique bien déterminé La composition des syntagmes se fait par vérification des contraintes : Principes

Un ensemble de contraintes à vérifier …HPSG arabisée Les principes PHON < le garçon > Un ensemble de contraintes à vérifier TETE 1 SS LOC CAT S-ARG < >  Principe des traits de tête  Principe de valence  Principe de spécification PHON < le> PHON < garçon > SS LOC CAT TÊTE [] SS LOC CAT TETE 1 2 VAL [SPR | SUJ < >] 2 Les valeurs de traits de tête d’un syntagme et celles du fils tête doivent être identiques

Modifications apportées …HPSG arabisée Modifications apportées HPSG a été conçue pour des langues latines Adaptation de HPSG à la langue arabe :  Au niveau des traits  Au niveau des schémas

VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère …HPSG arabisée Pour les verbes PHON < يشرب> MAJ VFORM RADICAL TYPE VOIX ASPECT RACINE DEC verbe Sain Trilitère Intact sain َActif Inaccompli ش.ر.ب élidé VFORM : Sain / Défectueux RADICAL : Trilitère / Quadrilatère TYPE : صحيح مهموزالفاء, صحيح مهموزالعين, صحيح مهموز اللام VOIX : Passif /Actif ASPECT : Accompli / Inaccompli / Impératif RACINE : pour déterminer la racine (جذر) du verbe TETE SS LOC CAT SPR< particule > COMPS < SN > 1 Opérative-verbe, حرف جزم VAL 2 masc S – ARG < , > 1 2

NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non …HPSG arabisée PHON < الولد> Pour les noms MAJ NFORM DEFINI NAT DEC nom décliné oui variable َrégulière TETE NFORM : Décliné (معرب)/ Non Décliné(مبني) DEFINI : oui / non NAT : Variable, non Variable, pronom démonstratif, pronom caché, pronom apparent, pronom relatif TOPIC, ATTRIBUT : au niveau du trait VALENCE SS CAT SPR< nom > VAL Non décliné مبني, non significatif مبهم 1 PHON < هذا> MAJ NFORM DEFINI NAT DEC SPEC nom non décliné nul p.demonstratifَ saturée CAT TETE SS 1 CONT RESTIND 1 Décliné, masc, sing

PFORM : opérative_nom, opérative_verbe, non_opérative …HPSG arabisée Pour les particules PFORM : opérative_nom, opérative_verbe, non_opérative NATP : حرف جر, حرف نسخ, حرف نصب, حرف عطف PHON < لم> MAJ PFORM NATP DEC SPEC Particule Opèrative_verbe حرف جزم saturéeَ TETE SS LOC CAT 1

Modifications apportées …HPSG arabisée Modifications apportées Adaptation de HPSG à la langue arabe:  Au niveau des traits  Au niveau des schémas

Règle de spécification 1 PHON< هذا الولد > TETE 1 SS LOC CAT S-ARG <> PHON< الولد > PHON< هذا > TETE 1 NFORM non déc DEFINI non NAT p.dem SS LOC CAT SS LOC CAT TETE VAL [SPR< >] 2 2

Règle de spécification 2 PHON< الولد جميل > TETE 1 SS LOC CAT VAL < > Fils – non tête Fils – tête PHON< جميل > PHON< الولد > NFORM décliné DEFINI non TETE 1 SS LOC CAT TETE SS LOC CAT VAL ATTRIBUT< > 2 2

Règle de complémentation PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > Fils – comps Fils – tête PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS < >] 2 2

Règle de modification Fils – tête Fils – modifieur PHON<فتاة جميلة > TETE 1 SS LOC CAT VAL < > 2 Fils – tête Fils – modifieur PHON< جميلة > PHON<فتاة > TETE [MOD ] 3 TETE 1 SS LOC CAT SS LOC CAT 3 VAL < > VAL < > 2

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Spécification TDL TDL : Type Description Language OPÉRATEUR FONCTION : = & . , [ ] < > # [a-z] #| ... |# FONCTION L’élément à gauche est une instance de celui de droite Adjonction de constraintes Fin d’une description de type. Aussi équivalent de [ ] Séparation des couples attribut-valeur dans une SAV SAV Liste Ettiquette pour indiquer la coréference Commentaires de plusieurs lignes

Spécification d’une SAV …Spécification TDL Spécification d’une SAV hadha:=lex-nom-non-decline & PHON< هذا > [PHON <!«hadha»!>, SS[LOC[ CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]], MAJ nom NFORM non déc DEFINI non NAT p.dem CAT TETE SS LOC NOMB sing GEN masc CONT IND CONT[ IND[NOMB sing, GEN masc] ]]].

Spécification d’un schéma …Spécification TDL Spécification d’un schéma regle_annexion := regle-bin-t-init & [SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom & [NFORM decline_variable, DEFINI non], VAL [SPR < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, ADJ non, DEC reduite] ]]]]>]]. PHON< ولد الجار > TETE 1 SS LOC CAT VAL < > PHON< الجار > PHON< ولد > NFORM décliné DEFINI oui ADJ non DEC réduite NFORM décliné DEFINI non ADJ non TETE 1 SS LOC CAT TETE SS LOC CAT VAL [COMPS] < > 2 2

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Expérimentation avec LKB Aperçu sur LKB LKB (Linguistic Knowledge Building) Outil de génération Deux types de fichiers  Fichiers TDL (i.e., types.tdl, rsynt.tdl)  Fichiers LISP (i.e., script.lsp)

Étape 1 : Chargement de la grammaire conçue …Expérimentation avec LKB Étape 1 : Chargement de la grammaire conçue Etapes d’analyses Étape 2 : Expérimentation de l’analyseur syntaxique généré

…Expérimentation avec LKB Analyse complète

…Expérimentation avec LKB Fichier out : « résultat.txt » Fichier in : « test.txt »

Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Évaluation Corpus de 200 phrases découpées et translittérées  lexique de 781 mots Phrases simples verbales et nominales  phrases nominales : SN + SN  phrases nominales : SN + SV  phrases verbales : SV + Sujet  phrases verbales : SV + Sujet + Comps

85 % des phrases sont analysées correctement …Évaluation 85 % des phrases sont analysées correctement Nbre d’analyse (n) Nbre de phrases ayant n analyse(s) 25 1 170 2 5 200

Cas d’échec : …Évaluation  Absence de règles syntaxiques  Le phénomène de coordination  Le phénomène des relatives  Le phénomène de l’ellipse  Ambiguïté

Plan Introduction Objectif État de l’art  Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives

Conclusion et perspectives Identification d’une hiérarchie de types pour l’arabe Spécification plus précise des contraintes Élaboration d’une grammaire HPSG arabisée Couvrir d’autres phénomènes syntaxiques Spécification de règles flexionnelles Spécification TDL Expérimentation sur le système LKB

Merci pour votre attention