Mahmoud Fawzi Mammeri & Nacer Eddine Bouhassain

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
Ressources électroniques pour l’analyse syntaxique
Introduction aux classes empiétantes François Brucker Brest (Breizh)
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
JXDVDTEK – Une DVDthèque en Java et XML
Formation Technique 6èmepartie.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Journée détude régionale du 23 mai Lévaluation interne des établissements et services sociaux et médico-sociaux : Où en sommes-nous ? 1 Résultats.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Présentation du 20 octobre 2012 au Salon Education à Namur
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
PAFI Référentiel de données par Sonia Watts DGIF (Direction de la gestion et de linformation forestière) 27 octobre 2010 et 3 novembre 2010.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
le profil UML en temps réel MARTE
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Karin Lundgren-Cayrol
May 4th – 5th 2009, Rabat, Morocco Inès ZALILA & Kais HADDAR
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Thèse de Doctorat Troisième cycle de Physique présentée par Mr NZONZOLO Maître es Science Étude en simulation des effets des paramètres macroscopiques.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Génération d’un analyseur syntaxique basé sur HPSG avec le LKB
Configuration de Windows Server 2008 Active Directory
F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SCIENCES DE L ’INGENIEUR
Partie 1: Ondes et Particules.
La Saint-Valentin Par Matt Maxwell.
2 TP avec l ’aide d ’un modeleur 3D :
Développer en C avec Eclipse Introduction Création d'un projet Ajout de fichiers Compilation Exécution Utiliser le débogueur Département dinformatique.
Notre calendrier français MARS 2014
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
Chapitre 3 Syntaxe et sémantique.
C'est pour bientôt.....
Charte graphique Réunion de lancement Novembre 2008 Novembre 2008
Veuillez trouver ci-joint
Portail CVM Vision pédagogique.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Réunion 29/11/20131 Projet L412 Nov Recherche dun ouvrage …. Sur Dieppe.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Coupes efficaces pour la relaxation lagrangienne
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.
1 New Version Acquisition d’images Traitement d’images Interprétation clinique Chaîne de traitement Dev. logiciel creaTools 5 GDCMcreaImageIOcreaMaracasVisu.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Chapitre 3 :Algèbre de Boole
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Projet Implémentation du protocole MMT sous Linux
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Transcription de la présentation:

Implémentation d’un fragment de grammaire HPSG de l’arabe sur la plate-forme LKB Mahmoud Fawzi Mammeri & Nacer Eddine Bouhassain Université de Blida, Algérie 3rd International Conference on Arabic Language Processing, CITALA’2009

Plan Introduction La Head driven Phrase Structure Grammar (HPSG) Le Linguistic Knowledge Base (LKB) Une Grammaire LKB/HPSG pour l’Arabe Conclusion

Problématique Générale La question fondamentale consiste à se demander : comment représenter et traiter au mieux les phénomènes rencontrés dans la langue arabe?

Théorie linguistique vs. Formalisme ad hoc Éviter les formalismes ad hoc → choix d’une théorie linguistique de bénéficier des acquis des recherches linguistiques dans le traitement des problèmes syntaxiques, sémantiques, …, variés, et d’en attendre des solutions générales et cohérentes.

De quoi avons-nous besoin ? Une Grammaire et un Lexique Grammaire traditionnelle ⇒ Grammaire formalisée Lexique traditionnel (dictionnaire électronique) ⇒ Lexique Computationnel Un formalisme pour la représentation (modélisation) Une plate-forme pour implémenter les phénomènes de langue modélisés

Modèles existants Head-driven Phrase Structure Grammar (HPSG) Lexicalized Tree-Adjoining Grammars (LTAG) Lexical-Functional Grammars (LFG) Functional Unification Grammar (FUG) → Construction Grammar (CG) …

Formalismes/SDD Réseaux Sémantiques → Graphes Conceptuels de Sowa (1984) ATN, Réseaux de Transitions Augmentés DCG, Definite Clause Grammars TFS, Typed Feature Structures DAG, Direct Acyclic Graph Arbres …

Plates-formes de développements HPSG LKB (Copestake, 1992,2002) PET (Callmeir, 2000) PAGE (Krieger & Schäfer, 1994) German NLP Processor BABEL (S. Müller, 1996) ConTroll (Grammar Development System ConTroll : Götz, 1995), ALE (Atribute Logic Engine : Carpenter and Penn, 1995) TRALE (grammar-implementation platform based on ALE and ConTroll; Penn, 2003 ) TAG XTAG G-TAG (génération automatique de textes) DyALog (grammaires de clauses définies (DCG), BMG, RCG) LFG XLE (Xerox Linguistics Environment; Butt et al. 1999) Grammar writer’s workbench for LFG (Kaplan & Maxwell, 1996)

Choix Modèle : HPSG (Head-driven Phrase Structure Grammar) Formalisme : TFS (Typed Feature Structures) → Carpenter (1992) Plate-forme : LKB (Linguistic Knowledge Builder) → Copestake (1992) → Copestake et al. (2002)

Head driven Phrase Structure Grammar (HPSG) Histoire HPSG1 : Pollard and Sag (1987) HPSG2 : Pollard and Sag (1994) HPSG3 : Pollard and Sag (1994) chapitre 9 « Reflexions and Revisions » HPSG4? Plusieurs auteurs [Sag & Wassow, 1999] et [Sag & Wassow & Bender, 2003] → Grammaire à Large Couverture de Troisième Génération très fort encodage hiérarchique des connaissances (Multidimensionnel) déclarativité et réversibilité (supporte en même temps l’analyse et la génération) développement multi-langue 5. ?

Head driven Phrase Structure Grammar (HPSG) inspirations Syntaxe: GPSG (Gazdard, Klein, Pullum, & Sag, 1985) CG : Grammaire Catégorielle (Steedmar, 2000) LFG (Kaplan & Bresnan, 1982) Construction Grammar (Goldberg, 1995) Grammaire Transformationnelle Chomskyenne e.g. Government and Binding (Haegeman, 1994) Sémantique La Sémantique Situationnelle (Barwise & Perry, 1983) DRT: Discourse Representation Theory (Kamp & Reyle, 1993)

Head driven Phrase Structure Grammar (HPSG) matériaux Règles de Grammaire (Schémas de règles) Lexique Principes de bonne formation Règles Lexicales Hiérarchie de Type Conditions d’Appropriation

Head driven Phrase Structure Grammar (HPSG) formalisme de représentation (TFS, Carpenter (1992)) HPSG repose sur l’idée de représenter les règles, les items lexicaux, les principes, … par des : Structures de Traits Typées (ou TFS, Typed Feature Structures)

Linguistic Knowledge Builder (LKB) la plate-forme (1) Le système LKB – open source software Le système LKB est un environnement de développement de lexique et de grammaire pour utilisation avec des formalismes linguistiques à base de contraintes (grammaires de style HPSG). http://lingo.stanford.edu/ftp Ann Copestake, (2002), Implementing Typed Feature Structure Grammars, CSLI Publications, Stanford, Ca.. Ann Copestake, Dan Flickinger, Carl Pollard and Ivan A. Sag, (2005), Minimal Recursion Semantics: An Introduction.

Linguistic Knowledge Builder (LKB) la plate-forme (2) Le système LKB est un environnement de développement spécialisé de très haut niveau, intégrant des facilités et masquant à l’utilisateur des aspects spécifiques aux langages de programmation. Le LKB inclut : Un analyseur Un générateur Un support pour des hiérarchies d’héritage à grande échelle Divers outils pour la manipulation des représentations sémantiques Un ensemble riche d’outils graphiques pour l’analyse et le débogage de grammaire

Linguistic Knowledge Builder (LKB) Caractéristiques Common Lisp HPSG implémentées (Structures de Traits Typées ) Multi-langues Multi-formalismes Utilisé en analyse comme en génération Modulaire documentation Libre+Open source ≠ versions disponibles (Windows, Unix, Mac Os) Support (?)

Linguistic Knowledge Builder (LKB) Les fichiers LKB (1) Une grammaire LKB se présente comme un ensemble de fichiers. 1. Les fichiers Lisp Le script Les fichiers de configuration 2. Les fichiers TDL Les fichiers de la grammaire

Linguistic Knowledge Builder (LKB) Les fichiers LKB (2) Le fichier script charge l’ensemble de la grammaire  (typiquement : script.lsp)

Linguistic Knowledge Builder (LKB) Les fichiers LKB (3) Les fichiers LISP utilisés pour la configuration du système (paramétrage, les préférences d’affichage, ...) globals.lsp user-fns.lsp user-prefs.lsp

Linguistic Knowledge Builder (LKB) Les fichiers LKB (4) Les fichiers TDL nécessaires pour la confection de grammaires LKB types.tdl (définition de type) lexicon.tdl (lexique) rules.tdl (règles de grammaire) lr.tdl (règles lexicales) inflr.tdl (règles flexionnelles) start.tdl (la structure de départ) parse-nodes.tdl (écriture des nœuds sur l’arbre d’analyse)

Linguistic Knowledge Builder (LKB) Type Description Language (TDL) Les grammaires LKB sont implémentées en TDL. Le TDL est un langage de description qui permet la spécification de TFSs ; donc de types, de contraintes, d’entrées lexicales, … LKB prévoit l’utilisation d’une variété de langages de description. Le plus communément utilisé est celui adopté par (Copestake, 2002), qui est une version simplifiée de la syntaxe du TDL du système PAGE (Krieger & Schäfer, 1994).

Linguistic Knowledge Builder (LKB) Minimal Recursion Semantics (MRS) MRS (Copestake et al., 2005) est un langage de description pour les formules de la logique du premier ordre (FOL) La sous-spécification est la solution standard pour traiter des ambiguïtés de la portée. Au lieu de spécifier les interprétations d’une expression ambiguë directement, un langage de description est utilisé pour représenter ces différentes interprétations. → Ce qui mène à une représentation sous-spécifiée compact; différentes interprétations peuvent être alors énumérés à partir de cette représentation en fonction du besoin. MRS est le formalisme standard de sous-spécification utilisé à grande échelle dans les grammaires HPSG.

Linguistic Knowledge Builder (LKB) Minimal Recursion Semantics (MRS) Le LKB propose des facilités pour la sémantique Phrase analysée → une représentation sémantique MRS (représentation sémantique) peut être utilisée comme input du Générateur du LKB qui peut à son tour générer toutes les chaînes correspondantes à la représentation.

Grammaire LKB/HPSG pour l’Arabe Règles de grammaire La grammaire HPSG/LKB de l’arabe consiste en: des règles de grammaire des règles flexionnelles des définitions de type un lexique

Grammaire LKB/HPSG pour l’Arabe Règles de grammaire Head-Complement Rules (2) Head-Subject Rule (1) Head-Modifier Rule (1) head-specifier-rule (1)

Grammaire LKB/HPSG pour l’Arabe Hiérarchie (1) verb-lxm intr-verb-lxm … ditr-verb-lxm tr-verb-lxm

Grammaire LKB/HPSG pour l’Arabe Hiérarchie (2) lexeme noun-lxm verb-lxm const-lxm itr-lxm tr-lxm str-tr-lxm ditr-np-np-lxm ditr-np-pp-lxm prep-lxm det-lxm dtr-np-np-v- lxm dtr-np-pp-v-lxm itr-n-lxm itr-v-lxm strict-tr-v-lxm tr-n-lxm

Grammaire LKB/HPSG pour l’Arabe Hiérarchie Globale (3)

Grammaire LKB/HPSG pour l’Arabe Lexique (1) aataa := verb-lxm-ditransitive-np-np & [ ORTH <! "aataa" !>, SEM.RELS.LIST.FIRST.PRED "aataa_rel" ].

Grammaire LKB/HPSG pour l’Arabe Lexique (2) verb-lxm := lexeme & [ HEAD verb & [AGRNV [GEND #gend]], SUBJ < phrase & [ HEAD noun & [AGRNV [GEND #gend] ]& [AGRN [case nom]], SPR <>, COMPS optional-list ] >, SEM [INDEX event ] ]. transitive-lxm := lexeme & [ COMPS < phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ], ... > ]. ditransitive-np-np-lxm := transitive-lxm & [ COMPS < [ ], phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ] > ]. verb-lxm-ditransitive-np-np := verb-lxm & ditransitive-np-np-lxm & [ SUBJ < [SEM [INDEX #arg1]] >, COMPS < [ HEAD noun & [AGRN [case acc]], SEM [INDEX #arg2]], [HEAD noun & [AGRN [case acc]], SEM [INDEX #arg3]] >, SEM [RELS <! arg1-2-3-relation & [ARG1 #arg1,ARG2 #arg2, ARG3 #arg3] !> ] ].

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (1) Dans le lexique, les adjectifs sont sous-spécifiés pour le cas et la définitude : i.e. ni désinences casuelles ni ils sont déterminés Exemples: mufiid Kariim naagih

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (2) Des règles flexionnelles sont nécessaires pour: L’instanciation du cas Le marquage de l’indéfini (tanwiin)

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (3) D’autres Règles Lexicales seront nécessaires pour générer les formes féminines, plurielles, … Exemples: naagih → naagihun, naagihan, naagihatun, naagihatan, naagihuuna, ...

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (4) null-irule verb-3masc-irule verb-3fem-irule nominative-cn-lexical-rule accusative-cn-lexical-rule genetive-cn-lexical-rule def-noun-lexical-rule indef-cn-lexical-rule …

Ajustement de la version actuelle et bugs connus Au niveau de l’implémentation : Finir l’implémentation de la head-specifier-rule → prendre en compte l’accord det-noun (هذا الولد/هذه البنت، ثلاثة أولاد/ثلاث بنات) intégrer les constructions en SVO (règle lexicale: VSO → SVO) Réintégrer et réadapter les implémentation concernant les cas des verbes exponentiels (classe de kaana, classe de hassiba et la classe de ‘a’lama) et les exposant non verbaux (classe de ‘inna) Au niveau du générateur : Régler un problème au niveau de la génération → le générateur échoue à générer Au niveau de la « test suite » : Réviser et réorganiser le fichier test (construction d’une test suite assez large) → l’analyse ne doit admettre que les phrases grammaticales (over generation, under generation, spurious ambiguity)

Conclusion & Perspectives Accord (nom-adjectif, prep-nom, verb-sujet) Modification (adjectivale et adverbiale) Sous-catégorisation (verbale et prépositionnelle) Flexion Marquage de cas

Conclusion & Perspectives 1. Continuer le développement de la grammaire a. Choisir de nouveaux phénomènes à intégrer b. Redéfinir les priorité pour la grammaire (se fixer sur un phénomène précis pour en élargir la couverture) 2. Travailler avec la Matrix