Ressources électroniques pour l’analyse syntaxique

Slides:



Advertisements
Présentations similaires
Déductions logiques et calcul de représentations sémantiques Alain Lecomte UMR SFL Séminaire « Logique, Sémantique, Dialogue » - partie I.
Advertisements

Amalia Todirascu Analyse syntaxique Amalia Todirascu
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
Olivier Kraif, Agnès Tutin LIDILEM
XML schema Objectifs Valider un doc. XML pour des contraintes syntaxiques Documenter un type de documents XML caractérisé par des contraintes Encadrer.
Ontologie, Méta-données, Sémiotiques
Domaines nominaux XSLT
Analyse Sémantique de Requêtes en Langue Naturelle pour un Agent Assistant d’Interface. Un modèle de réécriture procédurale conduite par relaxation de.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Girard Pia & Laffont Caroline
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
Approches formelles en syntaxe et sémantique Alain Lecomte UMR 7023 Structures Formelles de la Langue.
Travaux pratiques sur Nooj
Cours de Syntaxe Formelle : Mise à niveau DEA / DES
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
Cartes Conceptuelles Daniel Peraya
Introduction : Compilation et Traduction
XML-Family Web Services Description Language W.S.D.L.
UMR CNRS 6599 Heuristique et Diagnostic des Systèmes Complexes CNAM – 13 et 14 Juin 2002 ABTools : un environnement de prototypage pour la méthode B Boulanger.
Pour un système formel de description linguistique
Mahmoud Fawzi Mammeri & Nacer Eddine Bouhassain
Métagrammaire RLT, 7/02/02. Plan n Rappels : compilateur de BG n Essais sur les verbes n Questions.
4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique.
Bases de données lexicales
Vers des composants TAL réutilisables
1 CSI3525: Concepts des Languages de Programmation Notes # 3: Description Syntaxique des Languages.
Cours 7 Grammaires algébriques Constituants syntaxiques.
OUTILEX Présentation des résultats
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
8 - XML Cours XML.
Paradigmes des Langages de Programmation
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Domain Name System DNS. Le principe basé sur le modèle client / serveur le logiciel client interroge un serveur de nom; typiquement : –l’utilisateur associe.
Maxime Lefrançois, Fabien Gandon, Alain Giboin
Le langage XML.
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
Paulette Roulon-Doko La syntaxe Paulette Roulon-Doko
Vers une analyse syntaxique à granularité variable Tristan Van rullen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
MJ. Blin et M. CsernelPoleInfo31 XML et ses environnements Documents XML bien formés Prologue Arbre d'éléments Attributs Commentaires Entités internes.
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Moteur de recherche sémantique basé sur les fonctions lexicales
Module : Langage XML (21h)
Modélisation des documents: DTD et Schéma
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
Le Traitement Automatique des Langues (TAL)
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
Un modèle flexible d'édition intelligente de documents structurés basé sur des techniques de "chart-parsing" Marc Dymetman Exposé LIMSI, 14 déc
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Grammaire d'Unification Sens-Texte : modularité et polarisation Sylvain Kahane François Lareau Modyco, Université Paris 10 OLST, U. de Montréal Lattice,
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification Sylvain Kahane Lattice, Paris 7 / Paris 10 TALN 2003, Batz-sur-mer.
Révisions pour l’exam L2 Informatique Obligatoire.
Theories linguistiques pour le TAL
Transcription de la présentation:

Ressources électroniques pour l’analyse syntaxique Amalia Todirascu todiras@unistra.fr

Plan Quelles ressources pour une analyse syntaxique «classique»? Utilisations possibles Les grammaires d’arbres adjoints lexicalisés Lexique Grammaire Un exemple d’analyseur: LTAG

Analyse syntaxique « classique » identifier les formes des mots et les parties du discours un lexique complet (toutes les formes) Ou un étiqueteur + dérivation de formes fléchies construire les arbres syntaxiques pour un texte donné Un ensemble de règles de grammaires et des contraintes associés Accord sujet-prédicat, dépendences à distance etc. modèles linguistiques

Utilisation des ressources analyse syntaxique et sémantique aide à la traduction phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance lexique (expressions figées) traduction automatique systèmes à base d'arbre syntaxiques apprentissage d'une langue etrangère consulter les règles de grammaire

Lexique Informations unités lexicales vs. mots composés exhausitivité Toutes les formes lemmes Propriétés morphologiques sémantiques unités lexicales vs. mots composés exhausitivité

Exemples de lexiques Sur le CNRTL (Centre national de ressources textuelles et lexicales) http://www.cnrtl.fr/lexiques/ Morphalou 400000 formes fléchies Format XML Propriétés mophologiques et lemmes Prolex : un lexique de noms propres

Exemples de lexiques Anglais http://www.ahds.ac.uk/litlangling   Multext-EAST :dictionnaires pour plusieurs langues de l’Europe Centrale et de l’Est http://nl.ijs.si/ME/V3/

Grammaires Plusieurs aspects Plusieurs modèles pour la grammaire organisation du lexique stratégies d'analyse automatique Plusieurs modèles pour la grammaire GPSG (Generalized Phrase Structure Grammar) (Gazdar) LFG (Lexical Function Grammar) (Kaplan) HPSG (Head Phrase Structure Grammar) (Pollard, Sag, 1994) TAG (Joshi, 1985), LTAG (Joshi, 1995)

Exemples de ressources Une grammaire HPSG pour plusieurs langues http://www.delph-in.net/index.php?page=3 ERG: pour l'anglais http://www.delph-in.net/erg/ espagnol http://www.upf.edu/pdi/iula/montserrat.marimon/spanish_resource_grammar.html LFG (anglais, allemand, norvégien) http://decentius.aksis.uib.no/logon/xle.xml

TAG Tree Adjoining Grammars (Joshi, 1975, 1995) l'hypothèse: représenter les contextes syntaxiques locales (des arbres syntaxiques) contraintes sur les combinaisons entre ces arbres syntaxiques justification linguistique (structure prédicat-argument) prise en compte de l'ordre locale des mots

TAG (II) La grammaire: un symbole initial, des symboles non-terminaux, des symboles terminaux Les règles de réécriture: un ensemble d'arbres arbre initial: un arbre ayant le noeud racine étiqueté avec le symbole initial noeuds feuilles: symboles terminaux arbre auxiliaire: un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine

Arbre initial et arbre auxiliaire W1, W2 T* (T l'ensemble de symboles terminaux) X  NT (NT – symbole non-terminal)  : Phrase W T* (T l'ensemble de symboles terminaux) α : X W1 W2 W Arbre initial α Arbre auxiliaire 

Adjonction ' : X  : X  : Phrase X X t X X t t – sous arbre avec la racine X  : X X t X X t

Lexicalized Tree Adjoining Grammars (LTAG) association entrée lexicale - arbres description complète de l'environnement syntaxique possibilité de traiter les expressions figées modifications par rapport au TAG ancrage lexical deux opérations: substitution (obligatoire) et adjonction (facultative)

Arbres LTAG Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément au moins un noeud ancre (l'unité lexicale) des noeuds de substitution () Arbres auxiliaires – relations tête-modifieurs un noeud ancre un noeud pied (*), l'étiquette est identique au noeud racine

Exemples nv1: nvn1: S V  GN GN  S V  GN adv1: np1: GN V Adv  V*

Propriétés Grammaire lexicalisée: localité arbres unités lexicales associées aux arbres opérations localité un arbre élémentaire contient tous les arguments dans la même structure pour chaque unité lexicale, on associe plusieurs arbres recursivité: arbres auxiliaires

Arbres dérivés et arbres de dérivation le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée arbres de dérivation les noeuds étiquetés avec le nom de l'arbre et l'ancre (le lemme) les liens – opérations d'adjonction ou de substitution arbre de dépendances on supprime les noms des arbres dans l'arbre de dérivation

Ressources XTAG (Doran et al, 1994) FTAG (Abeillé, 2002) grammaire de grande couverture étiqueteur, analyseur morphologique, analyseur syntaxique http://www.cis.upenn.edu/~xtag/ FTAG (Abeillé, 2002) grammaire de grande couverture pour le français

L'analyseur syntaxique LTAG développé par Langue et Dialogue, LORIA, INRIA-Lorraine http://www.loria.fr/~azim/LLP2/help/fr/index.html utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995) chaque mot est associé à une famille d'arbres un arbre décrit le comportement syntaxique de chaque mot grammaire d'arbres adjoints lexicalisée (LTAG) (Abeillé et al, 2001) possible extensions pour les structures de traits

L'analyseur syntaxique LTAG (II) Combiner les arbres associés aux mots de la phrase opération de substitution: structure prédicat-argument opération d'adjonction: les modifieurs coût important d'adaptation des ressources aux domaines nouveaux

V Adv V* énormément Jean dort énormément N Jean S V N Arbres S V N N Np  Lexique substitution dort S V N Jean dort énormément adjonction V Adv  V* Jean S V N Jean dort énormément dormir Adv

Ressources une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales un arbre: au moins un noeud ancre (attribut type) un noeud tête (l'élément central qui porte les propriétés du constituant) des noeuds de type substitution (subst) ou adjonction (foot) lien avec le lemme: lexicalisation unités lexicales: morphoLib

Exemple d'arbre <tree id="prep_mod_temp"> <node cat="VP"> <node cat="VP" type="foot"/> <node cat="PP"> <node cat="Prep" name="_head" type="anchor"> </node> <node cat="N" type="subst"> </tree>

Exemples de ancrage <lexicalization> <family> <tree id="for_n_adj"/> </family> <anchor noderef="_head"> <lemmaref cat="Prep" name="FOR"/> </anchor> </lexicalization>

Exemple d'entrée <morph lex="for"> <fs> <f name="cat"> <sym value="prep"/> </f> </fs> <lemmaref cat="Prep" name="FOR"/> </morph>

Autres outils French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html autres parseurs http://alpage.inria.fr/software.fr.html  XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres

Avantages et Limites avantages limites modèle opérationnel adaptable pour l'analyse partielle motivation linguistique limites coût important pour créer les ressources nécessite une sélection préalable des arbres

Réferences Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6 Abeillé, A. 2002. Une grammaire électronique du français, CNRS Editions, Paris. Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In Proceedings of COLING'94.

Réferences (II) Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In Computational Intelligence Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars. J. Comput. Syst. Sci. 10(1): 136-163

Sujet Réalisez un dossier de 6-8 pages qui présente un outil d'analyse automatique (étiqueteur, analyseur syntaxique) ou une ressources (lexique, grammaire), avec les avantages et les inconvenients de chaque modèle.