Theories linguistiques pour le TAL Amalia Todirascu todiras@unistra.fr 18/09/2018 Théories linguistiques
Théories linguistiques Plan Grammaires de constituants, Grammaires de dépendances, modèles formels pourquoi des modèles formels pour l'analyse syntaxique automatique? LTAG théorie applications 18/09/2018 Théories linguistiques
Analyse syntaxique automatique approches classique (analyse complète) grammaire lexique analyse partielle: chunks (Abney, 1991, Vergne, 1999), automates à états finis (Ait-Mokhtar et Chanod, 1999) 18/09/2018 Théories linguistiques
Analyse syntaxique automatique (II) approches Manuelle Apprentissage automatique: Anglais Caroll et Briscoe (1996) Collins (1996) Français Chappelier et Rajman (1998), (Candito et al, 2010) Allemand Bohnet (2010) 18/09/2018 Théories linguistiques
Théories linguistiques Rappel: Grammaire TAL symbol initial: Phrase un ensemble de symboles non-terminaux: les classes syntaxiques un ensemble de symboles terminaux: à retrouver dans le lexique ou la catégorie lexicale un ensemble de règles de réecriture 18/09/2018 Théories linguistiques
Théories linguistiques Grammaire Phrase -> GN GV Phrase -> GN GV GN Phrase -> GN GV GN GP GN -> Det Nom GN -> Det Nom Adj GN -> NProp GN -> Pron GV -> Verbe GV -> Aux Verbe GP -> Prep GN GP -> Prep GN GP 18/09/2018 Théories linguistiques
Grammaires de dépendance NP V NP R0 VMOD SBJ NMOD EN D N ROOT EN V D N Karl travaille le soir Karl travaille le soir 18/09/2018 Théories linguistiques
Grammaires de dépendance (II) ROOT R0 NP V NP V:travaille SBJ VMOD NE:Karl EN D N N:soir NMOD Karl travaille le soir D:le 18/09/2018 Théories linguistiques
Grammaires de dépendance ROOT R0 Formalisme: T = terminaux N = non-terminaux L = étiquettes ROOT = noeud initial règles: RI : règle de catégorisation : X y1 | … | yn RII : règle de dépendence : X(Y1…Yi*Yi+1…Yn) RIII: catégories liées avec ROOT V:travaille SBJ VMOD EN:Karl N:soir NMOD D:le 18/09/2018 Théories linguistiques
Théories linguistiques Exemples MST parser (Candito et al, 2010) entrée: MElt tagger (Sagot, Denis, 2010) sortie: relations de dépendance ressource: FRench Treebank (Abeillé et al, 2003) Annotation au niveau de constituents : AP, PP, NP, VN, AdP, VPinf, VPpart Annotation au niveau de fonctions syntaxiques 18/09/2018 Théories linguistiques
Analyse syntaxique classique Objectif: judger si une phrase est correcte approche constructiviste construire un arbre syntaxique pour la phrase d'éntrée, en appliquant les règles de grammaire nécessite des ressources complètes pas adaptée aux textes spécialisés, transcrits de l'oral, pas de phrases complexes 18/09/2018 Théories linguistiques
Analyse syntaxique classique (II) Règles de grammaire independentes du contexte FIPS (Werhli, 2005) Modèles formels pour décrire la grammaire Constraint Grammar (VISL, Bick, 2009) 18/09/2018 Théories linguistiques
Théories linguistiques Un modèle formel un formalisme de représentation des connaissances linguistiques et extralinguistiques des règles de grammaires des entrées du lexique des connaissances du domaine modalités de calcul pour construire un arbre syntaxique pour construire une représentation sémantique 18/09/2018 Théories linguistiques
Théories linguistiques Pourquoi des modèles? les grammaires independentes de contexte ne sont pas suffisantes phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance optimiser le calcul pour les arbres syntaxiques les représentations sémantiques 18/09/2018 Théories linguistiques
Théories linguistiques Modèles Plusieurs aspects organisation du lexique stratégies d'analyse automatique Plusieurs modèles GPSG (Generalized Phrase Structure Grammar) (Gazdar) LFG (Lexical Function Grammar) (Kaplan) HPSG (Head Phrase Structure Grammar) (Pollard, Sag, 1994) TAG (Joshi, 1985), LTAG (Joshi, 1995) 18/09/2018 Théories linguistiques
Théories linguistiques TAG Tree Adjoining Grammars (Joshi, 1975, 1995) l'hypothèse: représenter les contextes syntaxiques locales (des arbres syntaxiques) contraintes sur les combinaisons entre ces arbres syntaxiques justification linguistique (structure prédicat-argument) prise en compte de l'ordre locale des mots 18/09/2018 Théories linguistiques
Théories linguistiques TAG (II) La grammaire: un symbole initial, des symboles non-terminaux, des symboles terminaux Les règles de réecriture: un ensemble d'arbres arbre initial: un arbre ayant le noeud racine étiqueté avec le symbole initial noeuds feuilles: symboles terminaux arbre auxiliaire: un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine 18/09/2018 Théories linguistiques
Arbre initial et arbre auxiliaire W1, W2 T* (T l'ensemble de symboles terminaux) X NT (NT – symbole non-terminal) : Phrase W T* (T l'ensemble de symboles terminaux) α : X W1 W2 W Arbre initial α Arbre auxiliaire 18/09/2018 Théories linguistiques
Théories linguistiques Adjonction ' : X X : Phrase t – sous arbre avec la racine X : X X t X X t 18/09/2018 Théories linguistiques
TAG et contraintes locales pour chaque noeud n, specifie les arbres auxiliaires qui peuvent d'adjoindre Selectif : une liste d'arbres auxiliaires zero: aucun arbre auxiliaire peut s'adjoindre obligatoire: les arbres qui doivent s'adjoindre 18/09/2018 Théories linguistiques
Théories linguistiques Avantages et limites Avantages modèle operationnel: adjonction motivation linguistique prise en compte des contraintes locales limites beaucoup d'arbres à combiner pas de lien direct avec le lexique 18/09/2018 Théories linguistiques
Lexicalized Tree Adjoining Grammars (LTAG) association entrée lexicale - arbres description complète de l'environnement syntaxique possibilité de traiter les expressions figées modifications par rapport au TAG ancrage lexical deux opérations: substitution (obligatoire) et adjonction (facultative) 18/09/2018 Théories linguistiques
Théories linguistiques Arbres LTAG Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément au moins un noeud ancre (l'unité lexicale) des noeuds de substitution () Arbres auxiliaires – relations tête-modifieurs un noeud ancre un noeud pied (*), l'étiquette est identique au noeud racine 18/09/2018 Théories linguistiques
Théories linguistiques Exemples nv1: nvn1: S V GN GN S V GN adv1: np1: GN V Adv V* Np 18/09/2018 Théories linguistiques
Théories linguistiques Propriétés Grammaire lexicalisée: arbres unités lexicales associées aux arbres opérations localité un arbre élémentaire contient tous les arguments dans la même structure pour chaque unité lexicale, on associe plusieurs arbres recursivité: arbres auxiliaires 18/09/2018 Théories linguistiques
Arbres derivés et arbres de derivation le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée arbres de derivation les noeuds étiquetés avec le nom de l'arbre et l'ancre (le lemme) les liens – opérations d'adjonction ou de substitution arbre de dépendances on supprime les noms des arbres dans l'arbre de derivation 18/09/2018 Théories linguistiques
Théories linguistiques Ressources XTAG (Doran et al, 1994) grammaire de grande couverture étiquetteur, analyseur morphologique, analyseur syntaxique http://www.cis.upenn.edu/~xtag/ FTAG (Abeillé, 2002) grammaire de grande couverture pour le français 18/09/2018 Théories linguistiques
L'analyseur syntaxique LTAG développé par Langue et Dialogue, LORIA, INRIA-Lorraine http://www.loria.fr/~azim/LLP2/help/fr/index.html utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995) chaque mot est associé à une famille d'arbres un arbre décrit le comportement syntaxique de chaque mot grammaire d'arbres adjoints lexicalisée (LTAG) (Abeillé et al, 2001) possible extensions pour les structures de traits 18/09/2018 Théories linguistiques
L'analyseur syntaxique LTAG (II) Combiner les arbres associés aux mots de la phrase opération de substitution: structure prédicat-arguments opération d'adjonction: les modifieurs coût important d'adaptation des ressources aux domaines nouveaux 18/09/2018 Théories linguistiques
Théories linguistiques V Adv V* énormément Jean dort énormément N Jean S V N Arbres S V N N Np Lexique substitution dort S V N Jean dort énormément adjonction V Adv V* Jean S V N Jean dort énormément dormir Adv 18/09/2018 Théories linguistiques
Théories linguistiques Ressources une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales un arbre: au moins un noeud ancre (attribut type) un noeud tête (l'élement central qui porte les propriétés du constituant) des noeuds de type substitution (subst) ou adjonction (foot) lien avec le lemme: lexicalisation unités lexicales: morphoLib 18/09/2018 Théories linguistiques
Théories linguistiques Exemple d'arbre <tree id="prep_mod_temp"> <node cat="VP"> <node cat="VP" type="foot"/> <node cat="PP"> <node cat="Prep" name="_head" type="anchor"> </node> <node cat="N" type="subst"> </tree> 18/09/2018 Théories linguistiques
Théories linguistiques Exemples de ancrage <lexicalization> <family> <tree id="for_n_adj"/> </family> <anchor noderef="_head"> <lemmaref cat="Prep" name="FOR"/> </anchor> </lexicalization> 18/09/2018 Théories linguistiques
Théories linguistiques Exemple d'entrée <morph lex="for"> <fs> <f name="cat"> <sym value="prep"/> </f> </fs> <lemmaref cat="Prep" name="FOR"/> </morph> 18/09/2018 Théories linguistiques
Théories linguistiques Autres outils French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html autres parseurs http://alpage.inria.fr/software.fr.html XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres 18/09/2018 Théories linguistiques
Théories linguistiques Projets et évenements Outils et ressources SYNTAX (équipe ALPAGE) – générer des analyseurs pour les grammaires TAG Multiple Information Access using Multiple Modalities – MIAMM (LORIA) (2002-2004) Ozone (2003-2005) (LORIA) French Treebank (Anne Abeillé) (2003) événements Journée ATALA: Quels analyseurs syntaxiques pour le français ? (oct 09) http://www.atala.org/ IWPT'09 18/09/2018 Théories linguistiques
Théories linguistiques Avantages et Limites avantages modèle opérationnel adaptable pour l'analyse partielle motivation linguistique limites coût important pour créer les ressources nécessite une sélection préalable des arbres 18/09/2018 Théories linguistiques
Théories linguistiques Réferences Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6 Abeillé, A. 2002. Une grammaire électronique du français, CNRS Editions, Paris. Steven Abney. Parsing By Chunks. In: Robert Berwick, Steven Abney and Carol Tenny (eds.), Principle-Based Parsing. Kluwer Academic Publishers, Dordrecht. 1991. Ait-Mokhtar, S., Chanod, J.-P. 1997. Incremental Finite State Parsing, ANLP 1997, 72-79 Bangalore, S. (1997) Complexity of Lexical Descriptions and its Relevance to Partial Parsing 18/09/2018 Théories linguistiques
Théories linguistiques Réferences (II) Carroll, J. and E. Briscoe (1996) `Apportioning development effort in a probabilistic LR parsing system through evaluation'. In Proceedings of the ACL/SIGDAT Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania, PA. 92-100 Chappelier, C., Rajman, M. (1998) A Generalized CYK Algorithm for Parsing Stohastic CFG, TAPD 1998 Collins, M. (1996). A New Statistical Parser Based on Bigram Lexical Dependencies Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In Proceedings of COLING'94. Gazdar, G. 1985. Phrase Structured Grammars and Natural Languages, Proceedings of IJCAI. 18/09/2018 Théories linguistiques
Théories linguistiques Réferences (III) Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In Computational Intelligence Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars. J. Comput. Syst. Sci. 10(1): 136-163 Vergne, J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur. Analyse syntaxique automatique non combinatoire. Synthèse et Résultats, Mémoire HDR. Vijay-Shankar, K, Joshi, A. Some Computational Properties of Tree Adjoining Grammars, HLT 1986 18/09/2018 Théories linguistiques
Head-driven Phrase Structured Grammar 18/09/2018 Théories linguistiques
Théories linguistiques HPSG proposé par I.Sag et C.Pollard (Stanford), 1994 grammaires d'unification les entrées lexicales et les règles de grammaires structures de traits (propriétés-valeurs) information riche dans le lexique 18/09/2018 Théories linguistiques
Structure de traits (feature-structure) une structure de traits un ensemble de propriétés et leurs valeurs valeurs: atomiques ou d'autres f-structures propriétés: phonologiques syntaxiques sémantiques relation d'ordre (une structure A est plus informative que la structure B si elle contient toutes les propriétés de la structure B et quelques propriétés en plus) 18/09/2018 Théories linguistiques
Opérations sur les structures Union : le résultat de l'union de A et B doit contenir toutes les propriétés de A et B; pour les propriétés communes, la valeur calculée est l'union de valeurs: si la valeur est atomique et identique, l'union est possible si la valeur est atomique et différente, alors l'union est vide sinon, il faut proposer l'union des valeurs de ces propriétés 18/09/2018 Théories linguistiques
Théories linguistiques 18/09/2018 Théories linguistiques
Théories linguistiques Structures typées une propriété peut avoir comme valeur une structure le type de structure = l'ensemble des propriétés spécifiques sign=word phrase le type sign = PHON, SYNSEM le type synsem=CAT, CONTENT,CONTEXT CAT – les propriétés morphologiques et les listes de sous-catégorisation CONTENT – les propriétés sémantiques non contextuelles CONTEXT – d'autres connaissances du domaine 18/09/2018 Théories linguistiques
Théories linguistiques Le lexique entrées lexicales riches information phonologique/phonétique information morphologique et syntaxique constituants syntaxiques qui doivent se combiner avec l'unité lexicale information sémantique structure prédicat-argument information contextuelles information à distance tout l'information nécessaire pour l'analyse est concentrée au niveau lexical 18/09/2018 Théories linguistiques
Une structure générique word pour les entrées du lexique 18/09/2018 Théories linguistiques
Un exemple pour une entrée lexicale un verbe et un nom propre 18/09/2018 Théories linguistiques
D'autres exemples des entrées word pour un verbe bitransitif 18/09/2018 Théories linguistiques
Théories linguistiques La grammaire quelques principes universels le principe du noyau (Head Principle) le principe de sous-catégorisation (Sucategorization principle) le principe sémantique quelques principes spécifiques pour chaque langue pour l'ordre pour des phénomènes spécifiques quelques règles dépendentes pour chaque langue les exceptions 18/09/2018 Théories linguistiques
Une structure générique: phrase la phrase a comme propriétés PHON et SYNSEM, mais aussi DTRS (DAUGHTERS) DTRS: HEAD-DTR (le noyau) et les COMP-DTRS (une liste de constituants obligatoires) autres catégories de DTRS: ADJUNCT-DTR, FILLER-DTR, MARKER-DTR 18/09/2018 Théories linguistiques
Théories linguistiques Le principe du noyau la phrase partage les propriétés du noyau noyau: nom pour le groupe nominal, verbe pour la phrase etc. il s'agit des propriétés morphologiques, syntaxiques, sémantiques 18/09/2018 Théories linguistiques
Le principe de sous-catégorisation La valeur SUBCAT du noyau de la phrase est la concatenation de la liste SUBCAT de la phrase avec les valeurs SYNSEM des compléments 18/09/2018 Théories linguistiques
Théories linguistiques Un exemple d'arbre [1] Kim [2] [3] Sandy Fido gives 18/09/2018 Théories linguistiques
Propriétés de dépendences à distance un élément vide prévu dans le lexique un principe pour lier les élements vides 18/09/2018 Théories linguistiques
Théories linguistiques 18/09/2018 Théories linguistiques
Une analyse automatique identifie les entrées lexicales pour chaque mot de la phrase à analyser pour chaque entrée dont [HEAD : nom| verbe|préposition] appliquer le principe de sous-catégorisation pour essayer de saturer les phrases appliquer le principe du noyau, sémantique et les autres principes (contraintes d'unification) si l'unification echoue, la phrase est incorrecte si l'unification a reussi, la phrase a une représentation syntaxique donc elle est reconnue par la grammaire 18/09/2018 Théories linguistiques
Théories linguistiques Travaux de recherche linguistique traiter les divers phénomènes pour divers langues clitiques: Italien, Français (Monachesi 1999, Abeillé 1996) ellipse (Lappin, ): anglais anaphore: anglais TAL développement d'algorithmes d'analyse (VanNoord, 1996, Meurers et al., 2003) développement de systèmes pour écrire des grammaires logique (compilation de grammaire, optimisation des opérations) 18/09/2018 Théories linguistiques
Théories linguistiques Grammaires HPSG Une grammaire HPSG pour plusieurs langues http://www.delph-in.net/index.php?page=3 ERG: pour l'anglais http://www.delph-in.net/erg/ espagnol http://www.upf.edu/pdi/iula/montserrat.marimon/spanish_resource_grammar.html 18/09/2018 Théories linguistiques
Théories linguistiques Ressources HPSG le projet HPSG http://hpsg.stanford.edu/index.html le projet Verbmobil http://verbmobil.dfki.de/overview-us.html dialogue homme-machine Projets: Linguistic Data Structures: On the Relation between Data and Theory in Linguistics (Université de Tübingen) – lien avec le corpus Bulgarian Tree Bank : corpus annoté et CLARK – système pour annoter http://www.bultreebank.org/clark/index.html 18/09/2018 Théories linguistiques
Théories linguistiques Ressources (II) Systèmes pour développer des grammaires ALE (en Prologue) http://www.cs.toronto.edu/~gpenn/ale.html Controll (pas maintenu!) http://www.sfs.uni-tuebingen.de/controll/ Analyseurs pour l'anglais et pour le néerlandais http://www.let.rug.nl/~vannoord/Hdrug/ (en Prolog) 18/09/2018 Théories linguistiques
Théories linguistiques Avantages une seule opération: l'unification des structures mots et phrases: structure de traits structures partagées (unicité de l'objet) toutes les catégories d'informations (syntaxiques, sémantiques, locales, non-locales) sont représentées de manière uniforme 18/09/2018 Théories linguistiques
Théories linguistiques Limites beaucoup d'informations dans le lexique liste exhaustive de toutes les formes analyse partielle n'est pas possible (si l'unification echoue) information redondante (HEAD, SUBCAT, DTRS) pas des données extraites du corpus pour représenter les grammaires 18/09/2018 Théories linguistiques
Théories linguistiques Réferences HPSG C. Pollard, I. Sag - Head-driven phrase structure grammar, 1994 I. Sag,T. Wasow, E. Bender - Syntactic theory: a formal introduction, 2003 Bibliographie HPSG interactive http://hpsg.fu-berlin.de/HPSG-Bib/Bib/V.html R. D. Levine & D. Meurers - Head-Driven Phrase Structure Grammar: Linguistic Approach, Formal Foundations, and Computational Realization. In K. Brown (Ed.): Encyclopedia of Language and Linguistics, Second Edition. Oxford: Elsevier. 2006. 18/09/2018 Théories linguistiques
Théories linguistiques Réferences HPSG (II) Meurers, W. D., Kuthy, K. D. and Metcalf, V. (2003). Modularity of grammatical constraints in HPSG-based grammar implementations. In M. Siegel, F. Fouvry, D. Flickinger and E. Bender (eds.), Proceedings of the ESSLLI ’03 workshop “Ideas and Strategies for Multilingual Grammar Development”. Vienna, Austria. http://ling.osu.edu/∼dm/papers/meurers-dekuthy-metcalf-03.html. Monachesi, P. (1999). A lexical approach to Italian cliticization, vol. 84. Stanford, CA: CSLI Publications. van Noord, G. and Bouma, G. (1997). Hdrug, A Flexible and Extendible Development, Environment for Natural Language Processing. In Estival et al. (1997). 18/09/2018 Théories linguistiques