Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Syntex, analyseur syntaxique de corpus
Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail * Société Synomia
2
Motivations initiales du projet Syntex
Réaliser un outil opérationnel d’analyse syntaxique utile pour : 1) Applications en terminologie et ingénierie des connaissances : Construction de ressources terminologiques et ontologique à partir de corpus Analyse syntaxique d’un corpus (spécialisé)extraction et structuration d’un réseau de syntagmes (nominaux, verbaux) (Lexter Syntex) Indexation de sites Web (Synomia) 2) Recherches en linguistique Observatoire pour des recherches sur la langue : Un ensemble de corpus variés et de grande taille, analysés syntaxiquement (morphologie, syntaxe, sémantique, discours) Analyse distributionnelle Syntex : un « instrument » pour le linguiste (Habert, 2005) D. Bourigault Syntex
3
Motivations initiales : applications en terminologie
Lexter Extracteur de groupes nominaux terminologiques (Bourigault, 1994) De Lexter à Syntex : du Nom au Verbe Les syntagmes verbaux sont des unités à décrire au même titre que les syntagmes nominaux branchement de l’imprimante / brancher l’imprimante les syntagmes nominaux sont extraits de façon plus précise. On observe [ une charge importante en trouble ] dans les rivières L'érosion a disséqué [ le plateau rocheux ] en chevrons. les syntagmes verbaux fournissent les contextes le plus riches pour l’analyse distributionnelle. [ scanner , écographie ] sujets des verbes : confirmer, montrer, objectiver, révéler, … (dans un corpus de compte rendus de réanimation chirurgicale) D. Bourigault Syntex
4
Motivations initiales : instrument pour des recherches en linguistique de corpus
Observatoires : des corpus volumineux analysés syntaxiquement Le Monde ( articles , 200 millions de mots) Frantext (515 romans XXème siècle, 30 millions de mots) Premières exploitations Extraction de propriétés de sous-catégorisation syntaxique proba(accorder,à)=0.57 ; proba(conformité,avec)=0.51 Extraction de propriétés lexico-distributionnelles Deux bases lexico-distributionnelles : Les Voisins de Le Monde, les voisins de Frantext Le Monde : (sec, humide) : {froid, sable, sol, climat, …} Frantext : (sec, humide) : {asphalte, froid, pré, pavé, sable, sol, …} (sec, léger) : {déclic, craquement, claquement, bruissement, …} D. Bourigault Syntex
5
Le paradigme des grammaires d’unification
des formalismes et des théories linguistiques Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique généralisée (GPSG), Grammaire d’arbres adjoints (TAG), Grammaire syntagmatique guidée par les têtes (HPSG) Type de représentation : structures de traits ; formalismes déclaratifs et monotones Séparation données linguistiques (grammaires) / programmes de traitement (analyseurs) Utilisation des grammaires en analyse et en génération Utilisation d’un même analyseur pour différentes grammaires Analyseurs Algorithmes : CYK, Earley, coin gauche, coin tête, etc. D. Bourigault Syntex
6
Le paradigme de la robustesse
Depuis le début des années 90 « We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. » (Aït-Mokhtar, Chanod et Roux, 2002, p. 122–123) Dès les débuts de la Traduction Automatique : TAL « empirique » vs « théorique » (Cori et Léon, 2002) pression des applications Le concept d’utilité domine celui de robustesse D. Bourigault Syntex
7
Quelques travaux en analyse syntaxique (robuste)
P. Garvin (1960) : analyseur Fulcrum University of Georgetown, puis Ramo-Wooldridge Corporation Système « bipartite » : dictionnaire + algorithme (vs « tripartite » : dictionnaire + règles + algorithme) Traitement en passes, fulcrum (mot pivot) D. Bourigault Syntex
8
Quelques travaux en analyse syntaxique (robuste)
L’analyseur du projet TDAP ( ) Université de Pennsylvania, Transformations and Discourse Analysis Project, dirigé par Zellig S. Harris : L. Gleitman, A. Joshi, B. Kauffman et N. Sager Traitement en passes : première application des transducteurs d’état fini à l’analyse syntaxique (Joshi et Hopeley, 1996) Déterministe ordre d’enchaînement des transducteurs, sens de parcours, stratégie du plus long chemin D. Bourigault Syntex
9
Quelques travaux en analyse syntaxique (robuste)
F. Debili (1980) Université Paris XI, équipe dirigée par A. Andreewsky, TAL et recherche documentaire Traitement de la paraphrase : « Qui nomme le premier ministre ? », « Le premier ministre est nommé par le président de la république. » « La nomination du premier ministre par le président de la république a été (… ) » Analyseur syntaxique Traitement en passes Chaînes nominales, chaînes verbales relations homosyntaxiques, relations hétérosyntaxiques matrices de succession automates d’état fini « apprentissage endogène » D. Bourigault Syntex
10
Quelques travaux en analyse syntaxique (robuste)
Le projet PLNLP (années 80) Centre de Recherche d’IBM à Yorktown, projet PLNLP (« Programming Language for Natural Language Processing »), K. Jensen, G. Heidorn Analyse syntaxique pour la correction grammaticale et la vérification de style Traitement en deux passes : Analyse « classique » basée sur une grammaire de base Procédure d’ajustement d’analyse (« fitted parse ») Difficultés d’analyse : « punctuation horrors » D. Bourigault Syntex
11
Quelques travaux en analyse syntaxique (robuste)
L’analyse par chunks de S. Abney Fiabilité et profondeur d’analyse ET robustesse et rapidité La notion de « chunk » Ambiguïté de rattachement : au sein d’un chunk nominal au sein d’une proposition [cherry picker exhaust manifold] John [VP [met] [NP the woman] [CP he married] [PP in Italy]] Traitement en cascade (partage des tâches) Repérage des chunks Repérage des propositions repérage des relations entre chunks (au sein des propositions) Principes généraux easy-first parsing islands of certainty containment of ambiguity D. Bourigault Syntex
12
Quelques travaux en analyse syntaxique (robuste)
J. Vergne : l’analyseur 98 Critique (virulente) du paradigme des grammaires formelles Les grammaires formelles ne sont pas du tout adaptées à la description des langues naturelles redondance des formes récursivité très limitée des segments Rolycatégorie Approche en deux étapes : Etiquetage et identification de syntagmes non récursifs (SNR, chunks) Identification de relations de dépendance entre SNR Principe méthodologique : La phrase est analysée en une seule passe, de gauche à droite » Utilisation de « mémoire » de stockage des SNR D. Bourigault Syntex
13
Quelques travaux en analyse syntaxique (robuste)
J.-P. Chanod Dans la lignée des positions de K. Jensen sur la robustesse en analyse syntaxique “Still robustness is not about statistical vs. rule-based methods. (…) Robustness is about exploring all constructions humans actually produce, be they grammatical, conformant to formal models, frequent or not.” (Chanod, 2002) Le concept d’incrémentalité Concept clé pour réaliser des analyseurs syntaxiques qui soient à la fois robustes et profonds Analyseurs : IFSP (Incremental Finite-State Parsing), puis XIP (Xerox Incremental Parser) Principes de base : Autonomie des règles Décomposition descriptive D. Bourigault Syntex
14
Syntex, un analyseur de corpus robuste
Contraintes imposées par les motivations initiales du projet L’analyseur doit traiter en entrée des corpus de textes : quelques milliers à quelques centaines de milliers de phrases sur des domaines divers et appartenant à des genres variés Contraintes Robustesse et efficacité Couverture et précision Adaptativité Choix méthodologique Pas de grammaire Dans l’esprit de Garvin, Vergne, … (≠ XIP) Les connaissances grammaticales sont « dans » les algorithmes L’analyse syntaxique automatique vue comme une tâche de reconnaissance de formes et non de compilation D. Bourigault Syntex
15
Analyse syntaxique en dépendance
Mode de représentation de la structure syntaxique d’une phrase : Dépendances vs. Constituants Syntaxe de dépendance Tesnière (1959) « Eléments de syntaxe structurale », Mel’čuk (1998), … Equivalence formelle Le choix d’un mode de représentation de la structure syntaxique n’implique pas celui d’une méthode informatique d’analyse particulière Il existe des grammaires de dépendance formelles, et il existe des analyseurs en constituants robustes Beaucoup d’analyseurs robustes sont des analyseurs en dépendance. Analyse en dépendance plus “naturelle” Le chat mange la souris D. Bourigault Syntex
16
Analyse modulaire en cascade
Syntex prend en entrée un corpus étiqueté. Il est constitué de modules, dont chacun traite une relation de dépendance syntaxique particulière. Chaque phrase est analysé en plusieurs passes : Un ou plusieurs modules à chaque passe. Chaque module exploite les étiquettes morphosyntaxiques et les relations syntaxiques posées par les autres modules. … et peut modifier ces étiquettes et ces relations (retour en arrière). Chaque module résout « ses » cas d’ambiguïté. Le corpus est analysé en plusieurs passes : Les modules exploitant des données d’apprentissage endogène traitent deux fois le corpus : une première fois pour acquérir des informations sur l’ensemble du corpus Une seconde fois pour les exploiter dans la résolution d’ambiguïtés d’analyse D. Bourigault Syntex
17
Implémentation informatique
Chaque module est constitué d’un ensemble d’heuristiques Parcours de la chaîne de mots, étiquetée et partiellement annotée Point de départ : le mot source de la relation syntaxique, point d’arrivée : le mot cible de la relation syntaxique Pour chaque mot rencontré sur le parcours, 2 décisions à prendre : Choisir comme cible ou non Arrêter le parcours ou continuer Parcours et décisions guidés par des contraintes structurelles, positionnelles, d’accord, de distance, … Le choix de l’ordre d’enchaînement des modules est un problème crucial. Illustrations… D. Bourigault Syntex
18
+ contrainte de projectivité
Parcours « normal » Réétiquetage ? ? Le très petit chat D Av Aj N La linguistique est … D Aj V N Enchaînement + contrainte de projectivité contrainte d’accord ? ? avec le très petit chat P D Av Aj N grammaires de dépendance formelles Nfp P Nfs Ajfp Ambiguïté Ambiguïté ? Il donne du lait au chat Pr V D N P N grammaire de dépendance formelle Nfs P Nfs Ajfs D. Bourigault Syntex
19
Méthodologie de développement
Les modules sont programmés en Perl Par des linguistes informaticiens Méthode de développement relation par relation basée sur corpus : nombreux tests, sur corpus variés autorisée par l’efficacité du système ( mots : ~ 2mn) D. Bourigault Syntex
20
Exploitation des ressources lexicales
Minimale : « uniquement le nécessaire » Intégrées au fur et à mesure des besoins Exemples : Liste des verbes qui font leur passé composé avec l’auxiliaire être Propriétés de sous-catégorisation syntaxique : proba(mot,prep) Ex : proba(accéder,à)= proba(conformité,avec)=0.51 Ressources de 2 types : Endogènes : informations acquises sur le corpus en cours de traitement Le corpus est objet du traitement ET source d’informations Exogènes : exploitées quel que soit le corpus Exemple : les propriétés de sous-catégorisation syntaxiques acquises automatiquement à partir d’un corpus de 200 millions de mots (Le Monde) À l’aide de l’analyseur lui-même D. Bourigault Syntex
21
Etiquetage préalable L’analyseur Syntex est intégré dans une chaîne d’analyse syntaxique 1- Pré-étiquetage Entités nommées : dates, mesures, titres, adresses, … Mots complexes : prépositions, conjonctions, adverbes, … réalisé par Synomia 2- Etiquetage (TreeTagger) réalisé par Université de Stuttgart 3- Post-étiquetage Correction d’erreurs connues du TT, conversion au jeu d’étiquettes Syntex réalisé par ERSS et Synomia 4- Analyse syntaxique (Syntex) réalisé par ERSS Dépendance forte de Syntex avec des modules antérieurs ! D. Bourigault Syntex
22
Analyse en dépendance : contraintes
relation Gouverneur unique Un mot a au plus un gouverneur Projectivité Deux mots en relation de dépendance ne peuvent être séparés que par des mots qui dépendent directement ou indirectement de l’un d’eux (Les relations de dépendance ne peuvent se croiser) Tout mot a un gouverneur … à l’exception du verbe de la proposition principale gouverneur dépendant non non mot mot mot mot mot mot mot D. Bourigault Syntex
23
Analyse en dépendance : les principales relations
Gouverneur Dépendant Exemples ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé ADV Verbe, Nom, Adj. Adv. très petit ; courir vite ATTO Verbe Adj., Nom Il le rend joyeux ; être nommé président ATTS Il est joyeux ; Il est le président AUX Auxiliaire Part. passé Il a mangé ; Il est venu COMP Conjonction Adj., Nom, Verbe vouloir que tu viennes XCOMP Adj., Adv., Nom aussi efficace que rapide ; plus que ; le fait que DE Verbe, Adj., Nom Préposition « de » exiger de ; ivre de ; chien de DET Nom, Pronom Déterminant le chat ; le mien EPI le coin cuisine OBJ Nom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir PREP Préposition donner à ; facile à ; aide à XPREP Nom, Pronom, Verbe avec le chat ; avec lui ; pour venir SUJ Le chat mange ; il mange D. Bourigault Syntex
24
Principaux modules relation Parcours de recherche :
gouverneur dépendant Relation Gouverneur Parcours Dépendant Exemples AUX Auxiliaire Part. passé Il a mangé ; Il est venu ADV Verbe, Nom, Adj. Adverbe très petit ; courir vite DET Nom, Pronom Déterminant le chat ; le mien XPREP Préposition Nom, Pronom, Verbe avec le chat ; avec lui ; pour venir DE Verbe, Adj., Nom Préposition « de » exiger de ; ivre de ; chien de ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé PREP donner à ; facile à ; aide à OBJ Verbe Nom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir SUJ Le chat mange ; il mange D. Bourigault Syntex
25
Coordination Représentation Traitement : le plus difficile !
REL Représentation Relation CC du coordonnant vers chacun des coordonnés Le coordonnant est la cible ou la source des relations de dépendance Traitement : le plus difficile ! Où placer le traitement de la coordination dans la chaîne d’analyse syntaxique ? Choix actuel : « tôt » Traitement des virgules coordinatives CC CC X et Y XPREP PREP SUJ ? Le chat de Marie , Jean et Alain dort D N P NP T NP CC NP V D. Bourigault Syntex
26
Antécédence relative Représentation
Relation REL du pronom relatif vers l’antécédent SUJ REL SUJ ATTS DET Le chat qui mange est gris OBJ REL SUJ Le chat de gouttière que je vois REL PREP SUJ Le chat avec lequel Marie joue D. Bourigault Syntex
27
Analyse « profonde » Structures à contrôle de l’infinitif : sujet profond N0 V Vinf Marie souhaite partir N0 V à Vinf Marie pense à partir N0 V de Vinf Marie s’efforce de partir N0 V N1 à Vinf Marie autorise Jean à partir N0 V N1 de Vinf Marie prie Jean de partir N0 V à N1 à Vinf Marie apprend à Jean à nager N0 V à N1 de Vinf Marie demande à Jean de partir D. Bourigault Syntex
28
Ambiguïté de rattachement prépositionnel
rocheux + en ? plateau + en ? disséquer + en ? PREP ? L'érosion a disséqué le plateau rocheux en chevrons Il faut disposer de propriétés de sous-catégorisation syntaxique Pour les verbes, noms, adjectifs Dans Syntex Probabilité (mot, prep) 2 ressources : Toutes les deux construites automatiquement à partir de corpus Ressource exogène : construite préalablement à partir d’un « gros » corpus d’apprentissage (200 M mots du Monde), utilisée pour chaque corpus Ressource endogène : acquise au moment de l’analyse à partir du corpus en cours d’analyse, puis « oubliée » ensuite D. Bourigault Syntex
29
Méthode de résolution des ambiguïtés de rattachement prépositionnel
En entrée : une phrase étiquetée, partiellement analysée 1ère étape : rechercher_candidats : Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots mj susceptibles de régir la préposition p des règles qui décrivent dans quelles configurations conserver un mot comme candidat « sauter » un mot arrêter la recherche 2ème étape : choisir_candidat Sur la base d’indices affectés à chacun des candidats Principal indice : probabilité que le mot candidat mj se construise avec la préposition p : proba(mj, p) D. Bourigault Syntex
30
Recherche des candidats
La France défendra ses intérêts avec la plus grande fermeté . Le problème est triple : insuffisance de la recherche sur des pathologies, … Certains pays réclament l'élimination totale des subventions agricoles à l' exportation Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario D. Bourigault Syntex
31
Acquisition de propriétés de sous-catégorisation
Calcul de probabilités de sous-catégorisation A partir d’un corpus annoté manuellement (PTB) A partir d’un corpus étiqueté automatiquement A partir du Web Méthode A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) Grande taille Thématiquement diversifié Ressources génériques Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex) D. Bourigault Syntex
32
Procédure d’acquisition à partir du corpus LM10
Deux itérations sur le corpus LM10 1) Amorçage : n’exploiter que les informations acquises dans des contextes non ambigus Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) Je l’ai donné à Marie nb d’occurrences où le mot m régit la préposition p proba(m,p) = nb total d’occurrences du mot m D. Bourigault Syntex
33
Procédure d’acquisition à partir du corpus LM10
LM10 étiqueté 1- Amorçage 2- Consolidation rechercher_candidat Résolution : Le candidat de plus forte probabilité. Par défaut : le premier choisir_candidat cas de rattachement prépositionnel non ambigus cas de rattachement prépositionnel résolus avec L0 Calcul proba(m,p) Calcul proba(m,p) Lexique L0 Lexique L1 Lexique final D. Bourigault Syntex
34
Probabilités de sous-catégorisation syntaxique
Ressource exogène (journal Le Monde, 200 millions de mots) proba mot prep 0,765 abonner à 0,536 aboutir 0,788 accéder 0,535 accoler 0,569 accorder 0,871 accouder 0,558 accrocher 0,578 acculer 0,641 achopper sur 0,650 adapter 0,700 adhérer 0,772 adjoindre 0,873 adosser proba mot prep 0,622 accès à 0,864 accession 0,539 accointance avec 0,606 allusion 0,537 appartenance 0,528 assignation 0,564 assujettissement 0,554 butte 0,773 cofinancé par 0,510 conformité croupière 0,745 haro sur 0,546 hockey D. Bourigault Syntex
35
Probabilités de sous-catégorisation syntaxique
Exemple de ressource endogène (corpus médical, réanimation chirurgicale, mots) proba mot prep 0,444 accord avec 0,246 accouchement par 0,418 allergie à 0,200 amylasémie 0,469 analgésie anémie 0,735 antibioprophylaxie 0,355 antibiothérapie 0,235 anticoagulation 0,616 argument pour 0,312 en faveur de 0,308 arme D. Bourigault Syntex
36
Evaluation du module de rattachement prépositionnel
Sur des corpus de genres variés Annotation manuelle de plusieurs centaines de cas 4 stratégies Base : candidat le plus éloigné Endo : candidat avec la probabilité endogène la plus élevée Exo : candidat avec la probabilité exogène la plus élevée Mixte : candidat avec la probabilité endogène ou exogène la plus élevée Genre Corpus # mots # cas annotés Littéraire Balzac (Splendeur …) BAL 672 Journalistique un extrait du Monde LMO 1 238 Juridique le Code du travail CTR 1 150 Médical Comptes rendus d’hospitalisation MED 646 D. Bourigault Syntex
37
Evaluation du module de rattachement prépositionnel
% précision 100 Prec % base endo exo mixte BAL 83.0 83.5 86.9 86.6 LMO 70.3 80.1 85.9 CTR 65.5 82.3 86.3 87.3 MED 59.9 78.0 66.3 78.3 90 80 70 60 50 base endo exo mixte D. Bourigault Syntex
38
Couverture de Syntex Le Monde Frantext # phrases 1 053 604 1 968 219
# phrases sans verbes # mots # mots / phrase 23 14 % mots sans gouverneur 21 28 cat % cat / tot -gouv / cat Nom 22 18 15 Prep 17 12 20 Det 1 13 2 Adj 8 10 6 16 VCONJ 7 86 87 NomPr Adv 31 30 Pro 4 D. Bourigault Syntex
39
Synthèse Un analyseur robuste Pas de théorie syntaxique
et aussi, précis et à (relativement) large couverture Opérationnel diffusé Pas de théorie syntaxique Les connaissances linguistiques ne sont présentes sous la forme de règles de grammaires, mais : architecture informatique algorithmes et heuristiques de recherche de recteurs ou régis Pas de notion de « bonne formation » de phrases : analyse locale ascendante : pas de contrôle global Syntaxe théorique vs syntaxe opérationnelle (Bar-Hillel, 1961) Un analyseur peu lexicalisé Analyse guidée par la phrase vs. analyse guidée par le lexique D. Bourigault Syntex
40
II – Utilisations de Syntex
Extraction de termes Construction de ressources terminologiques (thesaurus, index, ontologies, …) Recherche d’informations sur sites Internet (Synomia) Interrogation de corpus annotés Tiger (Université de Stuttgart) Analyse distributionnelle Upery D. Bourigault Syntex
41
Construction d’un « réseau terminologique »
Analyse syntaxique On observe une charge importante en trouble Extraction de syntagmes observer charge trouble E important E T E T observer une charge … charge importante en trouble charge importante observer une érosion oberver une perte … charge en trouble … charge en argile charge en poussière « séries paradigmatiques » D. Bourigault Syntex
42
D. Bourigault Syntex
43
D. Bourigault Syntex
44
D. Bourigault Syntex
45
D. Bourigault Syntex
46
Interrogation de corpus annotés à l’aide de TigerSearch
Conversion analyses en dépendance arbres syntaxiques Pour interrogation par TigerSearch Pour extraction de candidats termes S H m1 m m2 m m m2 P Le chat mange la souris Le chat mange la souris D. Bourigault Syntex
47
TigerSearch Université de Stuttgart
Outil d’interrogation de corpus arborés (banques d’arbres) D. Bourigault Syntex
48
D. Bourigault Syntex
49
D. Bourigault Syntex
50
D. Bourigault Syntex
51
D. Bourigault Syntex
52
D. Bourigault Syntex
53
Reconnaissance de formes
le chat très gentil de Marie dort sur le paillasson D. Bourigault Syntex
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.