La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de.

Présentations similaires


Présentation au sujet: "Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de."— Transcription de la présentation:

1 Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail * Société Synomia

2 D. Bourigault Syntex 2 Motivations initiales du projet Syntex Réaliser un outil opérationnel danalyse syntaxique utile pour : 1)Applications en terminologie et ingénierie des connaissances : Construction de ressources terminologiques et ontologique à partir de corpus Analyse syntaxique dun corpus (spécialisé) extraction et structuration dun réseau de syntagmes (nominaux, verbaux) (Lexter Syntex) Indexation de sites Web (Synomia) 2)Recherches en linguistique Observatoire pour des recherches sur la langue : Un ensemble de corpus variés et de grande taille, analysés syntaxiquement (morphologie, syntaxe, sémantique, discours) Analyse distributionnelle Syntex : un « instrument » pour le linguiste (Habert, 2005)

3 D. Bourigault Syntex 3 Motivations initiales : applications en terminologie Lexter Extracteur de groupes nominaux terminologiques (Bourigault, 1994) De Lexter à Syntex : du Nom au Verbe Les syntagmes verbaux sont des unités à décrire au même titre que les syntagmes nominaux branchement de limprimante / brancher limprimante les syntagmes nominaux sont extraits de façon plus précise. On observe [ une charge importante en trouble ] dans les rivières L'érosion a disséqué [ le plateau rocheux ] en chevrons. les syntagmes verbaux fournissent les contextes le plus riches pour lanalyse distributionnelle. [ scanner, écographie ] sujets des verbes : confirmer, montrer, objectiver, révéler, … (dans un corpus de compte rendus de réanimation chirurgicale)

4 D. Bourigault Syntex 4 Motivations initiales : instrument pour des recherches en linguistique de corpus Observatoires : des corpus volumineux analysés syntaxiquement Le Monde ( articles , 200 millions de mots) Frantext (515 romans XXème siècle, 30 millions de mots) Premières exploitations Extraction de propriétés de sous-catégorisation syntaxique proba(accorder,à)=0.57 ; proba(conformité,avec)=0.51 Extraction de propriétés lexico-distributionnelles Deux bases lexico-distributionnelles : Les Voisins de Le Monde, les voisins de Frantext Le Monde :(sec, humide) : {froid, sable, sol, climat, …} Frantext :(sec, humide) : {asphalte, froid, pré, pavé, sable, sol, …} (sec, léger) : {déclic, craquement, claquement, bruissement, …}

5 D. Bourigault Syntex 5 Le paradigme des grammaires dunification Grammaires dunification des formalismes et des théories linguistiques Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique généralisée (GPSG), Grammaire darbres adjoints (TAG), Grammaire syntagmatique guidée par les têtes (HPSG) Type de représentation : structures de traits ; formalismes déclaratifs et monotones Séparation données linguistiques (grammaires) / programmes de traitement (analyseurs) Utilisation des grammaires en analyse et en génération Utilisation dun même analyseur pour différentes grammaires Analyseurs Algorithmes : CYK, Earley, coin gauche, coin tête, etc.

6 D. Bourigault Syntex 6 Le paradigme de la robustesse Depuis le début des années 90 « We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. » (Aït-Mokhtar, Chanod et Roux, 2002, p. 122–123) Dès les débuts de la Traduction Automatique : TAL « empirique » vs « théorique » (Cori et Léon, 2002) pression des applications Le concept dutilité domine celui de robustesse

7 D. Bourigault Syntex 7 Quelques travaux en analyse syntaxique (robuste) P. Garvin (1960) : analyseur Fulcrum University of Georgetown, puis Ramo-Wooldridge Corporation Système « bipartite » : dictionnaire + algorithme (vs « tripartite » : dictionnaire + règles + algorithme) Traitement en passes, fulcrum (mot pivot)

8 D. Bourigault Syntex 8 Quelques travaux en analyse syntaxique (robuste) Lanalyseur du projet TDAP ( ) Université de Pennsylvania, Transformations and Discourse Analysis Project, dirigé par Zellig S. Harris : L. Gleitman, A. Joshi, B. Kauffman et N. Sager Traitement en passes : première application des transducteurs détat fini à lanalyse syntaxique (Joshi et Hopeley, 1996) Déterministe ordre denchaînement des transducteurs, sens de parcours, stratégie du plus long chemin

9 D. Bourigault Syntex 9 Quelques travaux en analyse syntaxique (robuste) F. Debili (1980) Université Paris XI, équipe dirigée par A. Andreewsky, TAL et recherche documentaire Traitement de la paraphrase : « Qui nomme le premier ministre ? », « Le premier ministre est nommé par le président de la république. » « La nomination du premier ministre par le président de la république a été (… ) » Analyseur syntaxique Traitement en passes Chaînes nominales, chaînes verbales relations homosyntaxiques, relations hétérosyntaxiques matrices de succession automates détat fini « apprentissage endogène »

10 D. Bourigault Syntex 10 Quelques travaux en analyse syntaxique (robuste) Le projet PLNLP (années 80) Centre de Recherche dIBM à Yorktown, projet PLNLP (« Programming Language for Natural Language Processing »), K. Jensen, G. Heidorn Analyse syntaxique pour la correction grammaticale et la vérification de style Traitement en deux passes : Analyse « classique » basée sur une grammaire de base Procédure dajustement danalyse (« fitted parse ») Difficultés danalyse : « punctuation horrors »

11 D. Bourigault Syntex 11 Quelques travaux en analyse syntaxique (robuste) Lanalyse par chunks de S. Abney Fiabilité et profondeur danalyse ET robustesse et rapidité La notion de « chunk » Ambiguïté de rattachement : au sein dun chunk nominal au sein dune proposition [cherry picker exhaust manifold] John [VP [met] [NP the woman] [CP he married] [PP in Italy]] Traitement en cascade (partage des tâches) Repérage des chunks Repérage des propositions repérage des relations entre chunks (au sein des propositions) Principes généraux easy-first parsing islands of certainty containment of ambiguity

12 D. Bourigault Syntex 12 Quelques travaux en analyse syntaxique (robuste) J. Vergne : lanalyseur 98 Critique (virulente) du paradigme des grammaires formelles Les grammaires formelles ne sont pas du tout adaptées à la description des langues naturelles redondance des formes récursivité très limitée des segments Rolycatégorie Approche en deux étapes : Etiquetage et identification de syntagmes non récursifs (SNR, chunks) Identification de relations de dépendance entre SNR Principe méthodologique : La phrase est analysée en une seule passe, de gauche à droite » Utilisation de « mémoire » de stockage des SNR

13 D. Bourigault Syntex 13 Quelques travaux en analyse syntaxique (robuste) J.-P. Chanod Dans la lignée des positions de K. Jensen sur la robustesse en analyse syntaxique Still robustness is not about statistical vs. rule-based methods. (…) Robustness is about exploring all constructions humans actually produce, be they grammatical, conformant to formal models, frequent or not. (Chanod, 2002) Le concept dincrémentalité Concept clé pour réaliser des analyseurs syntaxiques qui soient à la fois robustes et profonds Analyseurs : IFSP (Incremental Finite-State Parsing), puis XIP (Xerox Incremental Parser) Principes de base : Autonomie des règles Décomposition descriptive

14 D. Bourigault Syntex 14 Syntex, un analyseur de corpus robuste Contraintes imposées par les motivations initiales du projet Lanalyseur doit traiter en entrée des corpus de textes : quelques milliers à quelques centaines de milliers de phrases sur des domaines divers et appartenant à des genres variés Contraintes Robustesse et efficacité Couverture et précision Adaptativité Choix méthodologique Pas de grammaire Dans lesprit de Garvin, Vergne, … ( XIP) Les connaissances grammaticales sont « dans » les algorithmes Lanalyse syntaxique automatique vue comme une tâche de reconnaissance de formes et non de compilation

15 D. Bourigault Syntex 15 Analyse syntaxique en dépendance Mode de représentation de la structure syntaxique dune phrase : Dépendances vs. Constituants Syntaxe de dépendance Tesnière (1959) « Eléments de syntaxe structurale », Melčuk (1998), … Equivalence formelle Le choix dun mode de représentation de la structure syntaxique nimplique pas celui dune méthode informatique danalyse particulière Il existe des grammaires de dépendance formelles, et il existe des analyseurs en constituants robustes Beaucoup danalyseurs robustes sont des analyseurs en dépendance. Analyse en dépendance plus naturelle Le chat mange la souris

16 D. Bourigault Syntex 16 Analyse modulaire en cascade Syntex prend en entrée un corpus étiqueté. Il est constitué de modules, dont chacun traite une relation de dépendance syntaxique particulière. Chaque phrase est analysé en plusieurs passes : Un ou plusieurs modules à chaque passe. Chaque module exploite les étiquettes morphosyntaxiques et les relations syntaxiques posées par les autres modules. … et peut modifier ces étiquettes et ces relations (retour en arrière). Chaque module résout « ses » cas dambiguïté. Le corpus est analysé en plusieurs passes : Les modules exploitant des données dapprentissage endogène traitent deux fois le corpus : une première fois pour acquérir des informations sur lensemble du corpus Une seconde fois pour les exploiter dans la résolution dambiguïtés danalyse

17 D. Bourigault Syntex 17 Implémentation informatique Chaque module est constitué dun ensemble dheuristiques Parcours de la chaîne de mots, étiquetée et partiellement annotée Point de départ : le mot source de la relation syntaxique, point darrivée : le mot cible de la relation syntaxique Pour chaque mot rencontré sur le parcours, 2 décisions à prendre : Choisir comme cible ou non Arrêter le parcours ou continuer Parcours et décisions guidés par des contraintes structurelles, positionnelles, daccord, de distance, … Le choix de lordre denchaînement des modules est un problème crucial. Illustrations…

18 D. Bourigault Syntex 18 Le très petit chat D Av Aj N ? La linguistique est … D Aj V ? N Parcours « normal »Réétiquetage Enchaînement + contrainte de projectivité avec le très petit chat P D Av Aj N ? contrainte daccord grammaires de dépendance formelles Nfp P Nfs Ajfp ? grammaire de dépendance formelle Nfs P Nfs Ajfs ? Ambiguïté Il donne du lait au chat Pr V D N P N

19 D. Bourigault Syntex 19 Méthodologie de développement Les modules sont programmés en Perl Par des linguistes informaticiens Méthode de développement relation par relation basée sur corpus : nombreux tests, sur corpus variés autorisée par lefficacité du système ( mots : ~ 2mn)

20 D. Bourigault Syntex 20 Exploitation des ressources lexicales Minimale : « uniquement le nécessaire » Intégrées au fur et à mesure des besoins Exemples : Liste des verbes qui font leur passé composé avec lauxiliaire être Propriétés de sous-catégorisation syntaxique : proba(mot,prep) Ex : proba(accéder,à)=0.79 proba(conformité,avec)=0.51 Ressources de 2 types : Endogènes : informations acquises sur le corpus en cours de traitement Le corpus est objet du traitement ET source dinformations Exogènes : exploitées quel que soit le corpus Exemple : les propriétés de sous-catégorisation syntaxiques acquises automatiquement à partir dun corpus de 200 millions de mots (Le Monde) À laide de lanalyseur lui-même

21 D. Bourigault Syntex 21 Etiquetage préalable Lanalyseur Syntex est intégré dans une chaîne danalyse syntaxique 1- Pré-étiquetage Entités nommées : dates, mesures, titres, adresses, … Mots complexes : prépositions, conjonctions, adverbes, … réalisé par Synomia 2- Etiquetage (TreeTagger) réalisé par Université de Stuttgart 3- Post-étiquetage Correction derreurs connues du TT, conversion au jeu détiquettes Syntex réalisé par ERSS et Synomia 4- Analyse syntaxique (Syntex) réalisé par ERSS Dépendance forte de Syntex avec des modules antérieurs !

22 D. Bourigault Syntex 22 Analyse en dépendance : contraintes Gouverneur unique Un mot a au plus un gouverneur Projectivité Deux mots en relation de dépendance ne peuvent être séparés que par des mots qui dépendent directement ou indirectement de lun deux (Les relations de dépendance ne peuvent se croiser) Tout mot a un gouverneur … à lexception du verbe de la proposition principale mot mot mot non mot mot non gouverneur dépendant relation

23 D. Bourigault Syntex 23 Analyse en dépendance : les principales relations RelationGouverneurDépendantExemples ADJNomAdj., Part. passé,un chat noir ; un chat blessé ADVVerbe, Nom, Adj.Adv.très petit ; courir vite ATTOVerbeAdj., NomIl le rend joyeux ; être nommé président ATTSVerbeAdj., NomIl est joyeux ; Il est le président AUXAuxiliairePart. passéIl a mangé ; Il est venu COMPConjonctionAdj., Nom, Verbevouloir que tu viennes XCOMPAdj., Adv., NomConjonctionaussi efficace que rapide ; plus que ; le fait que DEVerbe, Adj., NomPréposition « de »exiger de ; ivre de ; chien de DETNom, PronomDéterminantle chat ; le mien EPINom le coin cuisine OBJVerbeNom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir PREPVerbe, Adj., NomPrépositiondonner à ; facile à ; aide à XPREPPrépositionNom, Pronom, Verbeavec le chat ; avec lui ; pour venir SUJVerbeNom, PronomLe chat mange ; il mange

24 D. Bourigault Syntex 24 Principaux modules RelationGouverneurParcoursDépendantExemples AUXAuxiliairePart. passéIl a mangé ; Il est venu ADVVerbe, Nom, Adj. Adverbetrès petit ; courir vite DETNom, PronomDéterminantle chat ; le mien XPREPPrépositionNom, Pronom, Verbe avec le chat ; avec lui ; pour venir DEVerbe, Adj., Nom Préposition « de »exiger de ; ivre de ; chien de ADJNomAdj., Part. passé,un chat noir ; un chat blessé PREPVerbe, Adj., Nom Prépositiondonner à ; facile à ; aide à OBJVerbeNom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir SUJVerbeNom, PronomLe chat mange ; il mange gouverneur dépendant relation Parcours de recherche :

25 D. Bourigault Syntex 25 Coordination Représentation Relation CC du coordonnant vers chacun des coordonnés Le coordonnant est la cible ou la source des relations de dépendance Traitement : le plus difficile ! Où placer le traitement de la coordination dans la chaîne danalyse syntaxique ? Choix actuel : « tôt » Traitement des virgules coordinatives Le chat de Marie, Jean et Alain dort D N P NP T NP CC NP V X et Y CC XPREP PREP ? SUJ REL

26 D. Bourigault Syntex 26 Antécédence relative Représentation Relation REL du pronom relatif vers lantécédent Le chat qui mange est gris REL SUJ ATTS Le chat de gouttière que je vois REL OBJ DET SUJ Le chat avec lequel Marie joue REL SUJ PREP

27 D. Bourigault Syntex 27 Analyse « profonde » Structures à contrôle de linfinitif : sujet profond N 0 V Vinf Marie souhaite partir N 0 V à Vinf Marie pense à partir N 0 V de Vinf Marie sefforce de partir N 0 V N 1 à Vinf Marie autorise Jean à partir N 0 V N 1 de Vinf Marie prie Jean de partir N 0 V à N 1 à Vinf Marie apprend à Jean à nager N 0 V à N 1 de Vinf Marie demande à Jean de partir

28 D. Bourigault Syntex 28 Ambiguïté de rattachement prépositionnel Il faut disposer de propriétés de sous-catégorisation syntaxique Pour les verbes, noms, adjectifs Dans Syntex Probabilité (mot, prep) 2 ressources : Toutes les deux construites automatiquement à partir de corpus Ressource exogène : construite préalablement à partir dun « gros » corpus dapprentissage (200 M mots du Monde), utilisée pour chaque corpus Ressource endogène : acquise au moment de lanalyse à partir du corpus en cours danalyse, puis « oubliée » ensuite L'érosion a disséqué le plateau rocheux en chevrons PREP ? rocheux + en ? plateau + en ? disséquer + en ?

29 D. Bourigault Syntex 29 Méthode de résolution des ambiguïtés de rattachement prépositionnel En entrée : une phrase étiquetée, partiellement analysée 1ère étape : rechercher_candidats : Etant donné une préposition p, qui régit un mot m, rechercher dans le contexte gauche lensemble des mots m j susceptibles de régir la préposition p des règles qui décrivent dans quelles configurations conserver un mot comme candidat « sauter » un mot arrêter la recherche 2ème étape : choisir_candidat Sur la base dindices affectés à chacun des candidats Principal indice : probabilité que le mot candidat m j se construise avec la préposition p : proba(m j, p)

30 D. Bourigault Syntex 30 Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté. Le problème est triple : insuffisance de la recherche sur des pathologies, … Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario Certains pays réclament l'élimination totale des subventions agricoles à l' exportation

31 D. Bourigault Syntex 31 Acquisition de propriétés de sous-catégorisation Calcul de probabilités de sous-catégorisation A partir dun corpus annoté manuellement (PTB) A partir dun corpus étiqueté automatiquement A partir du Web Méthode A partir dun corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) Grande taille Thématiquement diversifié Ressources génériques Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex)

32 D. Bourigault Syntex 32 Procédure dacquisition à partir du corpus LM10 Deux itérations sur le corpus LM10 1) Amorçage : nexploiter que les informations acquises dans des contextes non ambigus Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : Utiliser le lexique construit à létape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) nb doccurrences où le mot m régit la préposition p proba(m,p) = nb total doccurrences du mot m Je lai donné à Marie

33 D. Bourigault Syntex 33 Procédure dacquisition à partir du corpus LM10 cas de rattachement prépositionnel non ambigus LM10 étiqueté cas de rattachement prépositionnel résolus avec L 0 Lexique L 0 1- Amorçage2- Consolidation Lexique L 1 Résolution : Le candidat de plus forte probabilité. Par défaut : le premier Lexique final rechercher_candidatCalcul proba(m,p) choisir_candidat Calcul proba(m,p)

34 D. Bourigault Syntex 34 Probabilités de sous-catégorisation syntaxique probamotprep 0,765abonnerà 0,536aboutirà 0,788accéderà 0,535accolerà 0,569accorderà 0,871accouderà 0,558accrocherà 0,578acculerà 0,641achoppersur 0,650adapterà 0,700adhérerà 0,772adjoindreà 0,873adosserà probamotprep 0,622accèsà 0,864accessionà 0,539accointanceavec 0,606allusionà 0,537appartenanceà 0,528assignationà 0,564assujettissementà 0,554butteà 0,773cofinancépar 0,510conformitéavec 0,606croupièreà 0,745harosur 0,546hockeysur Ressource exogène (journal Le Monde, 200 millions de mots)

35 D. Bourigault Syntex 35 Probabilités de sous-catégorisation syntaxique Exemple de ressource endogène (corpus médical, réanimation chirurgicale, mots) probamotprep 0,444accordavec 0,246accouchementpar 0,418allergieà 0,200amylasémieà 0,469analgésiepar 0,200anémieà 0,735antibioprophylaxiepar 0,355antibiothérapiepar 0,235anticoagulationpar 0,616argumentpour 0,312argumenten faveur de 0,308armeà

36 D. Bourigault Syntex 36 Evaluation du module de rattachement prépositionnel GenreCorpus# mots# cas annotés LittéraireBalzac (Splendeur …)BAL Journalistiqueun extrait du MondeLMO Juridiquele Code du travailCTR MédicalComptes rendus dhospitalisationMED Sur des corpus de genres variés Annotation manuelle de plusieurs centaines de cas 4 stratégies Base : candidat le plus éloigné Endo : candidat avec la probabilité endogène la plus élevée Exo : candidat avec la probabilité exogène la plus élevée Mixte : candidat avec la probabilité endogène ou exogène la plus élevée

37 D. Bourigault Syntex 37 Evaluation du module de rattachement prépositionnel base endo exo mixte Prec % baseendoexomixte BAL LMO CTR MED % précision

38 D. Bourigault Syntex 38 Couverture de Syntex Le MondeFrantext # phrases # phrases sans verbes # mots # mots / phrase2314 % mots sans gouverneur2128 cat% cat / tot % -gouv / cat % cat / tot % -gouv / cat Nom Prep Det Adj VCONJ NomPr Adv Pro

39 D. Bourigault Syntex 39 Synthèse Un analyseur robuste et aussi, précis et à (relativement) large couverture Opérationnel diffusé Pas de théorie syntaxique Les connaissances linguistiques ne sont présentes sous la forme de règles de grammaires, mais : architecture informatique algorithmes et heuristiques de recherche de recteurs ou régis Pas de notion de « bonne formation » de phrases : analyse locale ascendante : pas de contrôle global Syntaxe théorique vs syntaxe opérationnelle (Bar-Hillel, 1961) Un analyseur peu lexicalisé Analyse guidée par la phrase vs. analyse guidée par le lexique

40 D. Bourigault Syntex 40 II – Utilisations de Syntex Extraction de termes Construction de ressources terminologiques (thesaurus, index, ontologies, …) Recherche dinformations sur sites Internet (Synomia) Interrogation de corpus annotés Tiger (Université de Stuttgart) Analyse distributionnelle Upery

41 D. Bourigault Syntex 41 Construction dun « réseau terminologique » charge importante chargeobserver observer une charge … TT important E trouble E On observe une charge importante en trouble observer une érosion oberver une perte … E charge en argile charge en poussière … charge importante en trouble charge en trouble Analyse syntaxique Extraction de syntagmes « séries paradigmatiques »

42 D. Bourigault Syntex 42

43 D. Bourigault Syntex 43

44 D. Bourigault Syntex 44

45 D. Bourigault Syntex 45

46 D. Bourigault Syntex 46 Interrogation de corpus annotés à laide de TigerSearch Conversion analyses en dépendance arbres syntaxiques Pour interrogation par TigerSearch Pour extraction de candidats termes H m1 m m2 S Le chat mange la souris P

47 D. Bourigault Syntex 47 TigerSearch Université de Stuttgart Outil dinterrogation de corpus arborés (banques darbres)

48 D. Bourigault Syntex 48

49 D. Bourigault Syntex 49

50 D. Bourigault Syntex 50

51 D. Bourigault Syntex 51

52 D. Bourigault Syntex 52

53 D. Bourigault Syntex 53 Reconnaissance de formes chat ledorttrèsgentildeMarielepaillassonsur


Télécharger ppt "Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de."

Présentations similaires


Annonces Google