Syntex, analyseur syntaxique de corpus

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Analyse distributionnelle automatique
Olivier Kraif, Agnès Tutin LIDILEM
Le discours indirect.
Urbanisation de Systèmes d'Information
Urbanisation des Systèmes d'Information - Henry Boccon-Gibod 1 Urbanisation des SI Alignement Stratégique et optimisation dun Système dInformation.
Vue d'ensemble Implémentation de la sécurité IPSec
OLST — Université de Montréal
Etude de la langue LOrthographe grammaticale. Constat Les élèves connaissent les règles. Ils savent les appliquer dans les exercices. Et pourtant ! Ils.
Cours présentielle avec 1er année.
Syntex, analyseur syntaxique de corpus
Logiciels de Modélisation par Objets Typés
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
L’observation réfléchie de la langue au cycle 3
ANALYSE DE LA PHRASE : RAPPELS
Pour un système formel de description linguistique
LES REGLES DE BASE DE L’ORTHOGRAPHE
Démarche de résolution de problèmes
Pour l’utilisation de l’Analyse en Constituants Immédiats
Les types de phrases La phrase déclarative
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Le français dans tous les sens
4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique.
La subordination complétive
Bases de données lexicales
Project de la langue française
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Au secours! Comment ça s’écrit?
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
TRAITEMENT INSTRUMENTÉ DE CORPUS
L'analyse doit mettre en évidence la nature et la fonction du mot
Une pédagogie de l’activité pour développer des compétences transversales Claire Herviou Alain Taurisson Juin 2003.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
La phrase complexe révisions.
Les classes de mots… en bref
Intégration de schémas
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Phrase simple et phrase complexe
A chacun sa maison. Une affiche Une brochure à l’intention des enseignants A commander sur la page de notre site :
Le Traitement Automatique des Langues (TAL)
Module d’auto-apprentissage
La phrase de base Pour avoir une phrase de base, il faut:
La phrase négative La négation « ne…pas ».
INTRODUCTION AUX BASES DE DONNEES
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,
L’adverbe et le syntagme adverbial. Adverbe  Classe résiduelle, difficile à définir par un ensemble de propriétés syntaxiques et morphologiques homogènes.
Les relatives infinitives ou la construction d’un inobservable Sylvain Kahane Modyco, Université Paris 10 Lattice, Université Paris 7 COLDOC, Université.
{ L’analyse L'analyse doit mettre en évidence la nature et la fonction du mot.
Le syntagme prépositionnel
KOSMOS 1 Outils transversaux Module 7 1.L’annuaire 2.La recherche d’informations 3.La réservation de ressources.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Lingua francese III.
Transcription de la présentation:

Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/ * Société Synomia

Motivations initiales du projet Syntex Réaliser un outil opérationnel d’analyse syntaxique pour : Applications en terminologie et ingénierie des connaissances : construction de ressources terminologiques et ontologique à partir de corpus Analyse syntaxique  extraction et structuration d’un réseau de syntagmes (nominaux, verbaux) Lexter  Syntex Recherches en linguistique Un ensemble de corpus variés et de grande taille + analysés syntaxiquement = un observatoire pour des recherches sur la langue (morphologie, syntaxe, sémantique, discours) Analyse syntaxique  extraction de contextes syntaxiques et analyse distributionnelle Syntex : un « instrument » pour le linguiste (Habert, 2005) D. Bourigault Syntex

Motivations initiales : applications en terminologie Lexter Extracteur de groupes nominaux terminologiques (Bourigault, 1994) De Lexter à Syntex : du Nom au Verbe Les syntagmes verbaux sont des unités à décrire au même titre que les syntagmes nominaux branchement de l’imprimante / brancher l’imprimante les syntagmes nominaux sont extraits de façon plus précise. On observe [ une charge importante en trouble ] dans les rivières L'érosion a disséqué [ le plateau rocheux ] en chevrons. les syntagmes verbaux fournissent les contextes le plus riches pour l’analyse distributionnelle. [ scanner , écographie ] modifiés par les adjectifs : abdominal, hépatique, thoracique, … [ scanner , écographie ] sujets des verbes : confirmer, montrer, objectiver, révéler, … D. Bourigault Syntex

Motivations initiales : instrument pour des recherches en linguistique de corpus Observatoires : des corpus volumineux analysés syntaxiquement Le Monde (500 000 articles 1991-2000, 200 millions de mots) Frantext (515 romans XXème s, 30 millions de mots) Premières exploitations Extraction de propriétés de sous-catégorisation syntaxique Extraction de propriétés lexico-distributionnelles Les Voisins de Le Monde, les voisins de Frantext … D. Bourigault Syntex

Analyse syntaxique et Traitement Automatique des Langues Les grammaires d’unification : des formalismes et des théories linguistiques Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique généralisée (GPSG), Grammaire d’arbres adjoints (TAG), Grammaire syntagmatique guidée par les têtes (HPSG) Type de représentation : structures de traits ; formalismes déclaratifs et monotones Séparation données linguistiques (grammaires) / programmes de traitement (analyseurs) Utilisation des grammaires en analyse et en génération Utilisation d’un même analyseur pour différentes grammaires Analyseurs Algorithmes : CYK, Earley, coin gauche, coin tête, …  Problèmes : efficacité, robustesse D. Bourigault Syntex

Syntex, un analyseur de corpus Contraintes imposées par les motivations initiales L’analyseur doit traiter en entrée des corpus de textes : quelques milliers à quelques centaines de milliers de phrases sur des domaines divers et appartenant à des genres variés  Contraintes Robustesse et efficacité Couverture et précision Adaptativité Choix méthodologique Pas de grammaire formelle Une approche « robuste » dans l’esprit de Vergne & Giguet, Aït-Moktar & Chanod, etc. D. Bourigault Syntex

Analyse syntaxique en dépendance Mode de représentation de la structure syntaxique d’une phrase : Dépendances vs. Constituants Syntaxe de dépendance Tesnière (1959) « Eléments de syntaxe structurale », Mel’čuk (1998), … Equivalence formelle Le choix d’un mode de représentation de la structure syntaxique n’implique pas celui d’une méthode informatique d’analyse particulière Il existe des grammaires de dépendance formelles, et il existe des analyseurs en constituants robustes Beaucoup d’analyseurs robustes sont des analyseurs en dépendance. Analyse en dépendance plus “naturelle” Le chat mange la souris  D. Bourigault Syntex

Analyse modulaire en cascade Syntex prend en entrée un corpus étiqueté. Il est constitué de modules, dont chacun traite une relation de dépendance syntaxique particulière. Chaque phrase est analysé en plusieurs passes : Un ou plusieurs modules à chaque passe. Chaque module exploite les étiquettes morphosyntaxiques et les relations syntaxiques posées par les autres modules. … et peut modifier ces étiquettes et ces relations (retour en arrière). Chaque module résout « ses » cas d’ambiguïté. Le corpus est analysé en plusieurs passes : Les modules exploitant des données d’apprentissage endogène traitent deux fois le corpus : une première fois pour acquérir des informations sur l’ensemble du corpus Une seconde fois pour les exploiter dans la résolution d’ambiguïtés d’analyse D. Bourigault Syntex

Implémentation informatique Chaque module est constitué d’un ensemble d’heuristiques Parcours de la chaîne de mots, étiquetée et partiellement annotée Point de départ : le mot source de la relation syntaxique, point d’arrivée : le mot cible de la relation syntaxique Pour chaque mot rencontré sur le parcours, 2 décisions à prendre : Choisir comme cible ou non Arrêter le parcours ou continuer Parcours et décisions guidés par des contraintes structurelles, positionnelles, d’accord, de distance, … Le choix de l’ordre d’enchaînement des modules est un problème crucial. Illustrations… D. Bourigault Syntex

+ contrainte de projectivité Parcours « normal » Réétiquetage ? ? Le très petit chat D Av Aj N La linguistique est … D Aj V N Enchaînement + contrainte de projectivité contrainte d’accord ? ? avec le très petit chat P D Av Aj N grammaires de dépendance formelles Nfp P Nfs Ajfp Ambiguïté Ambiguïté ? Il donne du lait au chat Pr V D N P N grammaire de dépendance formelle Nfs P Nfs Ajfs D. Bourigault Syntex

Méthodologie de développement Les modules sont programmés en Perl Par des linguistes informaticiens Méthode de développement par relation nombreux tests, sur corpus variés autorisés par l’efficacité du système D. Bourigault Syntex

Exploitation des ressources lexicales Minimale : « uniquement le nécessaire » Intégrées au fur et à mesure des besoins Exemples : Liste des verbes qui font leur passé composé avec l’auxiliaire être Propriétés de sous-catégorisation syntaxique : proba(mot,prep) Ressources de 2 types : Endogènes : informations acquises sur le corpus en cours de traitement Le corpus est objet du traitement ET source d’informations Exogènes : exploitées quel que soit le corpus Exemple : les propriétés de sous-catégorisation syntaxiques acquises automatiquement à partir d’un corpus de 200 millions de mots (Le Monde) À l’aide de l’analyseur lui-même D. Bourigault Syntex

Etiquetage préalable L’analyseur Syntex est intégré dans une chaîne d’analyse syntaxique 1- Pré-étiquetage Entités nommées : dates, mesures, titres, adresses, … Mots complexes : prépositions, conjonctions, adverbes, … réalisé par Synomia 2- Etiquetage (TreeTagger) réalisé par Université de Stuttgart 3- Post-étiquetage Correction d’erreurs connues du TT, conversion au jeu d’étiquettes Syntex réalisé par ERSS et Synomia 4- Analyse syntaxique (Syntex) réalisé par ERSS Dépendance forte de Syntex avec des modules antérieurs ! D. Bourigault Syntex

Analyse en dépendance : contraintes relation Gouverneur unique Un mot a au plus un gouverneur Projectivité Deux mots en relation de dépendance ne peuvent être séparés que par des mots qui dépendent directement ou indirectement de l’un d’eux (Les relations de dépendance ne peuvent se croiser) Tout mot a un gouverneur … à l’exception du verbe de la proposition principale gouverneur dépendant non non mot mot mot mot mot mot mot D. Bourigault Syntex

Analyse en dépendance : les principales relations Gouverneur Dépendant Exemples ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé ADV Verbe, Nom, Adj. Adv. très petit ; courir vite ATTO Verbe Adj., Nom Il le rend joyeux ; être nommé président ATTS Il est joyeux ; Il est le président AUX Auxiliaire Part. passé Il a mangé ; Il est venu COMP Conjonction Adj., Nom, Verbe vouloir que tu viennes XCOMP Adj., Adv., Nom aussi efficace que rapide ; plus que ; le fait que DE Verbe, Adj., Nom Préposition « de » exiger de ; ivre de ; chien de DET Nom, Pronom Déterminant le chat ; le mien EPI le coin cuisine OBJ Nom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir PREP Préposition donner à ; facile à ; aide à XPREP Nom, Pronom, Verbe avec le chat ; avec lui ; pour venir SUJ Le chat mange ; il mange D. Bourigault Syntex

Principaux modules relation Parcours de recherche : gouverneur dépendant Relation Gouverneur Parcours Dépendant Exemples AUX Auxiliaire Part. passé Il a mangé ; Il est venu ADV Verbe, Nom, Adj. Adverbe très petit ; courir vite DET Nom, Pronom Déterminant le chat ; le mien XPREP Préposition Nom, Pronom, Verbe avec le chat ; avec lui ; pour venir DE Verbe, Adj., Nom Préposition « de » exiger de ; ivre de ; chien de ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé PREP donner à ; facile à ; aide à OBJ Verbe Nom, Pronom, Conjonction, Verbe Il voit le chat ; il le voit ; vouloir que ; vouloir venir SUJ Le chat mange ; il mange D. Bourigault Syntex

Coordination Représentation Traitement : le plus difficile ! REL Représentation Relation CC du coordonnant vers chacun des coordonnés Le coordonnant est la cible ou la source des relations de dépendance Traitement : le plus difficile ! Où placer le traitement de la coordination dans la chaîne d’analyse syntaxique ?  Choix actuel : « tôt » Traitement des virgules coordinatives CC CC X et Y XPREP PREP SUJ ? Le chat de Marie , Jean et Alain dort D N P NP T NP CC NP V D. Bourigault Syntex

Antécédence relative Représentation Relation REL du pronom relatif vers l’antécédent SUJ REL SUJ ATTS DET Le chat qui mange est gris OBJ REL SUJ Le chat de gouttière que je vois REL PREP SUJ Le chat avec lequel Marie joue D. Bourigault Syntex

Analyse « profonde » Structures à contrôle de l’infinitif : sujet profond N0 V Vinf Marie souhaite partir N0 V à Vinf Marie pense à partir N0 V de Vinf Marie s’efforce de partir N0 V N1 à Vinf Marie autorise Jean à partir N0 V N1 de Vinf Marie prie Jean de partir N0 V à N1 à Vinf Marie apprend à Jean à nager N0 V à N1 de Vinf Marie demande à Jean de partir D. Bourigault Syntex

Ambiguïté de rattachement prépositionnel rocheux + en ? plateau + en ? disséquer + en ? PREP ? L'érosion a disséqué le plateau rocheux en chevrons Il faut disposer de propriétés de sous-catégorisation syntaxique Pour les verbes, noms, adjectifs Dans Syntex Probabilité (mot, prep) 2 ressources : Toutes les deux construites automatiquement à partir de corpus Ressource exogène : construite préalablement à partir d’un « gros » corpus d’apprentissage (200 M mots du Monde), utilisée pour chaque corpus Ressource endogène : acquise au moment de l’analyse à partir du corpus en cours d’analyse, puis « oubliée » ensuite D. Bourigault Syntex

Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté . Le problème est triple : insuffisance de la recherche sur des pathologies, … Certains pays réclament l'élimination totale des subventions agricoles à l' exportation Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario D. Bourigault Syntex

Recherche des candidats Pas de rattachement : En France , cinq millions d' emplois sont liés à l' exportation Sur l'agriculture , l' Europe fait cause commune face à un front composé des Etats-Unis , de pays exportateurs comme l' Australie , la Nouvelle Zélande , l' Argentine et le Brésil A 1,0039 dollar , la monnaie européenne se retrouve ainsi quasiment à parité avec le billet vert . Elle se situe au quatrième rang mondial des pays exportateurs de produits manufacturés, derrière les Etats-Unis , l'Allemagne et le Japon De même, on ne saurait , sous le prétexte de l'urgence , négliger l'impératif du développement d' infrastructures sanitaires , dont l'absence fait le lit de maladies , comme la tuberculose ou le trachome D. Bourigault Syntex

Probabilités de sous-catégorisation syntaxique Ressource exogène (journal Le Monde, 200 millions de mots) proba mot prep 0,765 abonner à 0,536 aboutir 0,788 accéder 0,535 accoler 0,569 accorder 0,871 accouder 0,558 accrocher 0,578 acculer 0,641 achopper sur 0,650 adapter 0,700 adhérer 0,772 adjoindre 0,873 adosser proba mot prep 0,622 accès à 0,864 accession 0,539 accointance avec 0,606 allusion 0,537 appartenance 0,528 assignation 0,564 assujettissement 0,554 butte 0,773 cofinancé par 0,510 conformité croupière 0,745 haro sur 0,546 hockey D. Bourigault Syntex

Probabilités de sous-catégorisation syntaxique Exemple de ressource endogène (corpus médical, réanimation chirurgicale, 400 000 mots) proba mot prep 0,444 accord avec 0,246 accouchement par 0,418 allergie à 0,200 amylasémie 0,469 analgésie anémie 0,735 antibioprophylaxie 0,355 antibiothérapie 0,235 anticoagulation 0,616 argument pour 0,312 en faveur de 0,308 arme D. Bourigault Syntex

Evaluation du module de rattachement prépositionnel Sur des corpus de genres variés Annotation manuelle de plusieurs centaines de cas 4 stratégies Base : candidat le plus éloigné Endo : candidat avec la probabilité endogène la plus élevée Exo : candidat avec la probabilité exogène la plus élevée Mixte : candidat avec la probabilité endogène ou exogène la plus élevée Genre Corpus # mots # cas annotés Littéraire Balzac (Splendeur …) BAL 199 789 672 Journalistique un extrait du Monde LMO 673 187 1 238 Juridique le Code du travail CTR 509 124 1 150 Médical Comptes rendus d’hospitalisation MED 377 967 646 D. Bourigault Syntex

Evaluation du module de rattachement prépositionnel % précision 100 Prec % base endo exo mixte BAL 83.0 83.5 86.9 86.6 LMO 70.3 80.1 85.9 CTR 65.5 82.3 86.3 87.3 MED 59.9 78.0 66.3 78.3 90 80 70 60 50 base endo exo mixte D. Bourigault Syntex

Couverture de Syntex Le Monde Frantext # phrases 1 053 604 1 968 219 # phrases sans verbes 158 456 295 628 # mots 24 745 211 28 083 060 # mots / phrase 23 14 % mots sans gouverneur 21 28 cat % cat / tot -gouv / cat Nom 22 18 15 Prep 17 12 20 Det 1 13 2 Adj 8 10 6 16 VCONJ 7 86 87 NomPr Adv 31 30 Pro 4 D. Bourigault Syntex

Synthèse Un analyseur robuste Pas de théorie syntaxique et aussi, précis et à (relativement) large couverture Opérationnel diffusé Pas de théorie syntaxique Les règles de grammaires sont « enfouies » Dans l’architecture informatique Dans les algorithmes et règles de recherche de recteurs ou régis Pas de notion de « bonne formation » de phrases : analyse locale ascendante : pas de contrôle global Syntaxe théorique vs syntaxe opérationnelle (Bar-Hillel, 1961) Un analyseur peu lexicalisé Analyse guidée par la phrase vs. analyse guidée par le lexique D. Bourigault Syntex

II – Utilisations de Syntex II-1 Extraction de termes, construction de ressources terminologiques II-2 Interrogation de corpus annotés II-3 Analyse distributionnelle II-4 Recherche d’informations sur sites Internet D. Bourigault Syntex

Syntex, construction d’un réseau de « candidats termes » Analyse syntaxique On observe une charge importante en trouble Extraction de syntagmes observer charge trouble E important E T E T observer une charge … charge importante en trouble charge importante observer une érosion oberver une perte … charge en trouble … charge en argile charge en poussière « séries paradigmatiques » D. Bourigault Syntex

Après Syntex : extraction de candidats termes Candidat terme : tout constituant syntaxique de type verbal, nominal, adjectival, adverbial SUJ OBJ Analyse en dépendance L’ érosion attaque un plan de faille Extraction de CT plan faille T E Réseau terminologique attaquer plan de faille T E attaquer un plan de faille D. Bourigault Syntex

Après Syntex : interrogation de corpus annotés à l’aide de TigerSearch Conversion analyses en dépendance  arbres syntaxiques Pour interrogation par TigerSearch Pour extraction de candidats termes S m1 m m2 H m1 m m2 D. Bourigault Syntex

TigerSearch Université de Stuttgart http://www.ims.uni-stuttgart.de/projekte/TIGER/ Outil d’interrogation de corpus arborés (banques d’arbres) D. Bourigault Syntex

Utilisation de Syntex : Synomia SiteSearch, navigation sur site Web www.liberation.fr D. Bourigault Syntex

Utilisation de Syntex : Synomia SiteIndex, navigation sur site Web D. Bourigault Syntex