Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Analyse distributionnelle automatique
Scénarisation d’un produit pédagogique multimédia
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Olivier Kraif, Agnès Tutin LIDILEM
LA SITUATION SIGNIFICATIVE D’INTEGRATION
Gérer l'autoformation guidée
Urbanisation de Systèmes d'Information
LES ATELIERS REDACTIONNELS
Le Transfert (MEIRIEU)
Par Aline Mahot et Charlyne Routier
Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
METHODOLOGIE.
Evaluer à l’école maternelle
Les démarches de développement
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
IA-IPR – Réunion interacadémique sur le BTS AM du 11 septembre 2009
Syntex, analyseur syntaxique de corpus
Rendre utile la consigne sans nuire à l’autonomie
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
L’observation réfléchie de la langue au cycle 3
ORGANISATION INTERNATIONALE DU TRAVAIL Service des conditions de travail et demploi (TRAVAIL) 2012 Module 13: Evaluation de la protection de la maternité
SOCLE COMMUN DE CONNAISSANCES ET DE COMPÉTENCES
L‘analyse, la description et l’évaluation des emplois
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
MOT Éditeur de modèles de connaissances par objets typés
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Chapitre 6: la lecture experte
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le candidat traite un sujet au choix parmi deux proposés dans la même discipline. Pour traiter le sujet choisi, en histoire comme en géographie : - il.
Comment enrichir le lexique de l'élève ?. Enseigner la langue orale en maternelle Philippe Boisseau RETZ.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
Praxiling – UMR Université de Montpellier 3 - CNRS Sciences du langage. Moujahed AL SABRI NEDEP juin 2009 Evaluation d’un support numérique.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.
LES DEMARCHES PEDAGOGIQUES
L’évaluation en langues: quelles perspectives? CAPES
Un temps de mutualisation.
Sylwia Ozdowska1, Vincent Claveau2
Dominique LAURENT Patrick SEGUELA
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
L ’ordinateur est un outil parmi d ’autres.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
08/06/2000Inauguration CIME Romain Zeiliger CNRS-GATE 93 Chemin des Mouilles, Ecully, France NESTOR : Un navigateur Web cartographe et collaboratif.
d'une situation d'apprentissage et d'évaluation
Les démarches de développement
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Syntex, analyseur syntaxique de corpus
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
AMDEC AMDEC : Analyse des modes de défaillances, de leurs effets et leurs criticités Origine: 1950 : USA (FMECA) 1970 : Europe.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Etude de la capacité de fonctionnement imaginaire des infirmières avec des bébés prématurissimes E. Seye, E. Amrani (IDE, réanimation néonatale) V. Granboulan.
1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
MES STRATÉGIES DE LECTURE
Le syntagme prépositionnel
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Evaluation des performances d’un analyseur syntaxique (Syntex), pour la tâche de résolution des ambiguïtés de rattachement prépositionnel, effectuée à l’aide d’un lexique de de sous-catégorisation acquis sur un corpus d’apprentissage de 200 millions de mots, sur des corpus d’évaluation de genre variés  Journalistique, littéraire, juridique, médical Objectif de l’étude

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Ambiguïté de rattachement prépositionnel Un problème « classique »  Beaucoup de travaux, depuis (Hindle & Rooth, 1993) Il voit un homme avec un télescope il mange une pizza avec des olives Faire varier les corpus d’évaluation Gildea (2001) : «Most work in statistical method has focused on a single corpus: the Wall Street Journal portion of the Penn Treebank » Kilgarriff & Greffenstette (2003) : « There is little work on assessing how well one language language model fares when applied to a text type that is different from that of the training corpus. » (Basili et al.1999) (Illouz, 1999) (Roland & al., 2000) (Gildea, 2001)

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Méthode de résolution des ambiguïtés de rattachement prépositionnel En entrée : une phrase étiquetée, partiellement analysée 1ère étape : rechercher_candidats :  Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots m j susceptibles de régir la préposition p  des règles qui décrivent dans quelles configurations  conserver un mot comme candidat  « sauter » un mot  arrêter la recherche 2ème étape : choisir_candidat  Sur la base d’indices affectés à chacun des candidats  Principal indice : probabilité que le mot candidat m j se construise avec la préposition p : proba(m j, p)

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté. Le problème est triple : insuffisance de la recherche sur des pathologies, … Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario Certains pays réclament l'élimination totale des subventions agricoles à l' exportation

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Recherche des candidats En France, cinq millions d' emplois sont liés à l' exportation Sur l'agriculture, l' Europe fait cause commune face à un front composé des Etats-Unis, de pays exportateurs comme l' Australie, la Nouvelle Zélande, l' Argentine et le Brésil A 1,0039 dollar, la monnaie européenne se retrouve ainsi quasiment à parité avec le billet vert. Elle se situe au quatrième rang mondial des pays exportateurs de produits manufacturés, derrière les Etats-Unis, l'Allemagne et le Japon De même, on ne saurait, sous le prétexte de l'urgence, négliger l'impératif du développement d' infrastructures sanitaires, dont l'absence fait le lit de maladies, comme la tuberculose ou le trachome Pas de rattachement :

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Acquisition de propriétés de sous-catégorisation Calcul de probabilités de sous-catégorisation  A partir d’un corpus annoté manuellement (PTB)  A partir d’un corpus étiqueté automatiquement  A partir du Web Méthode testée  A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) Grande taille Thématiquement diversifié  Ressources génériques  Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex)

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Procédure d’acquisition à partir du corpus LM10 Deux itérations sur le corpus LM10 1) Amorçage : n’exploiter que les informations acquises dans des contextes non ambigus Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) nb d’occurrences où le mot m régit la préposition p proba(m,p) = nb total d’occurrences du mot m

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Procédure d’acquisition à partir du corpus LM10 cas de rattachement prépositionnel non ambigus LM10 étiqueté cas de rattachement prépositionnel résolus avec L 0 Lexique L 0 1- Amorçage2- Consolidation Lexique L 1 Résolution : Le candidat de plus forte probabilité. Par défaut : le premier Lexique final rechercher_candidatCalcul proba(m,p) choisir_candidat Calcul proba(m,p)

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Etape d’amorçage A partir des cas de rattachement non ambigus : 1-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) :  Incrémenter freq (m, p, m’) de 1 2-Pour un mot m : le module chercher_candidats ne l’a retenu comme candidat recteur pour aucune préposition  Incrémenter freq (m,0) de 1 freq (m, p, m’) + 1 Je l’ai mangé avec une fourchette freq (manger, avec, fourchette) + 1 freq 0 (m) + 1 Jean a mangé. freq 0 (manger) + 1

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Calcul des probabilités pondérées freq(m,p) proba(m,p) = freq(m) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } fréquence de m sans préposition : freq 0 (m) fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq 0 (m) +  p freq(m,p) log ( 1 + prod(m,p) ) * k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5freq(manger,à)=5 prod(manger,avec)=1prod(manger,à)=5 proba(manger,avec)=0.28proba(manger,à)=0.72

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Lexique d’amorçage probamotprepprodfreq pfreqfreq0 0,765abonnerà ,536aboutirà ,788accéderà ,535accolerà ,569accorderà ,871accouderà ,558accrocherà ,578acculerà ,641achoppersur ,650adapterà ,700adhérerà ,772adjoindreà ,873adosserà

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Etape de consolidation A partir de tous les cas de rattachement : 1a-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) :  Incrémenter freq (m, p, m’) de 1 1b-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé plusieurs candidats recteurs  le module choisir_candidat choisit le candidat m qui a la probabilité la plus élevée  Incrémenter freq (m, p, m’) de 1 2-Pour tout mot m recteur d’aucune préposition  Incrémenter freq (m,0) de 1 Recalculer les probabilités avec les nouvelles données de fréquences : lexique final

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Lexique final Nombre d’occurrences de couples (m,p) extraits du corpus LM10 Nombre de couples (m,p) retenus dans le lexique L 1 frep >= 20 proba >=0.01 étape d’amorçage étape de confirmation (verbe,prep +nom ) (verbe,prep +nom ) (verbe,prep +vinf ) (verbe,prep +vinf )2 501 (nom,prep +nom ) (nom,prep +nom ) (nom,prep +vinf ) (nom,prep +vinf )294 (adj,prep +nom ) (adj,prep +nom )811 (adj,prep +vinf ) (adj,prep +vinf ) verbes, noms, 698 adjectifs différents

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Lexique final probamotprepprodfreqfreqtotfreq0 0,622accèsà ,864accessionà ,539accointanceavec ,606allusionà ,537appartenanceà ,528assignationà ,564assujettissementà ,554butteà ,773cofinancépar ,510conformitéavec ,606croupièreà ,745harosur ,546hockeysur

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Annotation de corpus Nb de motsNb de cas annotés LittéraireBalzac (Splendeur …)BAL Journalistiqueun extrait du MondeLMO Juridiquele Code du travailCTR MédicalCompte rendus d’hospitalisationMED La tâche d’annotation est partie intégrante de l’activité de développement de l’analyseur Annotation de corpus variés

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Annotation de corpus Règles d’annotations :  Annoter plusieurs centaines de cas sur chaque corpus Assurer la diversité des configurations syntaxiques Arrêter l’annotation quand on estime que la couverture est satisfaisante  L’objectif de l’annotation est d’évaluer la procédure de sélection des candidats Ne pas annoter en cas d’erreurs d’étiquetage Ne pas annoter en cas d’erreur dans la recherche des candidats Ne pas distinguer argument/circonstant Se donner la possibilité : de valider 2 candidats (verbe support), de passer…  Il y a nécessairement une part de subjectivité dans l’annotation

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Stratégies de résolution 4 stratégies  Base :  le premier candidat  Endogène calcul de probabilités à partir du corpus en cours d’analyse  le premier j / (m j,p,m’) a été repéré dans un contexte non ambigu  sinon celui qui a la probabilité la plus élevée  sinon le premier  Exogène :  celui qui a la probabilité la plus élevée  sinon le premier  Mixte :  Le premier j / (m j,p,m’) a été repéré dans un contexte non ambigu  sinon celui qui a la probabilité la plus élevée (endo ou exo)  sinon le premier manger une pizza aux olives (manger,à,olive) € corpus ? (pizza,à,olive) € corpus ?

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Calcul des probabilités de sous-catégorisation Lexique endogène : résultats sur le corpus médical probamotprepprodfreq pfreqfreq0 0,444accordavec4495 0,246accouchementpar ,418allergieà ,200amylasémieà ,469analgésiepar ,200anémieà ,735antibioprophylaxiepar ,355antibiothérapiepar ,235anticoagulationpar ,616argumentpour ,312argumenten faveur de ,308armeà ,600bactériémieà56104

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Résultats de l’évaluation base endo exo mixte Prec % baseendoexomixte BAL LMO CTR MED % précision

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Conclusion sur la stabilité Le corpus médical a un comportement particulier  À cause du « style » et non du domaine Sur les 3 autres corpus (journalistique, juridique et littéraire), les performances sont étonnamment stables  Autour de 87%  La stratégie de base est très bonne sur le corpus littéraire  L’apport d’informations endogènes : dégrade légèrement les résultats sur les corpus littéraire et journalistique améliore sensiblement les résultats sur le corpus juridique

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Conclusion sur le lexique Le lexique de sous-catégorisation syntaxique est exploité par l’analyseur sans avoir été validé manuellement. Il est performant pour la tâche de résolution des ambiguïtés prépositionnelles. Sur le plan linguistique, ce lexique n’est pas comparable aux lexiques construits à la main ou aux dictionnaires de langue :  La probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de toutes les occurrences (lemmatisées) de ce verbe, sans distinction de ses différentes sens Dans le contexte du développement d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage des sens est un mal nécessaire.

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Perspectives Utiliser des informations « sémantiques » générales  Prendre en compte le régi de la préposition : m’  Exploiter les triplets (m,p,m’) extraits de LM10  Utiliser des informations sémantiques Liens entre mots Classes sémantiques  Quelles ressources ? Ressources lexicales existantes (Dicosyn de l’U. de Caen) Ressources construites automatiquement à partir de l’Analyse Distributionnelle de très gros corpus manger une pizza aux anchois (manger,à,anchois) € LM10 ? (pizza,à,anchois) € LM10 ? (pizza,à,olive) € LM10 ?

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Les Voisins de Le Monde Une base de données lexico-distributionnelle du français  Analyse distributionnelle (syntex+upery) sur le corpus LM10

D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin Boire un café au lait € Boire un café au bar Boire un café au bistrot Allouer des crédits à la recherche Allouer des aides à la recherche Subventionner la recherche (bof)