Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Calcul mental Calcul mental Année scolaire Classe de …
Test statistique : principe
Reconnaissance de la parole
Les numéros 70 –
Sud Ouest Est Nord Individuel 36 joueurs
Mitchell 4 ½ tables (20/25 étuis) Mitchell 5 tables (25 étuis) Tables: 5 Rondes: 5 de 5 étuis Étuis au jeu: 25 Fantôme: 5 N-S (ou E-O) Select movement:
Les identités remarquables
Les Prepositions.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
ETALONNAGE D’UN CAPTEUR
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
RELATION COÛT-VOLUME-BÉNÉFICE
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Classification Multi Source En Intégrant La Texture
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Mai 2001FRANCOROIII - Challenge Recherche Locale Guidée Par Le Coût Des Contraintes Gavranovic Haris Univerzitet U Sarajevu IMAG, Grenoble.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les chiffres & les nombres
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Chapitre 3 Syntaxe et sémantique.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
1 INETOP
Les Nombres 0 – 100 en français.
Veuillez trouver ci-joint
Les Nombres! de 0 à 20.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
SUJET D’ENTRAINEMENT n°4
Aire d’une figure par encadrement
Écart moyen et écart type
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
CALENDRIER-PLAYBOY 2020.
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Sylwia Ozdowska1, Vincent Claveau2
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et.
1 Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène Cécile Frérot,
Le syntagme prépositionnel
Transcription de la présentation:

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

D. BOURIGAULTSémantique et corpus, 2 juin TAL, linguistique et méthodes quantitatives TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous- catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites dun lexique (le Lexique Grammaire) construit par des linguistes

D. BOURIGAULTSémantique et corpus, 2 juin Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance Résoudre les ambiguïté de rattachement prépositionnel Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus Je vois un homme avec un télescope Je mange une pizza avec des olives voir + avec ? homme + avec ? manger + avec ? pizza + avec ?

D. BOURIGAULTSémantique et corpus, 2 juin Syntex : un analyseur syntaxique de corpus Analyseur en dépendance Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif En sortie : corpus annotés avec des relations syntaxiques entre mots Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur lanalyse de corpus

D. BOURIGAULTSémantique et corpus, 2 juin Un exemple danalyse Le chat de Marie mange une petite souris. Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. OBJSUJ Etiquetage morphosyntaxique (Treetagger) Analyse syntaxique (Syntex)

D. BOURIGAULTSémantique et corpus, 2 juin Les relations syntaxiques Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Les mots ont été préalablement étiquetés Une relation de dépendance syntaxique est orientée dun régi vers son recteur Contrainte 1 : un régi na quun seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas. Principales relations : SUJ : sujet de verbe OBJ : complément dobjet direct de verbe PREP : complément dobjet indirect de verbe, de nom, dadjectif ADJ : épithète de nom

D. BOURIGAULTSémantique et corpus, 2 juin Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom OBJ Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom OBJ

D. BOURIGAULTSémantique et corpus, 2 juin Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb SUJ

D. BOURIGAULTSémantique et corpus, 2 juin Algorithme PREP : ambiguïté de rattachement prépositionnel 1- Rechercher_candidats Parcours des mots de la phrase Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes 2- Sélectionner_candidat À laide dindices dont propriété de sous-catégorisation syntaxique Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom ? installer + sur ? logiciel + sur ?

D. BOURIGAULTSémantique et corpus, 2 juin Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…) Acquisition de probabilités de sous-catégorisation à partir de corpus A partir dun corpus étiqueté automatiquement Corpus Le Monde Web A partir dun corpus annoté manuellement (~ Penn Tree Bank)

D. BOURIGAULTSémantique et corpus, 2 juin Lexique grammaire Choix de la ressource : Objectif dexhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout domaine Mode de constitution (C. FREROT, ERSS) Extraire linformation sur la sous-catégorisation verbale à distance des prépositions à, dans, sur Appartenance à la forme canonique N 0 V N 1 Prep N 2 Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans lanalyseur (traits humain, non humain…) Ex : N 1 = : « coup » : Max a (allong é, balanc é, envoy é, mis) une gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents

D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Corpus partiellement annoté Le Monde ( ) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex A partir des cas non ambigus : 1-Pour une préposition p, qui régit le mot m, le module Recherche_candidats a trouvé un seul candidat recteur : m 2-Pour un mot m, le module Recherche_candidats ne la retenu comme candidat recteur pour aucune préposition freq (m, p,m) + 1 Je lai mangé avec une fourchette freq (manger, avec, fourchette) + 1 freq (m,0) + 1 Jean a mangé. freq (manger, 0)

D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation freq(m,p) proba(m,p) = freq(m) productivité de m avec p : prod(m,p)=Card { m / freq(m,p,m) > 0 } fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) = m freq(m,p,m) fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p) log ( 1 + prod(m,p) ) * k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5freq(manger,à)=5 prod(manger,avec)=1prod(manger,à)=5 proba(manger,avec)=0.28proba(manger,à)=0.72

D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un corpus médical probamotprepprodfreq pfreqfreq0 0,444accordavec4495 0,246accouchementpar ,418allergieà ,200amylasémieà ,469analgésiepar ,200anémieà ,735antibioprophylaxiepar ,355antibiothérapiepar ,235anticoagulationpar ,616argumentpour ,312argumenten faveur de ,308armeà ,600bactériémieà56104

D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Itérations Etape 0 : ressources exogènes R 0 Etape i : Résoudre les ambiguïtés de rattachement à laide de la ressource construite à létape i-1 (R i-1 ) Pour chaque cas ambigu : { (m j, p,m), j=1 à ncand } Sil existe un candidat k tel que prob(m k, P) >> prob(m j k,P) : (rattachement certain) freq(m k,p,m) + 1 freq(m j k,0) + 1 Sinon (rattachement incertain) freq(m j,P,m) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : R i

D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Résultats Corpus dapprentissage de 140 M mots (Le Monde, ) Convergence après 4 itérations Nombre de couples (m,p) : freq(m)>=50 proba(m,p) >0.05 catTotalNomVINF Adj Nom Vb

D. BOURIGAULTSémantique et corpus, 2 juin Probabilités de sous-catégorisation de noms probamotprepprodfreqfreqtotfreq0 0,622accèsà ,864accessionà ,539accointanceavec ,606allusionà ,537appartenanceà ,528assignationà ,564assujettissementà ,554butteà ,773cofinancépar ,510conformitéavec ,606croupièreà ,745harosur ,546hockeysur

D. BOURIGAULTSémantique et corpus, 2 juin Validation de la liste LG sur le corpus LM freq nb (412) (375) (271) (124) 770 verbes / couples (vb, prep) / 1659 Histogramme des fréquences des verbes de LG dans le corpus LM

D. BOURIGAULTSémantique et corpus, 2 juin Verbes de LG écartés de lanalyse chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) Verbes de LG dont la fréquence doccurrence dans le corpus LM est inférieure à 100 : Verbes de LG dont la fréquence doccurrence dans le corpus LM est nulle :

D. BOURIGAULTSémantique et corpus, 2 juin Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep

D. BOURIGAULTSémantique et corpus, 2 juin Histogramme des probabilités des couples (vb,prep) de LG Si seuil probabilité = couples « infirmés » par le corpus freq(vb,prep) = 0 Ou p(vb,prep) < couples « confirmés » par le corpus p(vb,prep)>= 0.05 probanbcumul 039 [ 0.00, 0.01 [70109 [ 0.01, 0.02 [ [ 0.02, 0.05 [ [ 0.05, 0.10 [ [ 0.10, 0.25 [ [ 0.25, 0.50 [ [ 0.50, 1.00 [311117

D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG absents du corpus

D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…), très fréquent/probable «impossible », « * », « facultatif », « optionnel », (…), « obligatoire »

D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG de probabilité supérieure à 0.05 Proportion des cas où vb est construit avec prep et vb na pas dobjet (analyse Syntex) Rappel : la liste LG est construite à partir du schéma : N 0 V N 1 prep N 2

D. BOURIGAULTSémantique et corpus, 2 juin Couples de LG (vb,prep) sans objet dans le corpus LM

D. BOURIGAULTSémantique et corpus, 2 juin Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG pvb 0,2axersur 0,39calquersur 0,28concentrersur 0,24déversersur 0,2fondersur 0,64indexersur 0,21interrogersur (…) pvb 0,28entasserdans 0,5replacerdans 0,23réfugierdans 0,22réinstallerdans 0,2se frayerdans 0,63spécialiserdans 0,27transposerdans (…) pvb 0,59affilierà 0,31chiffrerà 0,32comparerà 0,55confronterà 0,24coterà 0,29couplerà 0,38déférerà (…) à (243)dans (135)dans (65)

D. BOURIGAULTSémantique et corpus, 2 juin Réflexions La vérité ne jaillit pas delle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application) Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple : Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de sous- catégorisation

D. BOURIGAULTSémantique et corpus, 2 juin Réflexions (suite) : quantitatif/qualitatif « gro cé bo ? » Oui, Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs danalyse, les approximations, la faible précision des outils automatiques Mais : « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées

D. BOURIGAULTSémantique et corpus, 2 juin Résultats de lévaluation base endo exo mixte Prec % baseendoexomixte BAL LMO CTR MED % précision choix par défaut : le dernier