La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université

Présentations similaires


Présentation au sujet: "Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université"— Transcription de la présentation:

1 Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail

2 D. BOURIGAULTSémantique et corpus, 2 juin TAL, linguistique et méthodes quantitatives TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous- catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites dun lexique (le Lexique Grammaire) construit par des linguistes

3 D. BOURIGAULTSémantique et corpus, 2 juin Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance Résoudre les ambiguïté de rattachement prépositionnel Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus Je vois un homme avec un télescope Je mange une pizza avec des olives voir + avec ? homme + avec ? manger + avec ? pizza + avec ?

4 D. BOURIGAULTSémantique et corpus, 2 juin Syntex : un analyseur syntaxique de corpus Analyseur en dépendance Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif En sortie : corpus annotés avec des relations syntaxiques entre mots Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur lanalyse de corpus

5 D. BOURIGAULTSémantique et corpus, 2 juin Un exemple danalyse Le chat de Marie mange une petite souris. Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. OBJSUJ Etiquetage morphosyntaxique (Treetagger) Analyse syntaxique (Syntex)

6 D. BOURIGAULTSémantique et corpus, 2 juin Les relations syntaxiques Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Les mots ont été préalablement étiquetés Une relation de dépendance syntaxique est orientée dun régi vers son recteur Contrainte 1 : un régi na quun seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas. Principales relations : SUJ : sujet de verbe OBJ : complément dobjet direct de verbe PREP : complément dobjet indirect de verbe, de nom, dadjectif ADJ : épithète de nom

7 D. BOURIGAULTSémantique et corpus, 2 juin Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom OBJ Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom OBJ

8 D. BOURIGAULTSémantique et corpus, 2 juin Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb SUJ

9 D. BOURIGAULTSémantique et corpus, 2 juin Algorithme PREP : ambiguïté de rattachement prépositionnel 1- Rechercher_candidats Parcours des mots de la phrase Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes 2- Sélectionner_candidat À laide dindices dont propriété de sous-catégorisation syntaxique Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom ? installer + sur ? logiciel + sur ?

10 D. BOURIGAULTSémantique et corpus, 2 juin Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…) Acquisition de probabilités de sous-catégorisation à partir de corpus A partir dun corpus étiqueté automatiquement Corpus Le Monde Web A partir dun corpus annoté manuellement (~ Penn Tree Bank)

11 D. BOURIGAULTSémantique et corpus, 2 juin Lexique grammaire Choix de la ressource : Objectif dexhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout domaine Mode de constitution (C. FREROT, ERSS) Extraire linformation sur la sous-catégorisation verbale à distance des prépositions à, dans, sur Appartenance à la forme canonique N 0 V N 1 Prep N 2 Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans lanalyseur (traits humain, non humain…) Ex : N 1 = : « coup » : Max a (allong é, balanc é, envoy é, mis) une gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents

12 D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Corpus partiellement annoté Le Monde ( ) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex A partir des cas non ambigus : 1-Pour une préposition p, qui régit le mot m, le module Recherche_candidats a trouvé un seul candidat recteur : m 2-Pour un mot m, le module Recherche_candidats ne la retenu comme candidat recteur pour aucune préposition freq (m, p,m) + 1 Je lai mangé avec une fourchette freq (manger, avec, fourchette) + 1 freq (m,0) + 1 Jean a mangé. freq (manger, 0)

13 D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation freq(m,p) proba(m,p) = freq(m) productivité de m avec p : prod(m,p)=Card { m / freq(m,p,m) > 0 } fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) = m freq(m,p,m) fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p) log ( 1 + prod(m,p) ) * k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5freq(manger,à)=5 prod(manger,avec)=1prod(manger,à)=5 proba(manger,avec)=0.28proba(manger,à)=0.72

14 D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un corpus médical probamotprepprodfreq pfreqfreq0 0,444accordavec4495 0,246accouchementpar ,418allergieà ,200amylasémieà ,469analgésiepar ,200anémieà ,735antibioprophylaxiepar ,355antibiothérapiepar ,235anticoagulationpar ,616argumentpour ,312argumenten faveur de ,308armeà ,600bactériémieà56104

15 D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Itérations Etape 0 : ressources exogènes R 0 Etape i : Résoudre les ambiguïtés de rattachement à laide de la ressource construite à létape i-1 (R i-1 ) Pour chaque cas ambigu : { (m j, p,m), j=1 à ncand } Sil existe un candidat k tel que prob(m k, P) >> prob(m j k,P) : (rattachement certain) freq(m k,p,m) + 1 freq(m j k,0) + 1 Sinon (rattachement incertain) freq(m j,P,m) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : R i

16 D. BOURIGAULTSémantique et corpus, 2 juin Calcul des probabilités de sous-catégorisation Résultats Corpus dapprentissage de 140 M mots (Le Monde, ) Convergence après 4 itérations Nombre de couples (m,p) : freq(m)>=50 proba(m,p) >0.05 catTotalNomVINF Adj Nom Vb

17 D. BOURIGAULTSémantique et corpus, 2 juin Probabilités de sous-catégorisation de noms probamotprepprodfreqfreqtotfreq0 0,622accèsà ,864accessionà ,539accointanceavec ,606allusionà ,537appartenanceà ,528assignationà ,564assujettissementà ,554butteà ,773cofinancépar ,510conformitéavec ,606croupièreà ,745harosur ,546hockeysur

18 D. BOURIGAULTSémantique et corpus, 2 juin Validation de la liste LG sur le corpus LM freq nb (412) (375) (271) (124) 770 verbes / couples (vb, prep) / 1659 Histogramme des fréquences des verbes de LG dans le corpus LM

19 D. BOURIGAULTSémantique et corpus, 2 juin Verbes de LG écartés de lanalyse chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) Verbes de LG dont la fréquence doccurrence dans le corpus LM est inférieure à 100 : Verbes de LG dont la fréquence doccurrence dans le corpus LM est nulle :

20 D. BOURIGAULTSémantique et corpus, 2 juin Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep

21 D. BOURIGAULTSémantique et corpus, 2 juin Histogramme des probabilités des couples (vb,prep) de LG Si seuil probabilité = couples « infirmés » par le corpus freq(vb,prep) = 0 Ou p(vb,prep) < couples « confirmés » par le corpus p(vb,prep)>= 0.05 probanbcumul 039 [ 0.00, 0.01 [70109 [ 0.01, 0.02 [ [ 0.02, 0.05 [ [ 0.05, 0.10 [ [ 0.10, 0.25 [ [ 0.25, 0.50 [ [ 0.50, 1.00 [311117

22 D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG absents du corpus

23 D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…), très fréquent/probable «impossible », « * », « facultatif », « optionnel », (…), « obligatoire »

24 D. BOURIGAULTSémantique et corpus, 2 juin Couples (vb,prep) de LG de probabilité supérieure à 0.05 Proportion des cas où vb est construit avec prep et vb na pas dobjet (analyse Syntex) Rappel : la liste LG est construite à partir du schéma : N 0 V N 1 prep N 2

25 D. BOURIGAULTSémantique et corpus, 2 juin Couples de LG (vb,prep) sans objet dans le corpus LM

26 D. BOURIGAULTSémantique et corpus, 2 juin Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG pvb 0,2axersur 0,39calquersur 0,28concentrersur 0,24déversersur 0,2fondersur 0,64indexersur 0,21interrogersur (…) pvb 0,28entasserdans 0,5replacerdans 0,23réfugierdans 0,22réinstallerdans 0,2se frayerdans 0,63spécialiserdans 0,27transposerdans (…) pvb 0,59affilierà 0,31chiffrerà 0,32comparerà 0,55confronterà 0,24coterà 0,29couplerà 0,38déférerà (…) à (243)dans (135)dans (65)

27 D. BOURIGAULTSémantique et corpus, 2 juin Réflexions La vérité ne jaillit pas delle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application) Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple : Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de sous- catégorisation

28 D. BOURIGAULTSémantique et corpus, 2 juin Réflexions (suite) : quantitatif/qualitatif « gro cé bo ? » Oui, Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs danalyse, les approximations, la faible précision des outils automatiques Mais : « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées

29 D. BOURIGAULTSémantique et corpus, 2 juin Résultats de lévaluation base endo exo mixte Prec % baseendoexomixte BAL LMO CTR MED % précision choix par défaut : le dernier


Télécharger ppt "Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université"

Présentations similaires


Annonces Google