Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parFrançois Guiraud Modifié depuis plus de 10 années
1
Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/
2
D. BOURIGAULTSémantique et corpus, 2 juin 2004 2 TAL, linguistique et méthodes quantitatives TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous- catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites dun lexique (le Lexique Grammaire) construit par des linguistes
3
D. BOURIGAULTSémantique et corpus, 2 juin 2004 3 Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance Résoudre les ambiguïté de rattachement prépositionnel Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus Je vois un homme avec un télescope Je mange une pizza avec des olives voir + avec ? homme + avec ? manger + avec ? pizza + avec ?
4
D. BOURIGAULTSémantique et corpus, 2 juin 2004 4 Syntex : un analyseur syntaxique de corpus Analyseur en dépendance Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif En sortie : corpus annotés avec des relations syntaxiques entre mots Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur lanalyse de corpus
5
D. BOURIGAULTSémantique et corpus, 2 juin 2004 5 Un exemple danalyse Le chat de Marie mange une petite souris. Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. OBJSUJ Etiquetage morphosyntaxique (Treetagger) Analyse syntaxique (Syntex)
6
D. BOURIGAULTSémantique et corpus, 2 juin 2004 6 Les relations syntaxiques Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Les mots ont été préalablement étiquetés Une relation de dépendance syntaxique est orientée dun régi vers son recteur Contrainte 1 : un régi na quun seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas. Principales relations : SUJ : sujet de verbe OBJ : complément dobjet direct de verbe PREP : complément dobjet indirect de verbe, de nom, dadjectif ADJ : épithète de nom
7
D. BOURIGAULTSémantique et corpus, 2 juin 2004 7 Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom OBJ Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom OBJ
8
D. BOURIGAULTSémantique et corpus, 2 juin 2004 8 Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb SUJ
9
D. BOURIGAULTSémantique et corpus, 2 juin 2004 9 Algorithme PREP : ambiguïté de rattachement prépositionnel 1- Rechercher_candidats Parcours des mots de la phrase Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes 2- Sélectionner_candidat À laide dindices dont propriété de sous-catégorisation syntaxique Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom ? installer + sur ? logiciel + sur ?
10
D. BOURIGAULTSémantique et corpus, 2 juin 2004 10 Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…) Acquisition de probabilités de sous-catégorisation à partir de corpus A partir dun corpus étiqueté automatiquement Corpus Le Monde Web A partir dun corpus annoté manuellement (~ Penn Tree Bank)
11
D. BOURIGAULTSémantique et corpus, 2 juin 2004 11 Lexique grammaire Choix de la ressource : Objectif dexhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout domaine Mode de constitution (C. FREROT, ERSS) Extraire linformation sur la sous-catégorisation verbale à distance des prépositions à, dans, sur Appartenance à la forme canonique N 0 V N 1 Prep N 2 Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans lanalyseur (traits humain, non humain…) Ex : N 1 = : « coup » : Max a (allong é, balanc é, envoy é, mis) une gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents
12
D. BOURIGAULTSémantique et corpus, 2 juin 2004 12 Calcul des probabilités de sous-catégorisation Corpus partiellement annoté Le Monde (1990-1996) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex A partir des cas non ambigus : 1-Pour une préposition p, qui régit le mot m, le module Recherche_candidats a trouvé un seul candidat recteur : m 2-Pour un mot m, le module Recherche_candidats ne la retenu comme candidat recteur pour aucune préposition freq (m, p,m) + 1 Je lai mangé avec une fourchette freq (manger, avec, fourchette) + 1 freq (m,0) + 1 Jean a mangé. freq (manger, 0) + 1 1-2-
13
D. BOURIGAULTSémantique et corpus, 2 juin 2004 13 Calcul des probabilités de sous-catégorisation freq(m,p) proba(m,p) = freq(m) productivité de m avec p : prod(m,p)=Card { m / freq(m,p,m) > 0 } fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) = m freq(m,p,m) fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p) log ( 1 + prod(m,p) ) * k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5freq(manger,à)=5 prod(manger,avec)=1prod(manger,à)=5 proba(manger,avec)=0.28proba(manger,à)=0.72
14
D. BOURIGAULTSémantique et corpus, 2 juin 2004 14 Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un corpus médical probamotprepprodfreq pfreqfreq0 0,444accordavec4495 0,246accouchementpar293319 0,418allergieà21419857 0,200amylasémieà22108 0,469analgésiepar6204423 0,200anémieà5116147 0,735antibioprophylaxiepar1021307 0,355antibiothérapiepar2963195123 0,235anticoagulationpar441913 0,616argumentpour1416282 0,312argumenten faveur de810282 0,308armeà3247854 0,600bactériémieà56104
15
D. BOURIGAULTSémantique et corpus, 2 juin 2004 15 Calcul des probabilités de sous-catégorisation Itérations Etape 0 : ressources exogènes R 0 Etape i : Résoudre les ambiguïtés de rattachement à laide de la ressource construite à létape i-1 (R i-1 ) Pour chaque cas ambigu : { (m j, p,m), j=1 à ncand } Sil existe un candidat k tel que prob(m k, P) >> prob(m j k,P) : (rattachement certain) freq(m k,p,m) + 1 freq(m j k,0) + 1 Sinon (rattachement incertain) freq(m j,P,m) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : R i
16
D. BOURIGAULTSémantique et corpus, 2 juin 2004 16 Calcul des probabilités de sous-catégorisation Résultats Corpus dapprentissage de 140 M mots (Le Monde, 1990-96) Convergence après 4 itérations Nombre de couples (m,p) : 10 759 freq(m)>=50 proba(m,p) >0.05 catTotalNomVINF Adj56953138 Nom38133676137 Vb63775878499
17
D. BOURIGAULTSémantique et corpus, 2 juin 2004 17 Probabilités de sous-catégorisation de noms probamotprepprodfreqfreqtotfreq0 0,622accèsà12386180101853741 0,864accessionà13614171665213 0,539accointanceavec39489541 0,606allusionà79113192227867 0,537appartenanceà338131824791146 0,528assignationà16156345109 0,564assujettissementà355610144 0,554butteà162365684301 0,773cofinancépar30456113 0,510conformitéavec126362761234 0,606croupièreà38498632 0,745harosur52638622 0,546hockeysur3310570253
18
D. BOURIGAULTSémantique et corpus, 2 juin 2004 18 Validation de la liste LG sur le corpus LM 100 100010000100000 500 400 300 200 100 freq nb (412) (375) (271) (124) 770 verbes / 1182 1 117 couples (vb, prep) / 1659 Histogramme des fréquences des verbes de LG dans le corpus LM
19
D. BOURIGAULTSémantique et corpus, 2 juin 2004 19 Verbes de LG écartés de lanalyse chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) Verbes de LG dont la fréquence doccurrence dans le corpus LM est inférieure à 100 : Verbes de LG dont la fréquence doccurrence dans le corpus LM est nulle :
20
D. BOURIGAULTSémantique et corpus, 2 juin 2004 20 Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep
21
D. BOURIGAULTSémantique et corpus, 2 juin 2004 21 Histogramme des probabilités des couples (vb,prep) de LG Si seuil probabilité = 0.05 550 couples « infirmés » par le corpus freq(vb,prep) = 0 Ou p(vb,prep) < 0.05 567 couples « confirmés » par le corpus p(vb,prep)>= 0.05 probanbcumul 039 [ 0.00, 0.01 [70109 [ 0.01, 0.02 [208317 [ 0.02, 0.05 [233550 [ 0.05, 0.10 [212762 [ 0.10, 0.25 [225987 [ 0.25, 0.50 [991086 [ 0.50, 1.00 [311117
22
D. BOURIGAULTSémantique et corpus, 2 juin 2004 22 Couples (vb,prep) de LG absents du corpus
23
D. BOURIGAULTSémantique et corpus, 2 juin 2004 23 Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…), très fréquent/probable «impossible », « * », « facultatif », « optionnel », (…), « obligatoire »
24
D. BOURIGAULTSémantique et corpus, 2 juin 2004 24 Couples (vb,prep) de LG de probabilité supérieure à 0.05 Proportion des cas où vb est construit avec prep et vb na pas dobjet (analyse Syntex) Rappel : la liste LG est construite à partir du schéma : N 0 V N 1 prep N 2
25
D. BOURIGAULTSémantique et corpus, 2 juin 2004 25 Couples de LG (vb,prep) sans objet dans le corpus LM
26
D. BOURIGAULTSémantique et corpus, 2 juin 2004 26 Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG pvb 0,2axersur 0,39calquersur 0,28concentrersur 0,24déversersur 0,2fondersur 0,64indexersur 0,21interrogersur (…) pvb 0,28entasserdans 0,5replacerdans 0,23réfugierdans 0,22réinstallerdans 0,2se frayerdans 0,63spécialiserdans 0,27transposerdans (…) pvb 0,59affilierà 0,31chiffrerà 0,32comparerà 0,55confronterà 0,24coterà 0,29couplerà 0,38déférerà (…) à (243)dans (135)dans (65)
27
D. BOURIGAULTSémantique et corpus, 2 juin 2004 27 Réflexions La vérité ne jaillit pas delle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application) Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple : Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de sous- catégorisation
28
D. BOURIGAULTSémantique et corpus, 2 juin 2004 28 Réflexions (suite) : quantitatif/qualitatif « gro cé bo ? » Oui, Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs danalyse, les approximations, la faible précision des outils automatiques Mais : « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées
29
D. BOURIGAULTSémantique et corpus, 2 juin 2004 29 Résultats de lévaluation 50 80 90 100 70 60 base endo exo mixte Prec % baseendoexomixte BAL83.784.787.4 LMO70.581.986.686.7 CTR61.881.185.886.2 MED54.076.365.877.6 % précision choix par défaut : le dernier
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.