La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et.

Présentations similaires


Présentation au sujet: "Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et."— Transcription de la présentation:

1 Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail {didier.bourigault,frerot}@univ-tlse2.fr www.univ-tlse2.fr/erss/

2 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 2 Evaluation des performances d’un analyseur syntaxique (Syntex), pour la tâche de résolution des ambiguïtés de rattachement prépositionnel, effectuée à l’aide d’un lexique de de sous-catégorisation acquis sur un corpus d’apprentissage de 200 millions de mots, sur des corpus d’évaluation de genre variés  Journalistique, littéraire, juridique, médical Objectif de l’étude

3 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 3 Ambiguïté de rattachement prépositionnel Un problème « classique »  Beaucoup de travaux, depuis (Hindle & Rooth, 1993) Il voit un homme avec un télescope il mange une pizza avec des olives Faire varier les corpus d’évaluation Gildea (2001) : «Most work in statistical method has focused on a single corpus: the Wall Street Journal portion of the Penn Treebank » Kilgarriff & Greffenstette (2003) : « There is little work on assessing how well one language language model fares when applied to a text type that is different from that of the training corpus. » (Basili et al.1999) (Illouz, 1999) (Roland & al., 2000) (Gildea, 2001)

4 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 4 Méthode de résolution des ambiguïtés de rattachement prépositionnel En entrée : une phrase étiquetée, partiellement analysée 1ère étape : rechercher_candidats :  Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots m j susceptibles de régir la préposition p  des règles qui décrivent dans quelles configurations  conserver un mot comme candidat  « sauter » un mot  arrêter la recherche 2ème étape : choisir_candidat  Sur la base d’indices affectés à chacun des candidats  Principal indice : probabilité que le mot candidat m j se construise avec la préposition p : proba(m j, p)

5 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 5 Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté. Le problème est triple : insuffisance de la recherche sur des pathologies, … Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario Certains pays réclament l'élimination totale des subventions agricoles à l' exportation

6 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 6 Recherche des candidats En France, cinq millions d' emplois sont liés à l' exportation Sur l'agriculture, l' Europe fait cause commune face à un front composé des Etats-Unis, de pays exportateurs comme l' Australie, la Nouvelle Zélande, l' Argentine et le Brésil A 1,0039 dollar, la monnaie européenne se retrouve ainsi quasiment à parité avec le billet vert. Elle se situe au quatrième rang mondial des pays exportateurs de produits manufacturés, derrière les Etats-Unis, l'Allemagne et le Japon De même, on ne saurait, sous le prétexte de l'urgence, négliger l'impératif du développement d' infrastructures sanitaires, dont l'absence fait le lit de maladies, comme la tuberculose ou le trachome Pas de rattachement :

7 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 7 Acquisition de propriétés de sous-catégorisation Calcul de probabilités de sous-catégorisation  A partir d’un corpus annoté manuellement (PTB)  A partir d’un corpus étiqueté automatiquement  A partir du Web Méthode testée  A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) Grande taille Thématiquement diversifié  Ressources génériques  Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex)

8 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 8 Procédure d’acquisition à partir du corpus LM10 Deux itérations sur le corpus LM10 1) Amorçage : n’exploiter que les informations acquises dans des contextes non ambigus Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) nb d’occurrences où le mot m régit la préposition p proba(m,p) = nb total d’occurrences du mot m

9 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 9 Procédure d’acquisition à partir du corpus LM10 cas de rattachement prépositionnel non ambigus LM10 étiqueté cas de rattachement prépositionnel résolus avec L 0 Lexique L 0 1- Amorçage2- Consolidation Lexique L 1 Résolution : Le candidat de plus forte probabilité. Par défaut : le premier Lexique final rechercher_candidatCalcul proba(m,p) choisir_candidat Calcul proba(m,p)

10 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 10 Etape d’amorçage A partir des cas de rattachement non ambigus : 1-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) :  Incrémenter freq (m, p, m’) de 1 2-Pour un mot m : le module chercher_candidats ne l’a retenu comme candidat recteur pour aucune préposition  Incrémenter freq (m,0) de 1 freq (m, p, m’) + 1 Je l’ai mangé avec une fourchette freq (manger, avec, fourchette) + 1 freq 0 (m) + 1 Jean a mangé. freq 0 (manger) + 1

11 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 11 Calcul des probabilités pondérées freq(m,p) proba(m,p) = freq(m) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } fréquence de m sans préposition : freq 0 (m) fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq 0 (m) +  p freq(m,p) log ( 1 + prod(m,p) ) * k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5freq(manger,à)=5 prod(manger,avec)=1prod(manger,à)=5 proba(manger,avec)=0.28proba(manger,à)=0.72

12 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 12 Lexique d’amorçage probamotprepprodfreq pfreqfreq0 0,765abonnerà12026040848 0,536aboutirà14515201105553980 0,788accéderà88136834972834 0,535accolerà98121254109 0,569accorderà24989494179906883 0,871accouderà3268862 0,558accrocherà51510642240714 0,578acculerà10422944389 0,641achoppersur109221379122 0,650adapterà935378062041852 0,700adhérerà53821433249896 0,772adjoindreà40630854297620 0,873adosserà22839246255

13 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 13 Etape de consolidation A partir de tous les cas de rattachement : 1a-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) :  Incrémenter freq (m, p, m’) de 1 1b-Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé plusieurs candidats recteurs  le module choisir_candidat choisit le candidat m qui a la probabilité la plus élevée  Incrémenter freq (m, p, m’) de 1 2-Pour tout mot m recteur d’aucune préposition  Incrémenter freq (m,0) de 1 Recalculer les probabilités avec les nouvelles données de fréquences : lexique final

14 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 14 Lexique final Nombre d’occurrences de couples (m,p) extraits du corpus LM10 Nombre de couples (m,p) retenus dans le lexique L 1 frep >= 20 proba >=0.01 étape d’amorçage étape de confirmation (verbe,prep +nom )4 732 1437 924 140(verbe,prep +nom )26 031 (verbe,prep +vinf )656 083947 562(verbe,prep +vinf )2 501 (nom,prep +nom )1 207 4532 671 314(nom,prep +nom )15 548 (nom,prep +vinf )61 957125 502(nom,prep +vinf )294 (adj,prep +nom )80 641223 333(adj,prep +nom )811 (adj,prep +vinf )10 90045 030(adj,prep +vinf )40 6 693 verbes, 11 528 noms, 698 adjectifs différents

15 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 15 Lexique final probamotprepprodfreqfreqtotfreq0 0,622accèsà12386180101853741 0,864accessionà13614171665213 0,539accointanceavec39489541 0,606allusionà79113192227867 0,537appartenanceà338131824791146 0,528assignationà16156345109 0,564assujettissementà355610144 0,554butteà162365684301 0,773cofinancépar30456113 0,510conformitéavec126362761234 0,606croupièreà38498632 0,745harosur52638622 0,546hockeysur3310570253

16 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 16 Annotation de corpus Nb de motsNb de cas annotés LittéraireBalzac (Splendeur …)BAL199 789672 Journalistiqueun extrait du MondeLMO673 1871 238 Juridiquele Code du travailCTR509 1241 150 MédicalCompte rendus d’hospitalisationMED377 967646 La tâche d’annotation est partie intégrante de l’activité de développement de l’analyseur Annotation de corpus variés

17 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 17 Annotation de corpus Règles d’annotations :  Annoter plusieurs centaines de cas sur chaque corpus Assurer la diversité des configurations syntaxiques Arrêter l’annotation quand on estime que la couverture est satisfaisante  L’objectif de l’annotation est d’évaluer la procédure de sélection des candidats Ne pas annoter en cas d’erreurs d’étiquetage Ne pas annoter en cas d’erreur dans la recherche des candidats Ne pas distinguer argument/circonstant Se donner la possibilité : de valider 2 candidats (verbe support), de passer…  Il y a nécessairement une part de subjectivité dans l’annotation

18 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 18 Stratégies de résolution 4 stratégies  Base :  le premier candidat  Endogène calcul de probabilités à partir du corpus en cours d’analyse  le premier j / (m j,p,m’) a été repéré dans un contexte non ambigu  sinon celui qui a la probabilité la plus élevée  sinon le premier  Exogène :  celui qui a la probabilité la plus élevée  sinon le premier  Mixte :  Le premier j / (m j,p,m’) a été repéré dans un contexte non ambigu  sinon celui qui a la probabilité la plus élevée (endo ou exo)  sinon le premier manger une pizza aux olives (manger,à,olive) € corpus ? (pizza,à,olive) € corpus ?

19 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 19 Calcul des probabilités de sous-catégorisation Lexique endogène : résultats sur le corpus médical probamotprepprodfreq pfreqfreq0 0,444accordavec4495 0,246accouchementpar293319 0,418allergieà21419857 0,200amylasémieà22108 0,469analgésiepar6204423 0,200anémieà5116147 0,735antibioprophylaxiepar1021307 0,355antibiothérapiepar2963195123 0,235anticoagulationpar441913 0,616argumentpour1416282 0,312argumenten faveur de810282 0,308armeà3247854 0,600bactériémieà56104

20 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 20 Résultats de l’évaluation 50 80 90 100 70 60 base endo exo mixte Prec % baseendoexomixte BAL83.083.586.986.6 LMO70.380.186.685.9 CTR65.582.386.387.3 MED59.978.066.378.3 % précision

21 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 21 Conclusion sur la stabilité Le corpus médical a un comportement particulier  À cause du « style » et non du domaine Sur les 3 autres corpus (journalistique, juridique et littéraire), les performances sont étonnamment stables  Autour de 87%  La stratégie de base est très bonne sur le corpus littéraire  L’apport d’informations endogènes : dégrade légèrement les résultats sur les corpus littéraire et journalistique améliore sensiblement les résultats sur le corpus juridique

22 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 22 Conclusion sur le lexique Le lexique de sous-catégorisation syntaxique est exploité par l’analyseur sans avoir été validé manuellement. Il est performant pour la tâche de résolution des ambiguïtés prépositionnelles. Sur le plan linguistique, ce lexique n’est pas comparable aux lexiques construits à la main ou aux dictionnaires de langue :  La probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de toutes les occurrences (lemmatisées) de ce verbe, sans distinction de ses différentes sens Dans le contexte du développement d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage des sens est un mal nécessaire.

23 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 23 Perspectives Utiliser des informations « sémantiques » générales  Prendre en compte le régi de la préposition : m’  Exploiter les triplets (m,p,m’) extraits de LM10  Utiliser des informations sémantiques Liens entre mots Classes sémantiques  Quelles ressources ? Ressources lexicales existantes (Dicosyn de l’U. de Caen) Ressources construites automatiquement à partir de l’Analyse Distributionnelle de très gros corpus manger une pizza aux anchois (manger,à,anchois) € LM10 ? (pizza,à,anchois) € LM10 ? (pizza,à,olive) € LM10 ?

24 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 24 Les Voisins de Le Monde Une base de données lexico-distributionnelle du français  Analyse distributionnelle (syntex+upery) sur le corpus LM10 http://www.univ-tlse2.fr/erss/voisinsdelemonde/

25 D. BOURIGAULT, C FREROTTALN 2005, Dourdan, juin 2005 25 Boire un café au lait € Boire un café au bar Boire un café au bistrot Allouer des crédits à la recherche Allouer des aides à la recherche Subventionner la recherche (bof)


Télécharger ppt "Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et."

Présentations similaires


Annonces Google