La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.

Présentations similaires


Présentation au sujet: "TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094."— Transcription de la présentation:

1 TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094

2 TALN 2005, Dourdan2 Objectif  Cadre : désambiguïsation automatique du sens d’une unité lexicale  existant : influence des unités lexicales et syntaxiques de l’énoncé (co-texte)  apport : étude des caractéristiques sémantiques du co-texte  singularité : les classes sémantiques appelées classes de sélection distributionnelle (CSD) sont calculées « à la volée » pour désambiguïser un contexte donné

3 TALN 2005, Dourdan3 Plan  travaux connexes  Des C.S.D., pourquoi ?  Des C.S.D., comment ?  Des espaces continus…  … aux C.S.D.  Evaluation  Perspectives

4 TALN 2005, Dourdan4 travaux connexes  Analyse distributionnelle “à la Harris”  construction de ressources terminologiques (Bourigault 2002, Habert et Nazarenko 1996, Pantel et Lin 2001)  Classes d’objets (G. Gross, 2004) « tout changement de sens d’un prédicat est corrélé à un changement de son schéma d’arguments »  nous ne cherchons pas à établir des classes en langue. Nos classes dépendent du corpus et surtout du contexte étudié.

5 TALN 2005, Dourdan5 Des C.S.D., pourquoi ? jouer la fille sérieuse jouer avec sa fille  En considérant les têtes nominales de compléments (fille) d’une part, et la construction syntaxique (V+SN / V+SP (avec +SN)) d’autre part (interpréter, incarner) (s’amuser, plaisanter)

6 TALN 2005, Dourdan6 Des C.S.D., pourquoi ? « jouer du luth » « jouer à Wimbledon »  fréquences trop faibles  calcul peu fiable  remplacer luth par l’ensemble de ses synonymes  tout aussi peu fréquent (lyre, mandoline,…)  ne résout pas le cas de Wimbledon

7 TALN 2005, Dourdan7 Des classes sémantiques, pourquoi ?  Nécessité de construire des classes « sémantiques » (C. S. D.)  luth  {luth ; guitare ; violon}  énoncés interprétables par notre modèle  originalité : les classes sémantiques dépendent du contexte jouer du luth  {luth ; guitare ; violon} déposer un luth  {luth ; objet ; chose ; outil} déposer Paul  {Paul ; individu ; personne}

8 TALN 2005, Dourdan8  Le journal Le Monde sur 10 ans, analysé par Syntex(Bourigault)   200 Millions de mots   20 Millions de triplets {compter (V) ; PREP_SUR ; ami (N)} (11 occ.)  un triplet   deux contextes :- « compter(V).PREP_SUR » (8860 occ.) - « PREP_SUR.ami(N) » (88 occ.)  deux mots : - compter(V) (81485 occ.) - ami(N) (38856 occ.) Des C.S.D., comment ?

9 TALN 2005, Dourdan9  Filtrage Un mot doit être présent au moins 100 fois dans le corpus Un contexte doit être présent au moins 100 fois dans le corpus Un triplet doit être présent au moins 10 fois dans le corpus  Construction de l’espace multidimensionnel engendré par les contextes  espace distributionnel associé au corpus  La valeur d’un mot A sur l’axe engendré par un contexte B est la fréquence relative du triplet formé par A et B Des C.S.D., comment ?

10 TALN 2005, Dourdan10  Etude d’un mot dans un contexte donné  Désambiguïser descendre (montagne, cours d’eau, personne) « Descendre le Mont-blanc » « Descendre la Seine »  M = mots ayant une coordonnée non nulle selon la dimension « descendre.OBJ » + Mont-blanc/Seine  C = contextes pour lesquels au moins un des éléments de M a une coordonnée non nulle.  Dans le cas de Mont-blanc, M contient 24 mots et C contient 5762 contextes.  visualiser l’ensemble M grâce à une AFC qui nous fournit des axes de visualisation synthétisant le mieux l’information des 5762 contextes de C. Des C.S.D., comment ?

11 TALN 2005, Dourdan11 Des espaces continus… Personnes Cours d’eau Monts NP;Mont-blanc, NP;Seine (5776 contextes, 25 mots) – composantes 3 et 4 (5761 contextes, 23 mots) – composantes 2 et 3

12 TALN 2005, Dourdan12 Des espaces continus…  Les visualisations proposées ci-dessus correspondent respectivement aux composantes (2,3) et (3,4) de l’AFC.  L’information est contenue dans l’ensemble des composantes de l’AFC  obtenir une visualisation lisible nécessite de parcourir les différentes composantes de l’AFC.  La construction des classes tient compte des dix premières dimensions de l’AFC.

13 TALN 2005, Dourdan13 … aux C.S.D.  Méthode de clusterisation : kmean de Matlab emploie un algorithme itératif en deux phases dont le but est de minimiser la somme des distances entre points et centre de gravité sur le nombre k de clusters.  La C.S.D. d’un mot sera le cluster dont le centre de gravité est le plus proche du mot  Le cluster le plus proche de Seine est « N;fleuve, N;rivière, NP;Seine » et le cluster le plus proche de Mont-blanc est « N;montagne, N;piste ».

14 TALN 2005, Dourdan14 Evaluation  Quatres contextes ambigus « descendre.OBJ », « jouer.PREP_à », « regarder.OBJ », « décider.SUJ ».  Calcul de C.S.D. de quinze mots vedettes différents  sur 60 cooccurrences étudiées, seulement 21 sont présentes dans le corpus

15 TALN 2005, Dourdan15 Evaluation  « descendre.OBJ» NP;Seine, NP;Rhône, NP;Gange, NP;Danube, NP;Mississippi, NP;Chirac, NP;Jospin, NP;Pdg, NP;Kennedy, NP;Mont Blanc, NP ;Everest, NP;Pyrénées, NP;Alpes, NP; Broadway  « jouer.PREP_à » NP;Monopoly (p), N;tarot, N;domino (p), N;lego, NP;Paris (p), NP;Washigton, NP;Wimbledon (p), NP;Lyon, NP;Broadway, NP;New York (p), NP;Londres (p), NP;Marseille (p), NP;Lille, NP;Parc des princes (p)  « décider.SUJ » NP;Paris (p), NP;France (p), NP;Washington (p), NP;Wimbledon, NP;Londres (p), NP;Clinton (p), NP;président, NP;Jospin (p), NP; Kennedy, NP;Onu (p), NP;Cgt (p), NP;Otan (p), NP;Rpr (p), NP.PS (p), NP;Vivendi, NP;Renault (p)  « regarder.OBJ » NP;Chirac, NP;Picasso, NP;Seine, NP;Arte, NP; Kennedy, NP;Internet, NP;Alpes, NP;Jospin, NP;Paris, NP;Lyon, NP;Lelouch, NP;Kubrick, NP;Etats-Unis, NP;Tf (p), NP;Tintin, N;Videocassette

16 TALN 2005, Dourdan16 Evaluation  Evaluation, inspirée des travaux de Lin et Pantel (2001)  Huit juges vont donner une note de un à quatre, de la manière suivante : 1.La classe est très mauvaise 2.La classe est assez mauvaise 3.La classe est assez bonne 4.La classe est très bonne

17 TALN 2005, Dourdan17

18 TALN 2005, Dourdan18 Evaluation  Synthèse des résultats  77.62 % des notes sont supérieures ou égale à 3  La moyenne des notes sur les 4 contextes est de 3,2

19 TALN 2005, Dourdan19 Evaluation  comportement d’un même nom propre dans des contextes différents

20 TALN 2005, Dourdan20 Perspectives  finaliser la méthode de clusterisation  Etudier la variation inter-corpus  Intégrer ce module dans notre modèle de désambiguïsation


Télécharger ppt "TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094."

Présentations similaires


Annonces Google