TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094
TALN 2005, Dourdan2 Objectif Cadre : désambiguïsation automatique du sens d’une unité lexicale existant : influence des unités lexicales et syntaxiques de l’énoncé (co-texte) apport : étude des caractéristiques sémantiques du co-texte singularité : les classes sémantiques appelées classes de sélection distributionnelle (CSD) sont calculées « à la volée » pour désambiguïser un contexte donné
TALN 2005, Dourdan3 Plan travaux connexes Des C.S.D., pourquoi ? Des C.S.D., comment ? Des espaces continus… … aux C.S.D. Evaluation Perspectives
TALN 2005, Dourdan4 travaux connexes Analyse distributionnelle “à la Harris” construction de ressources terminologiques (Bourigault 2002, Habert et Nazarenko 1996, Pantel et Lin 2001) Classes d’objets (G. Gross, 2004) « tout changement de sens d’un prédicat est corrélé à un changement de son schéma d’arguments » nous ne cherchons pas à établir des classes en langue. Nos classes dépendent du corpus et surtout du contexte étudié.
TALN 2005, Dourdan5 Des C.S.D., pourquoi ? jouer la fille sérieuse jouer avec sa fille En considérant les têtes nominales de compléments (fille) d’une part, et la construction syntaxique (V+SN / V+SP (avec +SN)) d’autre part (interpréter, incarner) (s’amuser, plaisanter)
TALN 2005, Dourdan6 Des C.S.D., pourquoi ? « jouer du luth » « jouer à Wimbledon » fréquences trop faibles calcul peu fiable remplacer luth par l’ensemble de ses synonymes tout aussi peu fréquent (lyre, mandoline,…) ne résout pas le cas de Wimbledon
TALN 2005, Dourdan7 Des classes sémantiques, pourquoi ? Nécessité de construire des classes « sémantiques » (C. S. D.) luth {luth ; guitare ; violon} énoncés interprétables par notre modèle originalité : les classes sémantiques dépendent du contexte jouer du luth {luth ; guitare ; violon} déposer un luth {luth ; objet ; chose ; outil} déposer Paul {Paul ; individu ; personne}
TALN 2005, Dourdan8 Le journal Le Monde sur 10 ans, analysé par Syntex(Bourigault) 200 Millions de mots 20 Millions de triplets {compter (V) ; PREP_SUR ; ami (N)} (11 occ.) un triplet deux contextes :- « compter(V).PREP_SUR » (8860 occ.) - « PREP_SUR.ami(N) » (88 occ.) deux mots : - compter(V) (81485 occ.) - ami(N) (38856 occ.) Des C.S.D., comment ?
TALN 2005, Dourdan9 Filtrage Un mot doit être présent au moins 100 fois dans le corpus Un contexte doit être présent au moins 100 fois dans le corpus Un triplet doit être présent au moins 10 fois dans le corpus Construction de l’espace multidimensionnel engendré par les contextes espace distributionnel associé au corpus La valeur d’un mot A sur l’axe engendré par un contexte B est la fréquence relative du triplet formé par A et B Des C.S.D., comment ?
TALN 2005, Dourdan10 Etude d’un mot dans un contexte donné Désambiguïser descendre (montagne, cours d’eau, personne) « Descendre le Mont-blanc » « Descendre la Seine » M = mots ayant une coordonnée non nulle selon la dimension « descendre.OBJ » + Mont-blanc/Seine C = contextes pour lesquels au moins un des éléments de M a une coordonnée non nulle. Dans le cas de Mont-blanc, M contient 24 mots et C contient 5762 contextes. visualiser l’ensemble M grâce à une AFC qui nous fournit des axes de visualisation synthétisant le mieux l’information des 5762 contextes de C. Des C.S.D., comment ?
TALN 2005, Dourdan11 Des espaces continus… Personnes Cours d’eau Monts NP;Mont-blanc, NP;Seine (5776 contextes, 25 mots) – composantes 3 et 4 (5761 contextes, 23 mots) – composantes 2 et 3
TALN 2005, Dourdan12 Des espaces continus… Les visualisations proposées ci-dessus correspondent respectivement aux composantes (2,3) et (3,4) de l’AFC. L’information est contenue dans l’ensemble des composantes de l’AFC obtenir une visualisation lisible nécessite de parcourir les différentes composantes de l’AFC. La construction des classes tient compte des dix premières dimensions de l’AFC.
TALN 2005, Dourdan13 … aux C.S.D. Méthode de clusterisation : kmean de Matlab emploie un algorithme itératif en deux phases dont le but est de minimiser la somme des distances entre points et centre de gravité sur le nombre k de clusters. La C.S.D. d’un mot sera le cluster dont le centre de gravité est le plus proche du mot Le cluster le plus proche de Seine est « N;fleuve, N;rivière, NP;Seine » et le cluster le plus proche de Mont-blanc est « N;montagne, N;piste ».
TALN 2005, Dourdan14 Evaluation Quatres contextes ambigus « descendre.OBJ », « jouer.PREP_à », « regarder.OBJ », « décider.SUJ ». Calcul de C.S.D. de quinze mots vedettes différents sur 60 cooccurrences étudiées, seulement 21 sont présentes dans le corpus
TALN 2005, Dourdan15 Evaluation « descendre.OBJ» NP;Seine, NP;Rhône, NP;Gange, NP;Danube, NP;Mississippi, NP;Chirac, NP;Jospin, NP;Pdg, NP;Kennedy, NP;Mont Blanc, NP ;Everest, NP;Pyrénées, NP;Alpes, NP; Broadway « jouer.PREP_à » NP;Monopoly (p), N;tarot, N;domino (p), N;lego, NP;Paris (p), NP;Washigton, NP;Wimbledon (p), NP;Lyon, NP;Broadway, NP;New York (p), NP;Londres (p), NP;Marseille (p), NP;Lille, NP;Parc des princes (p) « décider.SUJ » NP;Paris (p), NP;France (p), NP;Washington (p), NP;Wimbledon, NP;Londres (p), NP;Clinton (p), NP;président, NP;Jospin (p), NP; Kennedy, NP;Onu (p), NP;Cgt (p), NP;Otan (p), NP;Rpr (p), NP.PS (p), NP;Vivendi, NP;Renault (p) « regarder.OBJ » NP;Chirac, NP;Picasso, NP;Seine, NP;Arte, NP; Kennedy, NP;Internet, NP;Alpes, NP;Jospin, NP;Paris, NP;Lyon, NP;Lelouch, NP;Kubrick, NP;Etats-Unis, NP;Tf (p), NP;Tintin, N;Videocassette
TALN 2005, Dourdan16 Evaluation Evaluation, inspirée des travaux de Lin et Pantel (2001) Huit juges vont donner une note de un à quatre, de la manière suivante : 1.La classe est très mauvaise 2.La classe est assez mauvaise 3.La classe est assez bonne 4.La classe est très bonne
TALN 2005, Dourdan17
TALN 2005, Dourdan18 Evaluation Synthèse des résultats % des notes sont supérieures ou égale à 3 La moyenne des notes sur les 4 contextes est de 3,2
TALN 2005, Dourdan19 Evaluation comportement d’un même nom propre dans des contextes différents
TALN 2005, Dourdan20 Perspectives finaliser la méthode de clusterisation Etudier la variation inter-corpus Intégrer ce module dans notre modèle de désambiguïsation