TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094.

Slides:



Advertisements
Présentations similaires
Analyse distributionnelle automatique
Advertisements

PROBLEMES OUVERTS QUESTIONS OUVERTES
APPROCHE PAR LES COMPETENCES ET
GEF 435 Principes des systèmes d’exploitation
Urbanisation de Systèmes d'Information
Exemple : Itinéraire de lecture.
Piecewise Affine Registration of Biological Images
Visualisation d’un dictionnaire des synonymes à différentes échelles :
Présentation PowerPoint TICE2 Adeline VINCENDEAU
Une application pratique de la Démarche Qualité dans l’EPS
Cours présentielle avec 1er année.
Analyse en Composantes Principales
Pour un système formel de description linguistique
Comportement du solides déformable
Introduction à la conception de Bases de Données Relationnelles
Concepts avancés en mathématiques et informatique appliquées
Chap 4 Les bases de données et le modèle relationnel
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Méthode des k plus proches voisins
Programmation fonctionnelle Le langage LISP
De quoi s'agit-il ? Formations hybrides,
Construction de modèles visuels
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Noms, classe : BarèmeNote Texte : Texte pertinent : sujet traité avec sélection des éléments essentiels textes personnels, simples, clairs avec un vocabulaire.
IFT Complexité et NP-complétude
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Universté de la Manouba
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Algorithmes d ’approximation
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
introduction à la sociologie cours 4
Interprétation automatique
LE MICROSCOPE OPTIQUE Le texte ci-dessous, extrait d'un ouvrage de vulgarisation scientifique, donne une description sommaire du microscope. "La partie.
L’adaptativité pour un solveur de l’équation de Vlasov
La proposition de Dominique Valentin
Dessine-moi une ambiguïté Une approche géométrique du calcul du sens Fabienne Venant Université Nancy 2, France Département de mathématiques, UQAM.
Rappel... Valeurs propres et vecteurs propres. Définitions;
Projet de Recherche Nathalie GORMEZANO Directrice générale de l’ISIT
Transmission par engrenage normalisé
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
L’enseignement de la découverte professionnelle en classe de 3ème
DU TRAITEMENT DU SIGNAL
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
PRESENTATION D'OUTILS POUVANT ACCOMPAGNER DES APPRENTISSAGES.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Intégration de schémas
Francophonie et variétés du français
Mouvement d'un point A à un point B
Dominique LAURENT Patrick SEGUELA
5 mars 2003 Géoévènement Analyse des paysages dans un contexte d’aménagement. L’intérêt des outils géomatiques Thierry Joliveau. CRENAM-CNRS UMR.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
1 Deux exemples de management (et d’organisation) de la recherche : le CNRS et l’INRIA Club EEA, Tours, 13 mai 2009.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Naissance du TGV au début des années 80 : le TGV Sud Est
Video.
UE 5 EC 1 INITIATION A LA RECHERCHE DANS LE DOMAINE DE L’ENSEIGNEMENT
But : avoir un regard réflexif sur le métier d’enseignant
INITIATION DES RECHERCHES DANS LE DOMAINE DES ENSEIGNEMENTS
Etude de la capacité de fonctionnement imaginaire des infirmières avec des bébés prématurissimes E. Seye, E. Amrani (IDE, réanimation néonatale) V. Granboulan.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Analyse de données avec R
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Grands principes comptables
Les relatives infinitives ou la construction d’un inobservable Sylvain Kahane Modyco, Université Paris 10 Lattice, Université Paris 7 COLDOC, Université.
Les ateliers l’environnement numérique de travail en Midi-Pyrénées L’ENT MIDI-PYRÉNÉES EST SOUTENU PAR Les services de classe 1 /9 PAGE - CLIQUEZ POUR.
APPRENTISSAGE 2.0 et dispositif de formation Apprendre… L’apprentissage dans un contexte techno-pédagogique… Construire son dispositif… Est-ce que je peux.
1 Construire et penser la coopération entre enseignants et chercheurs en didactique Jacques Vince Lycée Ampère – Lyon Enseignant associé à l’IFÉ Le cas.
5 ème Journée des doctorants – ED SPI Lille – 26 Juin 2012 – Ecole des Mines de Douai ETUDE DES CARACTERISTIQUES THERMOPHYSIQUES D’ISOLANTS AGRO-SOURCES.
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Transcription de la présentation:

TALN 2005, Dourdan1 Construction automatique de classes de sélection distributionnelle Guillaume Jacquet et Fabienne Venant Lattice-CNRS UMR 8094

TALN 2005, Dourdan2 Objectif  Cadre : désambiguïsation automatique du sens d’une unité lexicale  existant : influence des unités lexicales et syntaxiques de l’énoncé (co-texte)  apport : étude des caractéristiques sémantiques du co-texte  singularité : les classes sémantiques appelées classes de sélection distributionnelle (CSD) sont calculées « à la volée » pour désambiguïser un contexte donné

TALN 2005, Dourdan3 Plan  travaux connexes  Des C.S.D., pourquoi ?  Des C.S.D., comment ?  Des espaces continus…  … aux C.S.D.  Evaluation  Perspectives

TALN 2005, Dourdan4 travaux connexes  Analyse distributionnelle “à la Harris”  construction de ressources terminologiques (Bourigault 2002, Habert et Nazarenko 1996, Pantel et Lin 2001)  Classes d’objets (G. Gross, 2004) « tout changement de sens d’un prédicat est corrélé à un changement de son schéma d’arguments »  nous ne cherchons pas à établir des classes en langue. Nos classes dépendent du corpus et surtout du contexte étudié.

TALN 2005, Dourdan5 Des C.S.D., pourquoi ? jouer la fille sérieuse jouer avec sa fille  En considérant les têtes nominales de compléments (fille) d’une part, et la construction syntaxique (V+SN / V+SP (avec +SN)) d’autre part (interpréter, incarner) (s’amuser, plaisanter)

TALN 2005, Dourdan6 Des C.S.D., pourquoi ? « jouer du luth » « jouer à Wimbledon »  fréquences trop faibles  calcul peu fiable  remplacer luth par l’ensemble de ses synonymes  tout aussi peu fréquent (lyre, mandoline,…)  ne résout pas le cas de Wimbledon

TALN 2005, Dourdan7 Des classes sémantiques, pourquoi ?  Nécessité de construire des classes « sémantiques » (C. S. D.)  luth  {luth ; guitare ; violon}  énoncés interprétables par notre modèle  originalité : les classes sémantiques dépendent du contexte jouer du luth  {luth ; guitare ; violon} déposer un luth  {luth ; objet ; chose ; outil} déposer Paul  {Paul ; individu ; personne}

TALN 2005, Dourdan8  Le journal Le Monde sur 10 ans, analysé par Syntex(Bourigault)   200 Millions de mots   20 Millions de triplets {compter (V) ; PREP_SUR ; ami (N)} (11 occ.)  un triplet   deux contextes :- « compter(V).PREP_SUR » (8860 occ.) - « PREP_SUR.ami(N) » (88 occ.)  deux mots : - compter(V) (81485 occ.) - ami(N) (38856 occ.) Des C.S.D., comment ?

TALN 2005, Dourdan9  Filtrage Un mot doit être présent au moins 100 fois dans le corpus Un contexte doit être présent au moins 100 fois dans le corpus Un triplet doit être présent au moins 10 fois dans le corpus  Construction de l’espace multidimensionnel engendré par les contextes  espace distributionnel associé au corpus  La valeur d’un mot A sur l’axe engendré par un contexte B est la fréquence relative du triplet formé par A et B Des C.S.D., comment ?

TALN 2005, Dourdan10  Etude d’un mot dans un contexte donné  Désambiguïser descendre (montagne, cours d’eau, personne) « Descendre le Mont-blanc » « Descendre la Seine »  M = mots ayant une coordonnée non nulle selon la dimension « descendre.OBJ » + Mont-blanc/Seine  C = contextes pour lesquels au moins un des éléments de M a une coordonnée non nulle.  Dans le cas de Mont-blanc, M contient 24 mots et C contient 5762 contextes.  visualiser l’ensemble M grâce à une AFC qui nous fournit des axes de visualisation synthétisant le mieux l’information des 5762 contextes de C. Des C.S.D., comment ?

TALN 2005, Dourdan11 Des espaces continus… Personnes Cours d’eau Monts NP;Mont-blanc, NP;Seine (5776 contextes, 25 mots) – composantes 3 et 4 (5761 contextes, 23 mots) – composantes 2 et 3

TALN 2005, Dourdan12 Des espaces continus…  Les visualisations proposées ci-dessus correspondent respectivement aux composantes (2,3) et (3,4) de l’AFC.  L’information est contenue dans l’ensemble des composantes de l’AFC  obtenir une visualisation lisible nécessite de parcourir les différentes composantes de l’AFC.  La construction des classes tient compte des dix premières dimensions de l’AFC.

TALN 2005, Dourdan13 … aux C.S.D.  Méthode de clusterisation : kmean de Matlab emploie un algorithme itératif en deux phases dont le but est de minimiser la somme des distances entre points et centre de gravité sur le nombre k de clusters.  La C.S.D. d’un mot sera le cluster dont le centre de gravité est le plus proche du mot  Le cluster le plus proche de Seine est « N;fleuve, N;rivière, NP;Seine » et le cluster le plus proche de Mont-blanc est « N;montagne, N;piste ».

TALN 2005, Dourdan14 Evaluation  Quatres contextes ambigus « descendre.OBJ », « jouer.PREP_à », « regarder.OBJ », « décider.SUJ ».  Calcul de C.S.D. de quinze mots vedettes différents  sur 60 cooccurrences étudiées, seulement 21 sont présentes dans le corpus

TALN 2005, Dourdan15 Evaluation  « descendre.OBJ» NP;Seine, NP;Rhône, NP;Gange, NP;Danube, NP;Mississippi, NP;Chirac, NP;Jospin, NP;Pdg, NP;Kennedy, NP;Mont Blanc, NP ;Everest, NP;Pyrénées, NP;Alpes, NP; Broadway  « jouer.PREP_à » NP;Monopoly (p), N;tarot, N;domino (p), N;lego, NP;Paris (p), NP;Washigton, NP;Wimbledon (p), NP;Lyon, NP;Broadway, NP;New York (p), NP;Londres (p), NP;Marseille (p), NP;Lille, NP;Parc des princes (p)  « décider.SUJ » NP;Paris (p), NP;France (p), NP;Washington (p), NP;Wimbledon, NP;Londres (p), NP;Clinton (p), NP;président, NP;Jospin (p), NP; Kennedy, NP;Onu (p), NP;Cgt (p), NP;Otan (p), NP;Rpr (p), NP.PS (p), NP;Vivendi, NP;Renault (p)  « regarder.OBJ » NP;Chirac, NP;Picasso, NP;Seine, NP;Arte, NP; Kennedy, NP;Internet, NP;Alpes, NP;Jospin, NP;Paris, NP;Lyon, NP;Lelouch, NP;Kubrick, NP;Etats-Unis, NP;Tf (p), NP;Tintin, N;Videocassette

TALN 2005, Dourdan16 Evaluation  Evaluation, inspirée des travaux de Lin et Pantel (2001)  Huit juges vont donner une note de un à quatre, de la manière suivante : 1.La classe est très mauvaise 2.La classe est assez mauvaise 3.La classe est assez bonne 4.La classe est très bonne

TALN 2005, Dourdan17

TALN 2005, Dourdan18 Evaluation  Synthèse des résultats  % des notes sont supérieures ou égale à 3  La moyenne des notes sur les 4 contextes est de 3,2

TALN 2005, Dourdan19 Evaluation  comportement d’un même nom propre dans des contextes différents

TALN 2005, Dourdan20 Perspectives  finaliser la méthode de clusterisation  Etudier la variation inter-corpus  Intégrer ce module dans notre modèle de désambiguïsation