La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

Présentations similaires


Présentation au sujet: "1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue."— Transcription de la présentation:

1 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue (LIC2M) CEA – LIST Fontenay-aux-Roses

2 2 Problématique Pré-requis de la désambiguïsation sémantique disposer dun inventaire des sens des mots Problèmes posés par les inventaires utilisables en TAL réseaux lexico-sémantiques de type WordNet nature des sens distinctions de sens trop fines par rapport à une utilisation en TAL –41 sens pour le verbe run dans WordNet incomplétude des sens –les domaines de spécialité introduisent constamment des sens nouveaux domaine nucléaire : piscine, crayon caractérisation des sens principalement au travers de relations de type hyperonymie, synonymie absence de caractérisation des contextes doccurrence, ce qui est le plus utile pour la désambiguïsation sémantique –piscine (général) : nageur, natation, maître-nageur, … –piscine (nucléaire) : réacteur, centrale, combustible, radiation, …

3 3 Définir des sens à partir dun corpus Une solution possible différencier les sens des mots à partir de leur usage dans un corpus 3 types dapproches Classification non supervisée des mots dun corpus construction de classes de synonymes (Pantel & Lin) chaque mot est caractérisé par ses cooccurrents dans le corpus 1 sens pour chaque classe dappartenance dun mot Classification non supervisée des occurrences dun mot (Schütze, Pedersen & Bruce, Purandare) chaque occurrence est caractérisée par un ensemble de traits : mots environnants, catégorie des mots environnants, … Classification non supervisée des cooccurrents dun mot (Véronis, Dorow & Widdows, Rapp) cooccurrents regroupés selon les relations quils entretiennent entre eux

4 4 Principes du travail présenté Méthode fondée sur la classification des cooccurrents dun mot (3 ème approche) Point de départ : réseau de cooccurrences lexicales nœud : mot du corpus arête : relation de cooccurrence dans le corpus entre les 2 mots liés Pour chaque mot m i dont on veut différencier les sens délimitation du sous-graphe constitué des cooccurrents de m i et de leurs relations construction dune matrice de similarité des cooccurrents de m i application dune variante de lalgorithme Shared Nearest Neighbors (SNN ; Ertöz, Steinbach & Kumar) regroupement des cooccurrents de m i en C classes, C nétant pas fixé a priori C sens élimination des cooccurrents sans relation avec les sens distingués

5 5 Les réseaux de cooccurrences lexicales Méthode de construction pré-traitement des textes : sélection des mots pleins comptage des cooccurrences au sein d'une fenêtre glissante accent mis sur les relations sémantiques et pragmatiques taille : 20 mots (environ 50 mots avant sélection) pas d'ordre : m1 - m2 équivalent à m2 - m1 respect des frontières de texte cohésion entre mots : information mutuelle normalisée filtrage des cooccurrences peu fréquentes fréquence 13 ; cohésion 0,13 2 réseaux construits français : 24 mois du journal Le Monde lemmes et cooccurrences anglais : 2 ans du journal Los Angeles Times (TREC) lemmes et cooccurrences taille des corpora ~ 40 millions de mots

6 6 Exemple : graphe des cooccurrents de organe

7 7 Matrice de similarité entre cooccurrents 2 types de similarité testés similarité fondée sur une cooccurrence de premier ordre similarité plus large, fondée sur une cooccurrence de premier et de second ordre Cooccurrence de 1 er ordre similarité entre 2 mots : mesure de la cohésion entre ces 2 mots dans le réseau Cooccurrence de 1 er et de 2 nd ordre 2 mots peuvent être proches sans être directement cooccurrents dans un texte ; souvent le cas avec les synonymes chaque mot est caractérisé par lensemble de ses cooccurrents pondération de chaque cooccurrent par sa cohésion avec le mot similarité entre 2 mots = mesure de la similarité entre les 2 ensembles les représentant utilisation de la mesure cosinus

8 8 Algorithme de classification : vue densemble Algorithme Shared Nearest Neighbors classification détection de composantes de forte densité dans un graphe de similarité matrice de similarité entre cooccurrents graphe de similarité non orienté similarité non nulle entre 2 cooccurrents arête du graphe 3 grandes phases éclaircissement et transposition du graphe de similarité détermination des germes des futurs sens et filtrage des cooccurrents sans relation avec ces sens construction des sens

9 9 Algorithme de classification : 1 ère phase Éclaircissement du graphe de similarité élimination des arêtes correspondant aux similarités les moins significatives en pratique, conservation pour chaque cooccurrent des arêtes en direction de ses k plus proches voisins Transposition du graphe de similarité construction du graphe des plus proches voisins partagés 2 cooccurrents y sont liés sils sont liés dans le graphe initial force du lien : nombre de voisins partagés par les 2 cooccurrents abstraction / aux valeurs absolues de similarité, après élimination des valeurs les plus faibles raisonnement en termes de densité de liens

10 10 Algorithme de classification : 2 ème phase Détermination des germes de sens notion de lien fort : 2 cooccurrents sont fortement liés si leur nombre de voisins partagés dépasse un seuil calcul pour chaque cooccurrent de son nombre de liens forts germe de sens : cooccurrent dont le nombre de liens forts est supérieur à un seuil Filtrage des cooccurrents élimination des cooccurrents dont le nombre de liens forts est inférieur à un seuil Seuils adaptés aux valeurs considérées exprimés comme des quantiles de leur distribution liens forts : distribution du nombre de voisins partagés germes et filtrage : distribution du nombre de liens forts

11 11 Algorithme de classification : 3 ème phase Rattachement des cooccurrents non filtrés aux germes de sens rattachement au germe le plus proche à condition que leur proximité (i.e. nombre de voisins partagés) soit supérieure à un seuil Fusion des sens proches possibilité de rattacher un germe de sens à un autre de la même façon que pour les autres cooccurrents Suppression des sens faiblement représentés les sens ne rassemblant que peu de cooccurrents sont éliminés sens le plus souvent très proches de sens plus importants Élargissement des sens rattachement de cooccurrents moins proches sur des bases plus solides proximité moyenne avec les cooccurrents dun sens > seuil

12 12 Un exemple : le mot barrage 1.1 manifestant, forces_de_lordre, préfecture, agriculteur, protester, incendier, calme, pierre 1.2 conducteur, routier, véhicule, poids_lourd, camion, permis, trafic, bloquer, voiture, autoroute 1.3 fleuve, lac, rivière, bassin, mètre_cube, crue, amont, pollution, affluent, saumon, poisson 1.4 blessé, casque_bleu, soldat, milicien, tir, milice, convoi, évacuer, croate, milicien, combattant 2.1 eau, mètre, lac, pluie, rivière, bassin, fleuve, site, poisson, affluent, montagne, crue, vallée 2.2 conducteur, trafic, routier, route, camion, chauffeur, voiture, chauffeur_routier, poids_lourd 2.3 casque_bleu, soldat, tir, convoi, milicien, blindé, milice, aéroport, blessé, incident, croate Cooccurrence de 1 er ordre Cooccurrence de 2 nd ordre 1.3 – 2.1 barrage hydraulique 1.4 – 2.3 barrage frontière manifestations à caractère professionnel 1.2 – 2.2 barrage routier (camionneurs) 1.1 barrage routier (agriculteurs)

13 13 Dautres exemples (au 1 er ordre) 1 patient, transplantation, greffe, malade, thérapeutique, médical, médecine, greffer, rein 2 procréation, embryon, éthique, humain, relatif, bioéthique, corps_humain, gène, cellule 3 constitutionnel, consultatif, constitution, instituer, exécutif, législatif, siéger, disposition 4 article, hebdomadaire, publication, rédaction, quotidien, journal, éditorial, rédacteur Organe 1 compatible, sofware, computer, machine, user, desktop, pc, graphics, keyboard, device 2 laboratory, researcher, cell, gene, generic, human, hormone, research, scientist, rat Mouse 1 ballroom, cocktail, champagne, guest, bash, gala, wedding, birthday, invitation, festivity 2 caterer, uninvited, party-goers, black-tie, hostess, buffet, glitches, napkins, catering 3 candidate, democrat, republican, gubernatorial, presidential, partisan, reapportionment Party

14 14 Plus globalement Réseaux de cooccurrences faiblement représentatifs du sens de plus de la moitié des mots LM-1LM-2LAT-1.noLAT-2.no nombre de mots nb. de mots avec au moins 1 sens (44,4%) (42,7%) (41.8%) (39%) nombre de sens par mot 2,82,21,91,5 nombre de mots par sens 16,116,320,218,9 LM-x : réseau issu du Monde LAT-x.no : réseau issu du LA Times ; noms uniquement x = 1 : cooccurrence 1 er ordre ; x = 2 : cooccurrence 2 nd ordre

15 15 Évaluation : protocole Principe général comparaison avec une ressource existante, en loccurrence WordNet but : sassurer que les sens découverts ne sont pas globalement aberrants évaluation réalisée pour un ensemble de noms en anglais (LAT-x.no) non ambigus du point de vue morpho-syntaxique Protocole proposé par Pantel & Lin appariement dun sens trouvé pour un mot avec un des synsets de ce mot dans WordNet mesure de similarité entre un sens et un synset appariement si similarité(sens, synset) > seuil accord avec un jugement humain : 88% mesure de précision seulement : proportion de sens sappariant avec un synset de WordNet

16 16 Évaluation : appariement sens - synset Similarité sens - synset moyenne des similarités entre les N (N=4) mots les plus représentatifs du sens et le synset Similarité mot – synset S(m) : ensemble des synsets contenant le mot m similarité(m, synset) = max similarité(synset, s) Similarité de 2 synsets mesure proposée par Lin, fondée sur la seule hyperonymie s S(m) s : synset subsumant les synsets s 1 et s 2 P(s) :probabilité du synset s dans un corpus de référence (SemCor) geological-formation (s) natural-elevationshore coast (s 2 ) hill (s 1 )

17 17 Évaluation : résultats Choix des N (N=4) mots les plus représentatifs dun sens (1)nombre de liens forts dans le graphe des voisins partagés (2) choix optimal permettant de maximiser la précision de lappariement sens - synset LAT-1.noLAT-2.no (1) nombre de liens forts19,420,8 (2) choix optimal56,263,7 Méthode proposée mots les plus représentatifs dun sens = liés au contexte dusage Pantel & Lin précision : 60,8 mots les plus représentatifs dun sens = synonymes, hyperonymes ou hyponymes

18 18 Utilisation pour la désambiguïsation Stage de DEA effectué par Dany Sérichard Désambiguïsation sémantique utilisant les sens de mots découverts comme référence Variante de la méthode de Lesk simplifiée intersection entre la définition des sens candidats et le contexte de loccurrence à désambiguïser définition dun sens de mot : sous-ensemble des co-occurrents du mot contexte : fenêtre de X mots pleins centrée sur le mot cible à désambiguïser contexte optimal : entre 40 et 60 mots

19 19 Principes de la désambiguïsation M 1 (p 1 ) M 2 (p 2 ) M 3 (p 3 ) M 4 (p 4 ) M 5 (p 5 ) M 6 (p 6 ) M 7 (p 7 ) M 8 (p 8 ) M 9 (p 9 ) M 3 (p 24 ) M 5 (p 25 ) M 6 (p 26 ) M 20 (p 20 ) M 21 (p 21 ) M 22 (p 22 ) M 23 (p 23 ) M 9 (p 34 ) M 30 (p 30 ) M 31 (p 31 ) M 32 (p 32 ) M 33 (p 33 ) M 10 (p 10 ) M 11 (p 11 ) M 12 (p 12 ) M 13 (p 13 ) Contexte Sens 1 Sens 2 Sens 3 Score sens1 = 0 Score sens2 = Score sens3 = p 9 *p 34 p 3 *p 24 + p 5 *p 25 + p 6 *p 26 Sens attribué au contexte = Sens pour lequel le score est le plus grand si > seuil

20 20 Évaluation : constitution dune référence Annotation manuelle de phrases avec les sens de mots découverts phrases issues du journal Le Monde et du corpus JOC (cf. Romanseval) 3 mots BarrageBarrage hydraulique, routier, militaire LancementLancement bourse, média, engin FormationFormation groupe musical, dispositif, acquisition de connaissances, qualification, groupe politique pour chaque occurrence, choix dun seul des sens ou du sens Autre mise à lécart des occurrences pour lesquelles le degré daccord entre les annotateurs est insuffisant

21 21 Évaluation : mesures daccord entre annotateurs Degré dunanimité proportion des cas où tous les annotateurs sont en accord Taux dagrément par paires dannotateurs n : nombre de paires dannotateurs TA p = avec Taux dagrément corrigé par rapport au hasard mesure Kappa

22 22 Évaluation : résultats des mesures daccord Le sens majoritaire représente 57 % des instances restantes de Barrage (barrage hydraulique), 51 % de celles de Lancement (Autre), 79 % de celles de Formation (acquisition de connaissances)Unanimité TA p KRépartition Nombre dinstances Barrage (LM)0,630,870, Avant : 115 – Après : 104 Lancement (LM)0,380,740, Avant : 96 – Après : 89 Formation (LM)0,230,640, Avant : 116 – Après : 107 Barrage (JOC)0,940,980, Avant : 52 – Après : 51 Lancement (JOC)0,940,970, Avant : 50 – Après : 49 Formation (JOC)0,040,420, Avant :113 – Après : 82 Un des usages est très majoritaire dans tous les sous- corpus issus du JOC Les taux dagrément corrigés sont bons pour Barrage (0,90) et Lancement (0,81), mauvais pour Formation (0,455) Le nombre dinstances retirées est faible pour Barrage (7,2 %) et Lancement (5,5 %), plus important pour Formation (17,5 %).

23 23 Résultats de la désambiguïsation Vasilescu & Langlais : Lesk simplifié avec WordNet comme référence Senseval 2 : Lexical sample task Mesures base : choix en faveur du sens majoritaire BarrageLancementSenseval 2 non supervisé Senseval 2 supervisé Vasilescu Langlais Véronis Hyperlex P0,730,780,520,710,620,97 R0,730,70,520,710,61 R base 0,570,470,390,590,610,73

24 24 Pour conclure Méthode de découverte de sens fondée sur la classification non supervisée des cooccurrents du mot cible exploitant des relations de cooccurrence de 1 er et 2 nd ordre entre les cooccurrents du mot cible mettant laccent sur la « stabilité » des sens discriminés Extensions prise en compte de la catégorie morpho-syntaxique des mots rôle des mots composés Évaluation utilisation de mesures fondées sur des relations sémantiques plus variées que celles exploitées par Lin (cf. Banerjee & Pedersen) validation dans un cadre applicatif de lintérêt des sens discriminés, par ex. pour lexpansion de requêtes


Télécharger ppt "1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue."

Présentations similaires


Annonces Google