La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales Olivier Ferret Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue.

Présentations similaires


Présentation au sujet: "Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales Olivier Ferret Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue."— Transcription de la présentation:

1 Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales
Olivier Ferret Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue (LIC2M) CEA – LIST Fontenay-aux-Roses

2 Problématique Pré-requis de la désambiguïsation sémantique
disposer d’un inventaire des sens des mots Problèmes posés par les inventaires utilisables en TAL réseaux lexico-sémantiques de type WordNet nature des sens distinctions de sens trop fines par rapport à une utilisation en TAL 41 sens pour le verbe run dans WordNet incomplétude des sens les domaines de spécialité introduisent constamment des sens nouveaux  domaine nucléaire : piscine, crayon caractérisation des sens principalement au travers de relations de type hyperonymie, synonymie absence de caractérisation des contextes d’occurrence, ce qui est le plus utile pour la désambiguïsation sémantique piscine (général) : nageur, natation, maître-nageur, … piscine (nucléaire) : réacteur, centrale, combustible, radiation, …

3 Définir des sens à partir d’un corpus
Une solution possible différencier les sens des mots à partir de leur usage dans un corpus 3 types d’approches Classification non supervisée des mots d’un corpus  construction de classes de synonymes (Pantel & Lin) chaque mot est caractérisé par ses cooccurrents dans le corpus 1 sens pour chaque classe d’appartenance d’un mot Classification non supervisée des occurrences d’un mot (Schütze, Pedersen & Bruce, Purandare) chaque occurrence est caractérisée par un ensemble de traits : mots environnants, catégorie des mots environnants, … Classification non supervisée des cooccurrents d’un mot (Véronis, Dorow & Widdows, Rapp) cooccurrents regroupés selon les relations qu’ils entretiennent entre eux

4 Principes du travail présenté
Méthode fondée sur la classification des cooccurrents d’un mot (3ème approche) Point de départ : réseau de cooccurrences lexicales nœud : mot du corpus arête : relation de cooccurrence dans le corpus entre les 2 mots liés Pour chaque mot mi dont on veut différencier les sens délimitation du sous-graphe constitué des cooccurrents de mi et de leurs relations construction d’une matrice de similarité des cooccurrents de mi application d’une variante de l’algorithme Shared Nearest Neighbors (SNN ; Ertöz, Steinbach & Kumar) regroupement des cooccurrents de mi en C classes, C n’étant pas fixé a priori  C sens élimination des cooccurrents sans relation avec les sens distingués

5 Les réseaux de cooccurrences lexicales
Méthode de construction pré-traitement des textes : sélection des mots pleins comptage des cooccurrences au sein d'une fenêtre glissante accent mis sur les relations sémantiques et pragmatiques taille : 20 mots (environ 50 mots avant sélection) pas d'ordre : m1 - m2 équivalent à m2 - m1 respect des frontières de texte cohésion entre mots : information mutuelle normalisée filtrage des cooccurrences peu fréquentes fréquence  13 ; cohésion  0,13 2 réseaux construits français : 24 mois du journal Le Monde lemmes et cooccurrences anglais : 2 ans du journal Los Angeles Times (TREC) lemmes et cooccurrences taille des corpora ~ 40 millions de mots

6 Exemple : graphe des cooccurrents de organe

7 Matrice de similarité entre cooccurrents
2 types de similarité testés similarité fondée sur une cooccurrence de premier ordre similarité plus large, fondée sur une cooccurrence de premier et de second ordre Cooccurrence de 1er ordre similarité entre 2 mots : mesure de la cohésion entre ces 2 mots dans le réseau Cooccurrence de 1er et de 2nd ordre 2 mots peuvent être proches sans être directement cooccurrents dans un texte ; souvent le cas avec les synonymes chaque mot est caractérisé par l’ensemble de ses cooccurrents pondération de chaque cooccurrent par sa cohésion avec le mot similarité entre 2 mots = mesure de la similarité entre les 2 ensembles les représentant utilisation de la mesure cosinus

8 Algorithme de classification : vue d’ensemble
Algorithme Shared Nearest Neighbors classification  détection de composantes de forte densité dans un graphe de similarité matrice de similarité entre cooccurrents  graphe de similarité non orienté similarité non nulle entre 2 cooccurrents  arête du graphe 3 grandes phases éclaircissement et transposition du graphe de similarité détermination des germes des futurs sens et filtrage des cooccurrents sans relation avec ces sens construction des sens

9 Algorithme de classification : 1ère phase
Éclaircissement du graphe de similarité élimination des arêtes correspondant aux similarités les moins significatives en pratique, conservation pour chaque cooccurrent des arêtes en direction de ses k plus proches voisins Transposition du graphe de similarité construction du graphe des plus proches voisins partagés 2 cooccurrents y sont liés s’ils sont liés dans le graphe initial force du lien : nombre de voisins partagés par les 2 cooccurrents abstraction / aux valeurs absolues de similarité, après élimination des valeurs les plus faibles  raisonnement en termes de densité de liens

10 Algorithme de classification : 2ème phase
Détermination des germes de sens notion de lien fort : 2 cooccurrents sont fortement liés si leur nombre de voisins partagés dépasse un seuil calcul pour chaque cooccurrent de son nombre de liens forts germe de sens : cooccurrent dont le nombre de liens forts est supérieur à un seuil Filtrage des cooccurrents élimination des cooccurrents dont le nombre de liens forts est inférieur à un seuil Seuils adaptés aux valeurs considérées  exprimés comme des quantiles de leur distribution liens forts : distribution du nombre de voisins partagés germes et filtrage : distribution du nombre de liens forts

11 Algorithme de classification : 3ème phase
Rattachement des cooccurrents non filtrés aux germes de sens rattachement au germe le plus proche à condition que leur proximité (i.e. nombre de voisins partagés) soit supérieure à un seuil Fusion des sens proches possibilité de rattacher un germe de sens à un autre de la même façon que pour les autres cooccurrents Suppression des sens faiblement représentés les sens ne rassemblant que peu de cooccurrents sont éliminés  sens le plus souvent très proches de sens plus importants Élargissement des sens rattachement de cooccurrents moins proches sur des bases plus solides proximité moyenne avec les cooccurrents d’un sens > seuil

12 Un exemple : le mot barrage
Cooccurrence de 1er ordre 1.1 manifestant, forces_de_l’ordre, préfecture, agriculteur, protester, incendier, calme, pierre 1.2 conducteur, routier, véhicule, poids_lourd, camion, permis, trafic, bloquer, voiture, autoroute 1.3 fleuve, lac, rivière, bassin, mètre_cube, crue, amont, pollution, affluent, saumon, poisson 1.4 blessé, casque_bleu, soldat, milicien, tir, milice, convoi, évacuer, croate, milicien, combattant 1.3 – 2.1  barrage hydraulique 1.4 – 2.3  barrage frontière 1.2 – 2.2  barrage routier (camionneurs) 1.1  barrage routier (agriculteurs) manifestations à caractère professionnel 2.1 eau, mètre, lac, pluie, rivière, bassin, fleuve, site, poisson, affluent, montagne, crue, vallée 2.2 conducteur, trafic, routier, route, camion, chauffeur, voiture, chauffeur_routier, poids_lourd 2.3 casque_bleu, soldat, tir, convoi, milicien, blindé, milice, aéroport, blessé, incident, croate Cooccurrence de 2nd ordre

13 D’autres exemples (au 1er ordre)
Organe 1 patient, transplantation, greffe, malade, thérapeutique, médical, médecine, greffer, rein 2 procréation, embryon, éthique, humain, relatif, bioéthique, corps_humain, gène, cellule 3 constitutionnel, consultatif, constitution, instituer, exécutif, législatif, siéger, disposition 4 article, hebdomadaire, publication, rédaction, quotidien, journal, éditorial, rédacteur Mouse 1 compatible, sofware, computer, machine, user, desktop, pc, graphics, keyboard, device 2 laboratory, researcher, cell, gene, generic, human, hormone, research, scientist, rat Party 1 ballroom, cocktail, champagne, guest, bash, gala, wedding, birthday, invitation, festivity 2 caterer, uninvited, party-goers, black-tie, hostess, buffet, glitches, napkins, catering 3 candidate, democrat, republican, gubernatorial, presidential, partisan, reapportionment

14 Plus globalement LM-1 LM-2 LAT-1.no LAT-2.no nombre de mots 17 261 6 177 nb. de mots avec au moins 1 sens 7 673 (44,4%) 7 376 (42,7%) (41.8%) 2 406 (39%) nombre de sens par mot 2,8 2,2 1,9 1,5 nombre de mots par sens 16,1 16,3 20,2 18,9 LM-x : réseau issu du Monde LAT-x.no : réseau issu du LA Times ; noms uniquement x = 1 : cooccurrence 1er ordre ; x = 2 : cooccurrence 2nd ordre Réseaux de cooccurrences faiblement représentatifs du sens de plus de la moitié des mots

15 Évaluation : protocole
Principe général comparaison avec une ressource existante, en l’occurrence WordNet 1.7.1 but : s’assurer que les sens découverts ne sont pas globalement aberrants évaluation réalisée pour un ensemble de noms en anglais (LAT-x.no) non ambigus du point de vue morpho-syntaxique Protocole proposé par Pantel & Lin appariement d’un sens trouvé pour un mot avec un des synsets de ce mot dans WordNet mesure de similarité entre un sens et un synset appariement si similarité(sens, synset) > seuil accord avec un jugement humain : 88% mesure de précision seulement : proportion de sens s’appariant avec un synset de WordNet

16 Évaluation : appariement sens - synset
Similarité sens - synset moyenne des similarités entre les N (N=4) mots les plus représentatifs du sens et le synset Similarité mot – synset S(m) : ensemble des synsets contenant le mot m similarité(m, synset) = max similarité(synset, s) Similarité de 2 synsets mesure proposée par Lin, fondée sur la seule hyperonymie s  S(m) geological-formation (s) natural-elevation shore s : synset subsumant les synsets s1 et s2 P(s) : probabilité du synset s dans un corpus de référence (SemCor) hill (s1) coast (s2)

17 Évaluation : résultats
Choix des N (N=4) mots les plus représentatifs d’un sens (1) nombre de liens forts dans le graphe des voisins partagés (2) choix optimal permettant de maximiser la précision de l’appariement sens - synset LAT-1.no LAT-2.no (1) nombre de liens forts 19,4 20,8 (2) choix optimal 56,2 63,7 Méthode proposée mots les plus représentatifs d’un sens = liés au contexte d’usage Pantel & Lin précision : 60,8 mots les plus représentatifs d’un sens = synonymes, hyperonymes ou hyponymes

18 Utilisation pour la désambiguïsation
Stage de DEA effectué par Dany Sérichard Désambiguïsation sémantique utilisant les sens de mots découverts comme référence Variante de la méthode de Lesk simplifiée intersection entre la définition des sens candidats et le contexte de l’occurrence à désambiguïser définition d’un sens de mot : sous-ensemble des co-occurrents du mot contexte : fenêtre de X mots pleins centrée sur le mot cible à désambiguïser contexte optimal : entre 40 et 60 mots

19 Principes de la désambiguïsation
Sens 1 Scoresens1 = 0 Contexte M10 (p10) M11 (p11) M12 (p12) M13 (p13) M1 (p1) M2 (p2) M3 (p3) M4 (p4) M5 (p5) M6 (p6) M7 (p7) M8 (p8) M9 (p9) Sens attribué au contexte = Sens pour lequel le score est le plus grand si > seuil Sens 2 Scoresens2 = M3 (p24) M5 (p25) M6 (p26) M20 (p20) M21 (p21) M22 (p22) M23 (p23) p3*p24 + p5*p25 + p6*p26 Sens 3 M9 (p34) M30 (p30) M31 (p31) M32 (p32) M33 (p33) Scoresens3 = p9*p34

20 Évaluation : constitution d’une référence
Annotation manuelle de phrases avec les sens de mots découverts phrases issues du journal Le Monde et du corpus JOC (cf. Romanseval) 3 mots Barrage  hydraulique, routier, militaire Lancement  bourse, média, engin Formation  groupe musical, dispositif, acquisition de connaissances, qualification, groupe politique pour chaque occurrence, choix d’un seul des sens ou du sens Autre mise à l’écart des occurrences pour lesquelles le degré d’accord entre les annotateurs est insuffisant

21 Évaluation : mesures d’accord entre annotateurs
Degré d’unanimité proportion des cas où tous les annotateurs sont en accord Taux d’agrément par paires d’annotateurs n : nombre de paires d’annotateurs TAp = avec Taux d’agrément corrigé par rapport au hasard mesure Kappa

22 Évaluation : résultats des mesures d’accord
Unanimité TAp K Répartition Nombre d’instances Barrage (LM) 0,63 0,87 0,83 Avant : 115 – Après : 104 Lancement (LM) 0,38 0,74 0,66 Avant : 96 – Après : 89 Formation (LM) 0,23 0,64 0,58 Avant : 116 – Après : 107 Barrage (JOC) 0,94 0,98 0,97 Avant : 52 – Après : 51 Lancement (JOC) 0,96 Avant : 50 – Après : 49 Formation (JOC) 0,04 0,42 0,33 Avant :113 – Après : 82 Les taux d’agrément corrigés sont bons pour Barrage (0,90) et Lancement (0,81), mauvais pour Formation (0,455) Un des usages est très majoritaire dans tous les sous-corpus issus du JOC Le nombre d’instances retirées est faible pour Barrage (7,2 %) et Lancement (5,5 %), plus important pour Formation (17,5 %). Le sens majoritaire représente 57 % des instances restantes de Barrage (barrage hydraulique), 51 % de celles de Lancement (Autre), 79 % de celles de Formation (acquisition de connaissances)

23 Résultats de la désambiguïsation
Vasilescu & Langlais : Lesk simplifié avec WordNet comme référence Senseval 2 : Lexical sample task Mesures base : choix en faveur du sens majoritaire Barrage Lancement Senseval 2 non supervisé Senseval 2 supervisé Vasilescu Langlais Véronis Hyperlex P 0,73 0,78 0,52 0,71 0,62 0,97 R 0,7 0,61 Rbase 0,57 0,47 0,39 0,59

24 Pour conclure Méthode de découverte de sens Extensions Évaluation
fondée sur la classification non supervisée des cooccurrents du mot cible exploitant des relations de cooccurrence de 1er et 2nd ordre entre les cooccurrents du mot cible mettant l’accent sur la « stabilité » des sens discriminés Extensions prise en compte de la catégorie morpho-syntaxique des mots rôle des mots composés Évaluation utilisation de mesures fondées sur des relations sémantiques plus variées que celles exploitées par Lin (cf. Banerjee & Pedersen) validation dans un cadre applicatif de l’intérêt des sens discriminés, par ex. pour l’expansion de requêtes


Télécharger ppt "Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales Olivier Ferret Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue."

Présentations similaires


Annonces Google