Dessine-moi une ambiguïté Une approche géométrique du calcul du sens Fabienne Venant Université Nancy 2, France Département de mathématiques, UQAM
2 Qui est le maître? - Mais « gloire » ne signifie pas « un bel argument écrasant », objecta Alice. - Quand j’emploie un mot, dit Humpty Dumpty avec un certain mépris, il signifie ce que je veux qu’il signifie, ni plus, ni moins. - La question est de savoir, dit Alice, si VOUS pouvez faire que les mêmes mots signifient tant de choses différentes. - La question est de savoir, dit Humpty Dumpty, qui est le maître, c'est tout..
3 L'ambiguïté au coeur du langage La signification est relative Ambiguïté – Pertinence – « Si par malheur on se comprenait, on ne pourrait plus s'accorder » (Beaudelaire) – Le jeu dans le langage est une condition d'existence et de production de la signification Place centrale de la polysémie
4 La polysémie Des sens différents – Consécration, triomphe: accéder à la gloire – Notoriété, réputation: faire la gloire de quelqu'un – Honneur, fierté: tirer gloire de quelque chose – Eclat, prestige: un plat sans gloire – Rayonnement de lumière: un christ en gloire Mais apparentés – Notion de grandeur, de mérite – Existence d'un noyau de sens
5 Un système gestaltiste Importance du contexte Le tout est plus que la somme des parties
6 Un processus d'optimalisation Notion de bonne forme Ambiguïté
7 Modèle Fonction potentielle définie par le cotexte Espace sémantique
8 espace sémantique (unidimensionnel) fonction potentielle un seul sens Sens précis
9 espace sémantique (unidimensionnel) fonction potentielle Deux sens incompatibles Ambiguïté
10 espace sémantique (unidimensionnel) fonction potentielle Deux sens co-présents Indétermination
11 Implémenter le modèle MODELE Espaces sémantiquesFonctions potentielles Construction automatique des espaces sémantiques (Ploux et Victorri 98) Sens hors contexte Sens en contexte Tâche de désambiguisation Méthode de calcul du sens corpus
Sens hors contexte Analyse d'un graphe de synonymie DES Atlas sémantique
13 Appréhender le noyau de sens Via un continuum de sens – Célébrité, gloire, notoriété, renom, réputation – Gloire, prestige, renom, réputation – Gloire, lustre, prestige, réputation – Gloire, lustre, prestige, rayonnement, splendeur, éclat – Beauté, gloire, lustre, magnificence, splendeur, éclat
14 Extrait du graphe de synonyme de gloire gloire triomphe apothéose apogée honneur éclat beauté prestige Cliques : - gloire, apogée, apothéose, triomphe - gloire, apothéose, honneur, triomphe - gloire, beauté, éclat - gloire, éclat, prestige
15 Espace sémantique de gloire LUMIERE TRIOMPHE FIERTE CELEBRITE ECLAT
Représentation du sens en contexte
17 Adjectif –Besoin de se rattacher à un nom Un coup sec, un visage sec –Changements de sens lors du passage à l’antéposition: complexes, non systématiques et difficiles à expliquer de façon globale Un certaine nouvelle, une nouvelle certaine Une méchante nouvelle, une nouvelle méchante Une méchante femme, une femme méchante Rendre compte de phénomènes linguistiques Nom – Facettes sémantiques Un livre rouge Un livre intéressant Ce livre rouge est très intéressant Verbe (Jacquet G.) – Influence du nom de la tête de complément Jouer de la guitare, jouer un cheval, jouer un rôle – Influence de la construction Jouer de la guitare, jouer avec une guitare
Prendre en compte le co-texte Influence du nom régissant un adjectif qualificatif
19 Visusyn: espace sémantique de sec, 94 cliques, 63 synonymes. Pauvre;sec;seul MAIGREBRUTALSEUL STERILE MANQUE D'EAU INSENSIBLE
20 Calcul du degré d’affinité Nombre d’occurrences dans le corpus Coup bref Coup maigre Coup maigrelet Coup sécot 67 0 Coup brusque Coup tranchant Coup sec Exemple : le nom coup Degré d’affinité cliques 90 % sec, brusque, bref, tranchant 12% sec, maigre, maigrelet, sécot
21 Fonction potentielle induite par le nom régissant Coup sec
22 Ambiguïté -alternative Homme sec
23 Indétermination ton sec
Etude sémantique du nom livre
25 Facettes sémantiques Composants sémantiques distinguables d’un tout global –Autonomie relationnelle Certains livres étaient des romans, d’autres des biographies Certains livres étaient des manuscrits, d’autres des imprimés –Autonomie compositionnelle Un livre rouge, un livre tâché Un livre exaltant, un livre difficile Ambiguités: deux livres, un livre léger
26 Unification des facettes * Ce plateau très lourd est couvert de forêts Ce livre très lourd est très intéressant
27 CONTENU, OEUVRE OBJET PUBLICATION
28 Sens de livre en contexte Cotexte adjectival –Influence de l’adjectif épithète au sein d’un syntagme nominal dont livre est la tête Cotexte verbal –Influence d’un verbe au sein d’un syntagme verbal dont livre est tête de complément
29 rouge ancien intéressant prochain
30 lire offrir tenirtraduire
Vers un calcul automatique du sens
32 Zones de sens dans l’espace sémantique de livre
33 Fonction caractéristique d’un zone de sens
34 Zones de sens dans l'espace de sec
35 Résultats Lire – 25 adjectifs – 23 verbes – 77% de réussite Sec – 50 noms – 26% de réussite, 50% de silence Erreurs – Synonymie partielle – Basses fréquences
36 Classes de sélection distributionnelle coup sec (coup, bruit, geste)brusque(coup, tentative, expérience) coup audacieux hardi, nouveau pour caractériser sémantiquement le cotexte calculées sur corpus – à partir des sorties de syntex des contextes lexico-syntaxiques des mots des fréquences
37 Espace distributionnel
38 Apports et limites des CSD 54% de réussite Pas de perte de résultat positif Des améliorations –Réduction du silence (14%) –Correction d’erreurs –Capture de nuances de sens
Prendre en compte la position de l’adjectif
40 Espace sémantique de méchant
41 Méchant Prendre en compte la position de l’adjectif
42
43 Conclusion et perspectives Un outil intéressant Utiliser les mathématiques du continu Enrichir le contexte pour lever les ambiguïtés – Offrir un joli livre Des espaces sémantiques globaux Passer au niveau de l'énoncé
44
45 Soit : u 1, u 2, …, u n les synonymes, c 1, c 2, …, c p les cliques, e 1,e 2,......,e m les noms, n ij le nombre d’occurrences du couple (e i, u j ) dans le corpus. Nombre moyen théorique Degré d’affinité du nom e i avec l’adjectif u j Calcul du degré d’affinité Degré d’affinité a ik du nom e i avec la clique c k où le facteur de pondération p ij vaut
46 Appelons e 1,e 2,......,e m les noms, u 1, u 2,...u n les synonymes, c 1, c 2,...,c c les cliques. La valeur de la fonction associée au nom e i au point de coordonnées (x ;y) est donnée par : où (x i ;y i ) sont les coordonnées du point représentant la clique c i dans l’espace sémantique. b(i, k) =2 a ik -0.8 où a ik est le degré d’affinité du nom e i avec la clique c k. Fonction de pertinence d’un nom calcul initial
47 En première approximation, une clique est une nuance de sens. L’espace sémantique est l’espace vectoriel engendré par les synonymes. Une clique est un point dans cet espace. Coordonnées d’une clique c: calculées en fonction des synonymes qu’elles contient. Soient u1, u2, …, un les synonymes contenus dans c, appelons (x 1, x 2,….;, x n ) les coordonnées de c, Construction de l’espace sémantique
Calcul du sens d’un verbe
49
50 Aventurer, compromettre, exposer, jouer risquer Jouer, manier, toucher, tripoter Incarner, interpréter, jouer, représenter Badiner, blaguer, jouer, plaisanter, taquiner
51 Copier, imiter, jouer, mimer, reproduire, simuler Aventurer, compromettre, exposer,jouer risquer Batifoler, folâtrer, jouer, plaisanter, s’amuser fille +construction transitive fille +construction V PP ( avec NP)
52 Les limites de la méthode jouer la fille sérieuse jouer avec sa fille En considérant les têtes nominales de compléments (fille) d’une part, et la construction syntaxique (V+SN / V+SP (avec +SN)) d’autre part.
53 Les limites de la méthode « jouer du luth » « jouer à Wimbledon » fréquences trop faibles calcul peu fiable remplacer luth par l’ensemble de ses synonymes tout aussi peu fréquents (lyre, mandoline,…) ne résout pas le cas de Wimbledon
54 Construire des classes de sélection distributionnelle Le sens d’un prédicat est influencé par ses arguments: jouer du luth, jouer de la guitare, jouer de son charme. luth {luth ; guitare ; violon} énoncés interprétables par notre modèle originalité : les C.S.D. dépendent du contexte –jouer du luth {luth ; guitare ; violon} –déposer un luth {luth ; objet ; chose ; outil} –déposer Paul {Paul ; personne ; individu}
55 Le journal Le Monde sur 10 ans, analysé par Syntex(Bourigault) 200 Millions de mots 20 Millions de triplets –{compter (V) ; PREP_SUR ; ami (N)} (11 occ.) un triplet deux contextes :- « compter(V).PREP_SUR » (8860 occ.) - « PREP_SUR.ami(N) » (88 occ.) deux mots : - compter(V) (81485 occ.) - ami(N) (38856 occ.) Des C.S.D., comment ?
56 Un espace distributionnel Engendré par les contextes lexico-syntaxiques – être recteur de sec en tant qu’épithète (sec.EPI) – être complément d’objet du verbe donner (donner.OBJ) Les points de l'espace sont les mots du corpus Les coordonnées d'un point sont fonction de la fréquence d'occurence du mot dans le contexte considéré Permet le calcul de distances et la catégorisation Classe d'un nom dans un contexte donné: - restriction au sous-espace pertinent - coup sec: étude des noms attestés comme recteur de sec dans le corpus, dans l'espace engendré par les CLS concernés (au moins un des noms est utilisé dans ce contexte)
57 Des espaces continus… Personnes Cours d’eau Monts
58
59 (x k1, x k2,…., x kn ) Soient deux cliques ck et cl de coordonnées respectives, (x l1, x l2,…., x ln ) et Distance euclidienne : Distance du chi 2 Une métrique pour l’espace des cliques