Sémantique lexicale: quelques points de perspective. P. Saint-Dizier, CNRS - IRIT -Approche en sémantique lexicale: notions de sens, polysémie, représentation du sens, métaphore (Véronique Moriceau). -Valorisation sur des applications langue et WEB (Farah Benamara, Olfa Jenhani, …)
Point de perspective But: fournir des éléments de méthode pour organiser les usages d'un lexème polysémique en unités de sens qui soient opérationnelles en TALN. Perspective: entre lexicographie et IA, adapté au TALN. Approche Générative, découpage 'incrémentalement' cohérent des sens et sous-sens. Intégrer: observations de corpus, données des dictionnaires, inférences et connaissances du monde, relations sémantiques et paradigmes de représentation du sens des unités lexicales.
Approche autorisant: des sens larges, assez abstraits, permettant l'inclusion de variations, de métaphores et de métonymies. Modèle d'une forme de créativité ou d'expansion générative de la langue, approche caractéristique du TALN, une analyse des phénomènes à un niveau adapté de généralité, d'explication, de prédictibilité et d'adéquation linguistique, une analyse et une modélisation des relations complexes entre prédicat et argument dans l'élaboration du sens,
une classification des sens, hiérarchisée, basée sur des observations directes mais aussi sur notre connaissance du monde, ou du domaine considéré, une représentation formelle, la plus effective possible, du sens, par le biais de plusieurs dispositifs sémantiques: attributs-valeurs (+ types), LCS (prédicats), relations, inférences (simples), etc. Un traitement à grande échelle grâce aux systèmes de classes de verbes, fondées sur divers critères.
Elements de méthode Emploi de Corpus diversifiés + dictionnaires. Découpage manuel en larges pôles essentiellement au vu du sens véhiculé identification des usages fondamentaux et des formes dérivées (métaphores, métonymies, formes figées, …) pour chaque pôle. caractérisation générale de la structure: sous-catégorisation, restrictions de sélection, représentation globale du sens (LCS). attention à un certain réalisme par rapport à la complexité des ressources à mettre en œuvre. découpage d'un pôle en sous-sens si approprié, via des critères essentiellement conceptuels et de connaissance du monde. affinement des représentations associées. Caractérisation des variations d'usage. apparition éventuelle de sens métaphoriques très répandus, accédant à une certaine autonomie d'usage.
Les ressources sémantiques lexicales Toute la complexité du langage demeure, même dans des traitements partiels d’énoncés du langage: ambiguïtés, polysémie, variations de sens, alternances, conjonctions, référents, erreurs, etc. Ressources prédicatives: complexité de la combinatoire avec des arguments: modèles pour la sous-détermination, la compositionalité. Représentation du sens avec granularité adéquate : pouvoir explicatif et prédictif, emploi d’un langage à base de primitives (LCS): pb des primitives, mais quelles alternatives ? Réutilisation: – grande difficulté à réutiliser des ressources (WN) ou des recommandations (EAGLES) existantes, –aléas de l’acquisition automatique, –Une analyse de la notion de ‘sens’ peut permettre de positionner différemment la notion de réutilisation des ressources, trop souvent de nature lexicographique..
Notion de sens et extraction de connaissances Compromis entre la vision locale de la lexicographie et l’universalisme de l’IA, Compromis entre précision, efficacité et pouvoir explicatif, Privilégier des systèmes à base de règles (simples) qui organisent la connaissance lexicale plutôt que des listes d’usages, Pouvoir rendre compte des usages de base d’un lexème, à travers une typologie de sens et des usages dérivés, au sein d’un même sens, Déterminer un niveau de granularité qui puisse autoriser un niveau raisonnable d’expansion générative lexicale. Organisation des sens, hiérarchisée, via une observation directe et une connaissance du monde, Représentation formelle : attributs-valeurs, LCS, relations, etc. Généralisation sur classes de verbes et sous classes.
L’apport des théories des prototypes: Concepts lexicaux définis, un complément de structuration: - pas seulement par des critères mais par des info conceptuelles structurées: 1. par familles de ressemblances, 2. par des notions de protypicalité ou d’importance. Les mots polysémiques construisent un graphe de sens reliés par des notions de ressemblance, largement métaphoriques (Lakoff, Nunberg, …) Liens entre sens et sens en contexte: - relations de dérivation de sens entre les sens, principes généraux: métaphores, métonymies, généralisation, spécialisation (facettes) ou vues, transformations imagées, etc.
Représentation des sens d’un léxème Plusieurs représentations indépendantes (?) Plusieurs représentations avec recouvrements: analyser lesquels (bas niveau, etc…) Plusieurs représentations subsumées par un schéma générique local au niveau d’une classe (pour les verbes) Une représentation germe unique avec des règles pragmatiques pour construire les sens (cas de ‘bon’ infiniment polysémique)
Première analyse : - Stratégies de découpage diversifiées, cas du quasi-continuum - Traits distinctifs / traits mineurs, - Sens de 'base' comme germe ou prototype, par delà les emplois, Couper: établissement des sens, amplitudes différentes, formes semi- figées Examen: polysémique ou sens unique avec facettes ? Bon: infiniment polysémique, ou sens très abstrait, sous spécifié, avec procédures compositionnelles ? Statut logique de ce prédicat ? Lire: continuum de sens: lire l'arabe/ l'allemand/ Kant / la Critique de la Raison..
Couper 1. Interruption d'un processus plus ou moins continu, idée de flux: argent/ énergie/ informations/ fonctionnement continu / ressources plus générales. Caractérisation difficile car très large: élaborer des constantes sémantiques caractérisant le flux, Inclure: des analogies / des transpositions par métaphore / etc.
2. Séparation physique: sous-sens liés à la dimension inchoative (conséquences sur le 'monde'): - complète, - entaille, - séparer qq de qqch/qq - raccourcir, diminuer - traverser (la route coupe la forêt) - mordre (froid coupe la peau) Très nombreuses métaphores pour chaque sous-sens. 3. QQ formes plus restreintes: tailler, couper du vin, ne pas couper à qqch.
Pousser Déplacer, bousculer25% Stimuler (arité 2)6 % Inciter (à) (arité 3)18 % Emmettre (un son, un avis)4 % Exagérer (métaphore ?)17 % Croître (intrans.)30 % Distinguer les sens: arité,sous-cat + prépositions, restrictions de sélection, alternances Une représentation distincte par sens.
Sous-spécification en LCS Recevoir: sens direct: [event CAUSE([thing I ], [event GO+poss ([thing J ], [path FROM+poss ([thing I ], TO+poss ([thing K ])])] traitement des dérivés métaphoriques (psy, epist, …): D, [event CAUSE([thing I ], [event GO+D ([thing J ], [path FROM+D ([thing I ], TO+D ([thing K ])])] Aller: P: [path ] [event CAUSE([thing I ], [event GO+loc([thing I ], P ] Composition: rept verbe (rept PP)
Couper: A X I J [event CAUSE([thing I ] [event BECOME+A(X, [path TOWARDS+A ([state Discontinuous ] ) [manner ……. ])])] ) J: obj2 J = objet physique, A = loc, X = [thing J ] Choix par défaut J = communication, A = + comm, X = [thing FLOW-OF([thing J ]) ] J = ressource, A = +char+ident, X = [thing Availability-Of([thing J ])]
Introduction de données du lexique génératif Bon: nom A de type et de Qualia: [ …. Telic: T ….. ] Y : , f i T, [state BE+char+ident ([thing I ], [propertyAbility-to([fi(Y, _ )] = high ])]) - Bien identifier la dénotation des champs sous-spécifiés. - en mesurer la complexité et l’utilité. - définir l’unification et la subsomption de ce type de structures pour le calcul.
Sémantique de la préposition Contre 1. Localisation X [ place NEXT_TO +loc, +/-c ([ place/thing X])] Dans l’espace (proximité / contact) Pousser le lit contre le mur. 2. Opposition X [ manner AGAINST +loc ([ event/thing X])] Nager contre le courant. 3. But - Protection / défense Un sirop contre la toux. X [event FOR +comm ([ event/thing X] 4. Echange X, Y [ path EXCH +poss ([ thing/event X]), ([ thing/event Y])] J’échange mon entrée contre ton dessert. 5. Proportion / rapport 9 voix contre 12. X [ amount AGAINST +comm ([amount X])]
De nombreuses difficultés Influence des arguments sur la sémantique du prédicat: fragilité et variabilité de certains sens, Ambiguïtés de certains usages entre sens. Différents types d’inférences peuvent être faites selon les arguments. Partager: -diviser, partager : gâteaux, ressources financières, etc. causalité marquée; mais: logement, ressources (entre programmes) -Avoir en commun: des responsabilités, des idées, des principes, pas de causalité marquée; mais ce qui est partagé l’est plus ou moins. Totalement ambigu: partager un repas.
Restrictions de sélection sur les usages Pousser, sens2 = stimuler : sujet: elt. Psycho./attitude activité économique Humaincollectif humain objet psychologique institution Objet1attitude Humainprocédureobj. Physique objet financier fonction Partie de développe instance génère Crée, suit Gère, produit
Les ressources Description de 1700 sens de verbes, français/espagnol/catalan Info sémantique: grilles thématiques, LCS pour plusieurs classes Description des prépositions du français + qq locutions prépositives.
Les projets Essentiellement autour du WEB, dans un cadre symbolique, sur des domaines ciblés: - extraction de connaissances de pages WEB, - extracteur de contraintes et de règles, - résumé automatique liés à des requêtes de type mot-clés, - production de réponses coopératives, - WEB et NLG: typologie de la génération. Outils: ontologies, sémantique lexicale, représentation des connaissances du domaine, grammaire locales et stratégies d’analyse-génération.