Sémantique lexicale: quelques points de perspective. P. Saint-Dizier, CNRS - IRIT -Approche en sémantique lexicale: notions de sens, polysémie, représentation.

Slides:



Advertisements
Présentations similaires
Définitions Analyse documentaire
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Système d'Information
Urbanisation de Systèmes d'Information
Les ressources lexicales équipe ILPL IRIT: contenu et portabilité en syntaxe et sémantique Analyse, même partielle, génération (incrémentale), lexicalisation.
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
Continuité des apprentissages Ecole-Collège mars 2008 J Borréani IA-IPR mathématiques.
"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"
DEMARCHES PEDAGOGIQUES en PSE
La compréhension en lecture, J. Giasson
Évaluer pour faire apprendre dans une approche par compétences
L’observation réfléchie de la langue au cycle 3
1- Accueil et introduction Cours MGP Accueil et introduction Gilles Corriveau Maîtrise en Gestion de Projet UQTR Automne 1998.
INFO-MED Réseau d information méditerranéen Problématique La production et la maîtrise des savoirs contribuent aujourdhui à laccroissement des valeurs.
Principes de la technologie orientée objets
Marketing Engineering
1 NEGOCIATION DUN ACCORD COLLECTIF NATIONAL SUR LA CLASSIFICATION DES POSTES ET SUR LES BAREMES DES REMUNERATIONS DE BASE Réunion du 3 octobre 2007.
Initiation à la conception de systèmes d'information
B2i Lycée Circulaire BO n°31 du 29/08/2013.
La logique d ’un programme par compétences
Introduction à la conception de Bases de Données Relationnelles
Le Travail Collaboratif ...
RDF(S)
Entre construction théorique et mise en œuvre opérationnelle
Techniques de test Boulanger Jean-Louis.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Travailler avec des documents patrimoniaux. Quest quun document patrimonial ? Quest quun document patrimonial ? " Traces et œuvres que les générations.
MOT Éditeur de modèles de connaissances par objets typés
Présentation du mémoire
Chapitre 3 Syntaxe et sémantique.
Patrons de conceptions de créations
Bases de données phénotypique et ontologie
Quelques principes de référence pour l’évaluation des systèmes éducatifs Alain Mingat Décembre 2013.
ANALYSE METHODE & OUTILS
Paradigmes des Langages de Programmation
Y a t-il une vie avant SI et CIT ?
Paradigmes des Langages de Programmation
La progressivité des apprentissages par niveaux
Rencontre des écoles ciblées du secondaire 22 mars 2004
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Une pédagogie de l’activité pour développer des compétences transversales Claire Herviou Alain Taurisson Juin 2003.
Algorithmes et Programmation
© Petko ValtchevUniversité de Montréal Février IFT 2251 Génie Logiciel Conception Hiver 2002 Petko Valtchev.
QRA, partie II: gestion des données Trousse de formation 2: le suivi de l'abus des drogues: politiques et pratiques.
A propos de L’intelligence du social :
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Introduction et Généralités sur l’Algorithmique
Du discours aux modèles… Une tentative d’articulation
Décision incertaine et logistique : Grille typologique
La famille est un système ouvert :
Initiation aux SGBD Frédéric Gava (MCF)
Chapitre 2 Rappels objet et Présentation des diagrammes UML
Chapitre 2 Rappels objet et Présentation des diagrammes UML
Le Traitement Automatique des Langues (TAL)
Nouvelles Technologies Internet & Mobile
Introduction à la Programmation Orientée Objet
Progression/Programmation – Français (1/3)
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Initiation aux bases de données et à la programmation événementielle
Démarche d’enseignement de l’APL : analyser
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
Transcription de la présentation:

Sémantique lexicale: quelques points de perspective. P. Saint-Dizier, CNRS - IRIT -Approche en sémantique lexicale: notions de sens, polysémie, représentation du sens, métaphore (Véronique Moriceau). -Valorisation sur des applications langue et WEB (Farah Benamara, Olfa Jenhani, …)

Point de perspective But: fournir des éléments de méthode pour organiser les usages d'un lexème polysémique en unités de sens qui soient opérationnelles en TALN. Perspective: entre lexicographie et IA, adapté au TALN. Approche Générative, découpage 'incrémentalement' cohérent des sens et sous-sens. Intégrer: observations de corpus, données des dictionnaires, inférences et connaissances du monde, relations sémantiques et paradigmes de représentation du sens des unités lexicales.

Approche autorisant:  des sens larges, assez abstraits, permettant l'inclusion de variations, de métaphores et de métonymies. Modèle d'une forme de créativité ou d'expansion générative de la langue, approche caractéristique du TALN,  une analyse des phénomènes à un niveau adapté de généralité, d'explication, de prédictibilité et d'adéquation linguistique,  une analyse et une modélisation des relations complexes entre prédicat et argument dans l'élaboration du sens,

 une classification des sens, hiérarchisée, basée sur des observations directes mais aussi sur notre connaissance du monde, ou du domaine considéré,  une représentation formelle, la plus effective possible, du sens, par le biais de plusieurs dispositifs sémantiques: attributs-valeurs (+ types), LCS (prédicats), relations, inférences (simples), etc. Un traitement à grande échelle grâce aux systèmes de classes de verbes, fondées sur divers critères.

Elements de méthode Emploi de  Corpus diversifiés + dictionnaires. Découpage manuel en larges pôles essentiellement au vu du sens véhiculé  identification des usages fondamentaux et des formes dérivées (métaphores, métonymies, formes figées, …) pour chaque pôle.  caractérisation générale de la structure: sous-catégorisation, restrictions de sélection, représentation globale du sens (LCS).  attention à un certain réalisme par rapport à la complexité des ressources à mettre en œuvre.  découpage d'un pôle en sous-sens si approprié, via des critères essentiellement conceptuels et de connaissance du monde.  affinement des représentations associées. Caractérisation des variations d'usage.  apparition éventuelle de sens métaphoriques très répandus, accédant à une certaine autonomie d'usage.

Les ressources sémantiques lexicales Toute la complexité du langage demeure, même dans des traitements partiels d’énoncés du langage: ambiguïtés, polysémie, variations de sens, alternances, conjonctions, référents, erreurs, etc. Ressources prédicatives: complexité de la combinatoire avec des arguments: modèles pour la sous-détermination, la compositionalité. Représentation du sens avec granularité adéquate : pouvoir explicatif et prédictif, emploi d’un langage à base de primitives (LCS): pb des primitives, mais quelles alternatives ? Réutilisation: – grande difficulté à réutiliser des ressources (WN) ou des recommandations (EAGLES) existantes, –aléas de l’acquisition automatique, –Une analyse de la notion de ‘sens’ peut permettre de positionner différemment la notion de réutilisation des ressources, trop souvent de nature lexicographique..

Notion de sens et extraction de connaissances Compromis entre la vision locale de la lexicographie et l’universalisme de l’IA, Compromis entre précision, efficacité et pouvoir explicatif, Privilégier des systèmes à base de règles (simples) qui organisent la connaissance lexicale plutôt que des listes d’usages, Pouvoir rendre compte des usages de base d’un lexème, à travers une typologie de sens et des usages dérivés, au sein d’un même sens, Déterminer un niveau de granularité qui puisse autoriser un niveau raisonnable d’expansion générative lexicale. Organisation des sens, hiérarchisée, via une observation directe et une connaissance du monde, Représentation formelle : attributs-valeurs, LCS, relations, etc. Généralisation sur classes de verbes et sous classes.

L’apport des théories des prototypes: Concepts lexicaux définis, un complément de structuration: - pas seulement par des critères mais par des info conceptuelles structurées: 1. par familles de ressemblances, 2. par des notions de protypicalité ou d’importance. Les mots polysémiques construisent un graphe de sens reliés par des notions de ressemblance, largement métaphoriques (Lakoff, Nunberg, …) Liens entre sens et sens en contexte: - relations de dérivation de sens entre les sens, principes généraux: métaphores, métonymies, généralisation, spécialisation (facettes) ou vues, transformations imagées, etc.

Représentation des sens d’un léxème Plusieurs représentations indépendantes (?) Plusieurs représentations avec recouvrements: analyser lesquels (bas niveau, etc…) Plusieurs représentations subsumées par un schéma générique local au niveau d’une classe (pour les verbes) Une représentation germe unique avec des règles pragmatiques pour construire les sens (cas de ‘bon’ infiniment polysémique)

Première analyse : - Stratégies de découpage diversifiées, cas du quasi-continuum - Traits distinctifs / traits mineurs, - Sens de 'base' comme germe ou prototype, par delà les emplois, Couper: établissement des sens, amplitudes différentes, formes semi- figées Examen: polysémique ou sens unique avec facettes ? Bon: infiniment polysémique, ou sens très abstrait, sous spécifié, avec procédures compositionnelles ? Statut logique de ce prédicat ? Lire: continuum de sens: lire l'arabe/ l'allemand/ Kant / la Critique de la Raison..

Couper 1. Interruption d'un processus plus ou moins continu, idée de flux: argent/ énergie/ informations/ fonctionnement continu / ressources plus générales. Caractérisation difficile car très large: élaborer des constantes sémantiques caractérisant le flux, Inclure: des analogies / des transpositions par métaphore / etc.

2. Séparation physique: sous-sens liés à la dimension inchoative (conséquences sur le 'monde'): - complète, - entaille, - séparer qq de qqch/qq - raccourcir, diminuer - traverser (la route coupe la forêt) - mordre (froid coupe la peau)  Très nombreuses métaphores pour chaque sous-sens. 3. QQ formes plus restreintes: tailler, couper du vin, ne pas couper à qqch.

Pousser Déplacer, bousculer25% Stimuler (arité 2)6 % Inciter (à) (arité 3)18 % Emmettre (un son, un avis)4 % Exagérer (métaphore ?)17 % Croître (intrans.)30 % Distinguer les sens: arité,sous-cat + prépositions, restrictions de sélection, alternances Une représentation distincte par sens.

Sous-spécification en LCS Recevoir: sens direct: [event CAUSE([thing I ], [event GO+poss ([thing J ], [path FROM+poss ([thing I ], TO+poss ([thing K ])])] traitement des dérivés métaphoriques (psy, epist, …): D, [event CAUSE([thing I ], [event GO+D ([thing J ], [path FROM+D ([thing I ], TO+D ([thing K ])])] Aller: P: [path ] [event CAUSE([thing I ], [event GO+loc([thing I ], P ] Composition: rept verbe (rept PP)

Couper: A X  I  J [event CAUSE([thing I ] [event BECOME+A(X, [path TOWARDS+A ([state Discontinuous ] ) [manner ……. ])])] ) J: obj2 J = objet physique, A = loc, X = [thing J ] Choix par défaut J = communication, A = + comm, X = [thing FLOW-OF([thing J ]) ] J = ressource, A = +char+ident, X = [thing Availability-Of([thing J ])]

Introduction de données du lexique génératif Bon: nom A de type  et de Qualia: [ …. Telic: T ….. ] Y : , f i  T, [state BE+char+ident ([thing I ], [propertyAbility-to([fi(Y, _ )] = high ])]) - Bien identifier la dénotation des champs sous-spécifiés. - en mesurer la complexité et l’utilité. - définir l’unification et la subsomption de ce type de structures pour le calcul.

Sémantique de la préposition Contre 1. Localisation X [ place NEXT_TO +loc, +/-c ([ place/thing X])] Dans l’espace (proximité / contact) Pousser le lit contre le mur. 2. Opposition X [ manner AGAINST +loc ([ event/thing X])] Nager contre le courant. 3. But - Protection / défense Un sirop contre la toux. X [event FOR +comm ([ event/thing X] 4. Echange X, Y [ path EXCH +poss ([ thing/event X]), ([ thing/event Y])] J’échange mon entrée contre ton dessert. 5. Proportion / rapport 9 voix contre 12. X [ amount AGAINST +comm ([amount X])]

De nombreuses difficultés Influence des arguments sur la sémantique du prédicat: fragilité et variabilité de certains sens, Ambiguïtés de certains usages entre sens. Différents types d’inférences peuvent être faites selon les arguments. Partager: -diviser, partager : gâteaux, ressources financières, etc. causalité marquée; mais: logement, ressources (entre programmes) -Avoir en commun: des responsabilités, des idées, des principes, pas de causalité marquée; mais ce qui est partagé l’est plus ou moins. Totalement ambigu: partager un repas.

Restrictions de sélection sur les usages Pousser, sens2 = stimuler : sujet: elt. Psycho./attitude activité économique Humaincollectif humain objet psychologique institution Objet1attitude Humainprocédureobj. Physique objet financier fonction Partie de développe instance génère Crée, suit Gère, produit

Les ressources Description de 1700 sens de verbes, français/espagnol/catalan Info sémantique: grilles thématiques, LCS pour plusieurs classes Description des prépositions du français + qq locutions prépositives.

Les projets Essentiellement autour du WEB, dans un cadre symbolique, sur des domaines ciblés: - extraction de connaissances de pages WEB, - extracteur de contraintes et de règles, - résumé automatique liés à des requêtes de type mot-clés, - production de réponses coopératives, - WEB et NLG: typologie de la génération. Outils: ontologies, sémantique lexicale, représentation des connaissances du domaine, grammaire locales et stratégies d’analyse-génération.