La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS.

Présentations similaires


Présentation au sujet: "Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS."— Transcription de la présentation:

1 Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS

2 2 Plan de lexposé n Classement des approches sémantiques u Par granularité u Par paradigme n Sémantique vectorielle : un modèle trans-granularité n Conclusion et perspectives

3 3 Classement des approches sémantiques n La notion de granularité : n Taille du segment interprétable. u Sublexical (les sèmes) u Lexical (le mot) u Syntagmatique (syntagmes/groupes) u Phrastique (phrase/proposition) u Textuel (ensemble de phrases) u Document (texte complet) u Collection

4 4 Les granularités définies n Le niveau sublexical est peu décrit : u Théories linguistiques de type sémantique structurale (Pottier, Greimas) u Travaux informatiques : F M. Gross : constitution de dictionnaires (Intex/ Sylberstein) F Informatisation des travaux de F. Rastier (P; Beust)

5 5 Sémantique structurale n Ecole Française de Bernard Pottier et ses élèves (Greimas, Rastier) n Le mot est un « ensemble » de « sèmes » ou signes de sens. n La structuration sémantique est une « superstructure » de la structuration sémique. n Deux unités sont différenciées : le sème (signe) et le sémantème (unité de sens)

6 6 Représentation sémantique structurale appareil appareil à essence aspiration liquide les propriétés de lessence essence pour véhicule 3. lieu consacré à la vente station dessence 4. n Une « partie » du mot « pompe » entreprise

7 7 n Le niveau lexical (sémantique lexicale) est très riche. n Mots ou groupes de mots inséparables. n Exemples : u Pomme u Pomme-de-terre n Sert de base aux dictionnaires n Plusieurs paradigmes défrichent ce niveau.

8 8 u Niveau syntagmatique/groupe : les sémantiques n-grammes (bi ou trigrammes) u Expression syntagmatique nominale : F N1 de N2 (B. Habert) Moulin à café (quasi-lexicalisé) Médecin de famille Fleur des champs, fleur de pommier… u Peu de travaux sur les groupes verbaux (sauf en anglais en raison des suffixes) u En gros, des sémantiques de type « opérationnel » à base fréquentielle (Zipf, Harris…)

9 9 u Le niveau propositionnel est le domaine privilégié des modèles sémantiques logiques. F La proposition est « complète » en termes de sens F Elle est évaluable F Lévaluation se fait après décomposition (en éléments constitutifs) et recomposition du sens u Le rapport entre phrase et proposition nest pas toujours très clair (la majorité des exemples de phrases sont des propositions). u Les expressions figées : lexicalisation (E. Laporte). F Balayer devant sa porte. F Tourner autour du pot (to beat around the bush).

10 10 n Le niveau textuel sémantique commence à se confondre avec le niveau thématique. u Un texte = un énoncé = un ensemble de phrase. u Nest pas une unité « complète » u Possède un « thème » (ou plusieurs) u De quoi parle le texte ?

11 11 u Travaux sur les liens entre phrases (inter- phrastiques). F Anaphore pronominale : attachement syntaxe- sémantique.. Parfois fondé sur des connaissances extra-sémantiques. Le médecin est venu voir Pierre. Il avait 39 de fièvre. Le médecin est venu voir Pierre. Il avait une sacoche noire bourrée. Le médecin est venu voir Pierre. Il est arrivé une heure et demie après notre appel. Le médecin est venu voir Pierre. Il était enrhumé.

12 12 u Travaux de Grosz et Sidner (1986) : « focus and attention » u Lattachement pronominal se fait majoritairement avec le dernier nom de même genre et nombre. Le médecin est venu voir Pierre. Il avait 39 de fièvre (1/4 exact) u Sinon, il dépend du « thème » général du texte. F Thème médecin : personne spécialiste, faisant des visites, à lappel des malades, portant une sacoche. Le médecin est venu voir Pierre. Il avait une sacoche noire bourrée. Le médecin est venu voir Pierre. Il est arrivé une heure et demie après notre appel. 2/4 exact.

13 13 n Thème « Pierre est malade » u Il a de la fièvre, il est enrhumé. Le médecin est venu voir Pierre. Il avait 39 de fièvre Le médecin est venu voir Pierre. Il était enrhumé. 2/4 exact. n Double thème : le médecin et Pierre est malade. u Les quatre énoncés sont interprétables u Cependant, le médecin peut-être lui aussi enrhumé.

14 14 n Les anaphores nominales : la relation de synonymie ou de proximité sémantique lexicale. u Pierre est allé voir un ophtalmologiste. Le spécialiste lui a donné une ordonnance pour une nouvelle paire de lunettes. u Quavez-vous fait à Marie-Hélène ? Cette femme narrête pas de téléphoner.

15 15 n Dès lors quon dépasse en granularité le niveau propositionnel, des « niveaux » danalyse autres que sémantiques semblent être sollicités. n Trois dimensions semblent co-exister et interagir: u La syntaxe (règles de composition) u La sémantique (règles de pré-interprétation) u La pragmatique (stratégies dinterprétation => opérer des choix dans les pré-interprétations sémantiques)

16 16 n Au niveau du document : u On passe complètement dans des structures danalyse ou de représentation « stylistiques » ou de contenu. u Les travaux informatiques sur le document ne concernent que : F Sa structuration (formalisée ou pas) F Ses liens (hypertextes…) F Sa pertinence par rapport à une requête (recherche dinformation) F Sa thématique représentable par des mots clés (indexation) F Sa catégorisation (par rapport à un thème fourni) F Sa classification (par rapport à un thème, une collection ou un autre document)

17 17 n La collection : complètement dans une vision thématique u Collection de textes u Collection douvrages qui sont eux-mêmes des collections de texte u Les travaux informatiques sont ceux de la recherche documentaire (Salton et dérivés).

18 18 Conclusion sur la notion de granularité n La sémantique sefface avec laugmentation de la granularité, graduellement, au profit de la thématique. n La sémantique apparaît plus non pas comme un choix univoque dinterprétation (fonction) que comme un choix ensembliste (application dun élément vers une partie densemble). On parle plutôt de « champ sémantique ».

19 19 n En réalité, la sémantique est un mécanisme de comparaison beaucoup quun mécanisme daffectation de valeur. u Au niveau sublexical : pompe : « proche » dappareil, dappareil à essence, de station, dentreprise… proche aussi daspiration (appareil aspirant) dair(fusil à pompe), de mouvement haut et bas (faire des pompes)….

20 20 n Au niveau lexical : quel terme exact choisir pour remplacer « pompe » … n Au niveau syntagme/groupe : savoir si le syntagme à un sens différent de la composition des sens des constituants. u Composition non commutative ; F Voile de Bateau différent de Bateau à voile F Valeur des moyennes différent de moyenne des valeurs

21 21 n Composition souvent non intègre u Moulin à paroles -> bavard u Pomme-de-terre -> rien à voir avec la pomme et la terre n Les formalismes n-grammes ne conservent pas toujours la nature même du lien

22 22 n Au niveau propositionnel : u Lévaluation à la valeur de vérité nest absolument pas pertinente. u Une phrase est interprétée linguistiquement si on en reconnaît le thème et on sait lassocier à des objets du monde (interprétation extra-sémantique) u Une phrase est interprétée informatiquement si et seulement si elle est transcrite dans un formalisme sans perte dinformation intrinsèque, qui conserve ses relations de proximité et son appartenance thématique.

23 23 référent : objet linguistique référé: objet mental objet référé: objet du monde Langue monde individu triangle aristotélicien Linterprétation linguistique associe : pour un individu donné Un référent donné (objet linguistique) À un objet du monde

24 24 L « interprétation informatique » associe, - pour un objet linguistique donné - - un objet mathématique - Calculable par une machine -. Langue machine Formalisme Interprétable Par un individu Et représentable Par ce dernier

25 25 n En machine on ne fait que re-présenter et non pas interpréter n On délègue à la machine le processus de calcul des similitudes et des proximités (entre énoncés) n Quand il y a de GRANDES MASSES de données

26 26 Les paradigmes (de calcul) n Le paradigme symbolique logique u On traduit lénoncé en langue en un énoncé logique que lon manipule ensuite selon ses propres lois u Au lieu dinterpréter en valeur de vérité absolue, on vérifie que lénoncé est valide par rapport aux « ontologies ». u On appelle ontologie une structure de connaissances qui : F Relie des concepts entre eux F Leur associe des propriétés F Possède des propriétés exploitables par des opérateurs

27 27 Exemple : ontologie de schémas (Minsky) C1nC1n n valeurs par défaut pour C 1 n sous forme d {attribut (facette, valeur)} C 1 n-1 C11C11 lien « is-a » Schéma de C 1 n Schéma de C 1 1 Schéma de C 1 n-1

28 28 Exemple n Chaise : chaise-à-porteur chaise meuble composé de: pieds (3, 4) dosseret (oui,non) barreaux :( oui,non) assise :matière fait en : matière (organique, minérale) type (naturelle, artificielle) prix: origine : 17ème siècle mode de transport fauteuil

29 29 n Formalismes dontologies : u Treillis(de Galois) u Arborescences u Réseaux (sémantiques) n Ont du mal a différencier le statut « langue» du statut « formalisme » au niveau lexical u « dictionnaires », « thésaurus »

30 30 Les modèles de données n Les « ontologies » arborescentes u après l échec dune structuration trop importante et trop large u restriction des années 90 F à une application F à un domaine, de préférence technique et défini F à une structure arborescente u plusieurs « arbres de connaissance » plutôt qu un seul réseau

31 31 Exemple (1) u domaine : chimie u application : enseignement secondaire de la chimie atomique: F agrégats « partie-de » particule atome molécule substance

32 32 Exemple (2) u domaine : chimie u application : enseignement secondaire de la chimie atomique: F agrégat « sorte-de » particule chargée particule neutre proton électron neutron

33 33 Propriétés structurelles u relations typées F sorte-de selon un critère F sorte-de : inclusion de classe F sorte-de : membre-de F partie-de n Les ontologies arborescentes supposent : n un mot un sens u ce qui correspond qu à un sous- ensemble très faible du langage naturel

34 34 Les modèles multi- structure n Les graphes conceptuels (Sowa 1984) u l idée que l esprit et le langage s organisent de la même manière (ressemblance des contextes linguistique et mental) u il existe une représentation en lambda-calcul du contexte mental u application à la langue

35 35 Graphes conceptuels n Modèle de données u Un treillis de concepts u Un treillis de relations n Lambda-formules u Graphe canonique u Graphe de définition u Graphe de phrase

36 36 Fonction des modèles symboliques logiques n Actions « sémantiques » réalisées: u Transformer la phrase en LN : F La chaise est bleue u En sa structure logique (ou sa lambda-expression): F Chaise (x) couleur (x, « bleu ») Vérifier dans lontologie Que chaise existe Quelle peut avoir une couleur F Que la couleur « bleu » existe F Quil nexiste pas de contrainte contre la couleur bleue pour une chaise

37 37 Limites en LN n Reste le problème de savoir : n Sil sagit dun exemplaire de chaise répertorié dans lensemble des connaissances o x 0 X/ chaise(x 0 ) couleur(x 0, « bleu ») n Sil sagit dun nouvel exemplaire o x chaise(x) couleur(x, « bleu ») => x X n Sil sagit dune assertion concernant la classe des chaises o x X chaise(x) => couleur(x, « bleu »)

38 38 n Beaucoup de connaissances à intégrer n Problème des sens figurés du mot: u jouer aux chaises musicales u mener une vie de bâton de chaise n Et de certains de ses dérivés : u ambitionner le fauteuil présidentiel. n A éviter en recherche dinformation ou indexation

39 39 Autres paradigmes n Le paradigme symbolique numérique u Le modèle connexionniste u Le modèle vectoriel (non saltonien) n Le paradigme statistique/probabiliste u Modèle vectoriel de Salton u La co-occurrence de Church u Les mesures de similarité ou de similitude u La sémantique distributionnaliste (Harris) u Les chaînes de Markov u Le modèle de Markov caché

40 40 n Plusieurs approches connexionistes de la sémantique n Sémantique Lexicale n Calculer le sens dun mot en contexte (par rapport aux autres mots co-occurents). n Un réseau mono ou bi-couche de u n cellules ayant chacune une variable détat x n u Des arcs entre ces cellules avec un poids qui affecte les états des cellules quils relient u Des équations détat pour qui sont des gradiants dune fonction dénergie F(x,p,t))= grad_x(E(x,p,t)). u Un mécanisme dapprentissage sous forme déquation de modification de poids/ p=L(x,p,t). Le modèle connexionniste

41 41 n Les cellules représentent des mots n Ils sont reliés en fonction de leur présence dans un contexte donné (fenêtre) n Les poids sont définis initialement. n Les changements détat interviennent entre un état initial correspondant à une définition et un état final correspondant à la position en contexte dans une phrase donnée. n Le mécanisme dapprentissage recalcule le poids en fonction de la phrase apprise.

42 42 Modèles connexionnistes en sémantique : limites n Le réseau mono-couche « perd » la définition initiale. n Le réseau bi-couche la conserve et permet de mesurer la différence entre un sens « dictionnairique » et un sens « en corpus », mais il est limité en taille… n Les modèles mono-couche risquent de modifier très fortement les relations entre les mots en fonction des corpus rencontrés. u On peut « oublier » des sens rares u On peut apprendre de manière biaisée.

43 43 Les modèles vectoriels n Le modèle vectoriel sera présenté dans le prochain cours. u Modèle à famille génératrice de taille fixe (équipe TAL du LIRMM) F Issu du TAL. F Modèle sémantique. u Modèle à base de taille variable (modèle de Salton). F Issu de la recherche documentaire. Problème de la pertinence dun texte par rapport à une requête F Non TAL F Non sémantique

44 44 La co-occurrence de Church: Formule de linformation mutuelle (n-grammes) u Modèle fondé sur des probabilités conditionnelles F Notion de fréquence dapparition commune entre des termes. F Si x et y sont tous deux des mots, linformation mutuelle I(x,y) est donnée par la formule : F Où, si N est le nombre total de mots : p(x) = freq(x)/N p(y) = freq(y)/N p(x,y) = freq(x,y)/N I(x,y) = log2 [p(x,y)/(p(x)p(y))]

45 45 On remarque que plusieurs bi-grammes sont de fréquence très basse. Linformation mutuelle a des valeurs exagérémment élevées pour des bigrammes de basse fréquence, cad quelle considère comme associés des termes qui ne le sont pas tellement. Formule du maximum de vraisemblance log[ (freq(x,y)/N)/(freq(x)/N)(freq(y)/N) ] Quand on passe aux n-grammes, la fréquence diminue encore.

46 46 Les mesures de similarité ou de similitude u Plusieurs mesures existent. u Elles définissent F La proximité dun document par rapport à un autre en fonction des termes quils contiennent F La pertinence thématique dun document par rapport à un index, un mot-clé, une requête u Elles proviennent dune approche « recherche documentaire »/statistique (vs IA/logique ou IA/connexionniste)

47 47 Les mesures de similarité ou de similitude u Produit scalaire (cosinus) ou similarité de Salton. F Mesure géométrique de type distance : cos (d,d)= d.d/(IIdIIxIIdII) u Coefficient de Jaccard F Mesure ensembliste ou {d} est lensemble des unités linguistiques du document d F jaccard (d,d)= I{d} {d}I/(I{d} {d}I) F 1- jaccard (d,d) vérifie linégalité triangulaire et donc se comporte comme une distance.

48 48 La sémantique distributionaliste (Harris) F En France, travaux de Rajman, Habert, Bonnet F Ailleurs : Grefenstette, Dagan, Sparck Jones…Forte corrélation entre les caractéristiques distributionnelles observables des mots et leurs sens. F Les contextes apportent suffisamment dinformation pour un lecteur humain pour être en mesure daffecter un sens à un mot en contexte. F Lemme : Deux unités linguistiques sont sémantiquement similaires si leurs contextes textuels sont similaires.

49 49 Approches distributionalistes n Intégration de matrices de co-occurrence n Interprétation de profils de co-occurrence probabilistes (Besançon et Rajman) u P(t i Iu j ) c ij = f(t j,u i ) / k f(t k, u i ) u En dautres termes; la probabilité que le sens porté par le terme t j soit associé à lunité linguistique u i est aussi le coefficient dans la matrice de co-occurrence des termes dindexation avec les contextes (unités linguistiques) du corpus, cest-à-dire la fréquence doccurrence du terme par rapport à la somme des fréquences doccurrences des termes dans cette même unité.

50 50 Exemple n Le X se comporte de façon individualiste, il a une grande gueule rose quand il baille, et est très soucieux de sa toilette. n Les Egyptiens adoraient le X et lui associaient des qualités de paix du foyer et de miséricorde. n La nuit tous les X sont gris. X= chat

51 51 Les chaînes de Markov n A eu un impact important dans la statistique textuelle n Usage de la la probabilité conditionnelle (n- grammes) de manière différente: Plutôt que d'étudier le rapport entre deux variables X et Y, on cherche à caractériser la relation entre les états (symboles) consécutifs d'une seule variable X. On parlera alors de probabilité de transition d'un symbole vers un autre: P(a i ->a j ) := P(X t+1 = iX t = j ) (probabilité conditionnelle) où a i, a j A, et Xt représente l'état du système au temps t.

52 52 On appelle chaîne de Markov d'ordre 1 le modèle défini par une matrice de transition P de composantes P ij = p ( a i ->a j ). En généralisant, on peut construire des modèles d'ordre k 1 avec P ij = p ( w i ->a i ) et w i A k. n Conseil : pid/12879

53 53 Autres modèles n Il existe de nombreux modèles mais ils apparatiennent à une famille. u Famille symbolique logique u Famille symbolique numérique u Famille statistique/probabiliste

54 54 Synthèse n Les modèles symboliques logiques essaient de représenter le sens par/pour le raisonnement n Les modèles symboliques numériques essaient dutiliser larithmétique, lalgèbre ou la géométrie pour représenter le sens par rapport : u À dautres sens u À dautres mots n Les modèles statistiques ou probabilistes représentent le sens comme une probabilité ou une fréquence doccurrence dun motif dans un contexte.

55 55 Synthèse (fin) n Les modèles symboliques logiques essaient de reconstituer artificiellement le triangle aristotélicien n Les modèles symboliques numériques acceptent dêtre exclusivement dans une relation référent(langue)- référent(formalisme) et considèrent que le référé est approché par le morphisme M qui dit que : u Si x en L est relié à x 1,x 2,…,x n alors rep(x) dans F est relié à rep(x 1 ),rep(x 2 ),…rep(x n ) par une fonction sur F. n Les modèles statistiques/probabilistes ne travaillent que dans une relation référent(langue)-référent(langue) où la machine et les algorithmes servent de support de calcul sur de grandes masses de données.


Télécharger ppt "Cours sur le traitement automatique des langues : La sémantique (1b) Violaine Prince Université de Montpellier 2 LIRMM-CNRS."

Présentations similaires


Annonces Google