La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sémantique lexicale et TALN Vecteur conceptuels et apprentissage Mathieu Lafourcade LIRMM - France www.lirmm.fr/~lafourca.

Présentations similaires


Présentation au sujet: "Sémantique lexicale et TALN Vecteur conceptuels et apprentissage Mathieu Lafourcade LIRMM - France www.lirmm.fr/~lafourca."— Transcription de la présentation:

1 Sémantique lexicale et TALN Vecteur conceptuels et apprentissage Mathieu Lafourcade LIRMM - France

2 Analyse sémantique Désambiguïsation de Sens Indexation de Textes en RI Transfert Lexical en TA Modèle de Vecteurs Conceptuels (MVC) Réminiscences Modèles vectoriels lexicaux (Salton) Modèles conceptuels (Sowa) Concepts (et non des termes) Ensemble E choisi a priori (petit) / par émergence (grand) Concepts interdépendants Propagation sur arbre danalyse morpho-syntaxique (pas danalyse de surface) Objectifs

3 Vecteurs conceptuels Une idée = combinaison linéaire de concepts = un vecteur Lespace des idées = espace vectoriel (que lon ne connaît pas a priori - dont on se moque a posteriori --> pas de réduction de dimension) Un concept = une idée = un vecteur = combinaison de lui-même + voisinage Comment choisir les concepts ?

4 Vecteurs conceptuels Ensemble de k concepts Thesaurus Larousse = 873 concepts --> Un vecteur = 873 uplet Thesaurus Rodget = 1047 concepts --> Un vecteur = 1047 uplet EDR (Japon) --> concepts Espace des sens = espace vectoriel + ensemble de vecteurs

5 Vecteurs conceptuels Exemple : chat Noyau dont lindexation est manuelle c:mammifère, c:caresse Augmenté c: mammifère, c:caresse, c:zoologie, c:amour … itération --> affinage des vecteurs selon le voisinage Vecteurs sans aucun zéro --> danger ! Avoir des vecteurs trop plats

6 Espace vectoriel Les concepts Ne sont pas indépendants Espace des sens = Espace générateur dun espace V de dim k (inconnue) = k <= k Suffisant Position relative des points V V

7 Expérience TH873 Thesaurus Larousse H : hiérarchie des concepts K concepts feuilles (K = 873) C0 = racine, c1, c2, c3, c4 = feuilles V(C i ) : a j = 1/ (2 ^ D um (H, i, j)) D um = distance ultramétrique 1/41 1/16 1/64 264

8 Vecteurs conceptuels TH873 Concept c4:PAIX c4:Paix C2:Relation hiérarchiques C3:Relations de conflit C1:Le Monde, C1:LHomme C1:La Société

9 Vecteurs conceptuels TH873 Terme Paix c4:Paix

10 finance profit échange

11 Distance entre VC angulaire (ou encore dite de magnitude) Distance Angulaire D A (x, y) = angle (x, y) 0 <= D A (x, y) <= si 0 alors colinéaire - même idée si /2 alors rien en commun si alors D A (x, -x) avec -x (anti-idée de x) x y x

12 Distance entre VC angulaire (ou encore dite de magnitude) D A (x, x) = 0 D A (x, y) = D A (y, x) D A (x, y) + D A (y, z) D A (x, z) D A (0, 0) = 0 and D A (x, 0) = /2 par def. D A ( x, y) = D A (x, y) avec 0 D A ( x, y) = - D A (x, y) avec 0 D A (x+x, x+y) = D A (x, x+y) D A (x, y)

13 Conceptual vector distance Example D A (sparrow, sparrow) = 0 D A (sparrow, passerine) = 0.4 D A (sparrow, bird) = 0.7 D A (sparrow, train) = 1.14 D A (sparrow, insect) = 0.62 sparrow = kind of insectivorous passerine …

14 Distance entre VC Exemple D A (moineau, moineau) = 0 D A (moineau, passereau) = 0.4 D A (moineau, oiseau) = 0.7 D A (moineau, train) = 1.14 D A (moineau, insecte) = 0.62 moineau = espèce de passereau insectivore …

15 T définitions du noyau (clous) - vecteurs invariants définitions de dictionnaires - vecteurs modifiés lors des révisions insecte K insecte D scarabée D plante.1 K plante.2 K plante.2 D plante.1 D

16 Lexique de vecteurs conceptuels Ensemble de (terme, vecteur) = (w, )* Terme monosème ? Terme monodéfini --> 1 sens (acception) --> 1 vecteur (w, ) moineau

17 Lexique de vecteurs conceptuels Construction pour les polysèmes Terme polysème ? Terme polydéfini --> n sens (acceptions) --> n vecteurs {(w, ), (w.1, 1 ) … (w.n, n ) } Ferme (NF) bâtiment exploitation fermage élément de charpente

18 Danger : les sens minoritaires sont trop affaiblis Lexique de vecteurs conceptuels Construction pour les polysèmes (w) = (w.i) ferme bâtiment (agricole) exploitation (agricole) fermage élément de charpente

19 Lexique de vecteurs conceptuels Construction pour les polysèmes (w) = classification(w.i) aggregation ascendante binaire ferme 1:D A (3,4) & (3+2) 2: (ferme 4 ) 7: (ferme 2 )6: (ferme 1 ) 4: (ferme 3 ) 5: D A (6,7)& (6+7) 3: D A (4,5) & (4+5)

20 Portée du champ sémantique LS(w) = LS t ( (w)) LS t ( (w)) = 1 si est une feuille LS t ( (w)) = (LS( 1 ) + LS( 2 )) /(2-sin 2 (D( (w))) sinon (w) = t ( (w)) t ( (w)) = (w) si est une feuille t ( (w)) = LS( 1 ) t ( 1 ) + LS( 2 ) t ( 2 ) sinon 1:D(3,4), (3+2) 2: 4 7: 2 6: 1 4: 3 5:D(6,7), (6+7) 3:D(4,5), (4+5) Permet de gérer les définitions multiples (redondantes) (w) =

21 1:D(3,4) & (3+2) 2: (ferme 4 ) 7: (ferme 2 )6: (ferme 1 ) 4: (ferme 3 ) 5:D(6,7)& (6+7) 3:D(4,5) & (4+5) Descente récursive sur t(w) comme arbre de décision D A (, i ) Arrêt sur une feuille Arrêt sur un nœud interne Pondération / Sélection

22 Stats sur les vecteurs Norm( ) [0, 1] * C (2 15 =32768) Intensity( ) Norme / C Généralement = 1 (sauf pour les fonctions syntaxiques) Écart type (ET) ET 2 = variance variance = 1/n * (x i - moy) 2

23 Stats sur les vecteurs Coefficient de variation (CV) CV = ET / moy Pas dunité - indépendant de la norme Force conceptuelle (pour les concepts sous lhorizon) si A Hyperonyme B CV(A) > CV(B) (on a pas ) vector « jus de fruit » (N) --> Moy = 527, ET = 973 CV = 1.88 vector « boisson » (N) --> Moy = 443, ET = 1014CV = 2.28 Pour les concepts au-dessus de lhorizon, si A Hyperonyme B CV(A) < CV(B)(on a pas )

24 Opérations sur les vecteurs Somme V = X Y v i = x i + y i Element neutre : 0X 0 = X Généralisation à n termes : V = V i Normalisation de la somme : v i /|V|* c Sorte de moyenne - barycentre - centro ï de

25 Opérations sur les vecteurs Produit terme à terme normé(pttn) V = X Y v i = x i * y i Element neutre : 1 X 1 = X Généralisation à n termes V = V i Intersection

26 Opérations sur les vecteurs Amplification V = X ^ n v i = signe(v i ) * |v i |^ n V = V ^ 1/2et n V = V ^ 1/n V V = V ^ 2si v i 0 Normalisation du ptt à n termes V = n V i

27 Opérations sur les vecteurs Contextualisation : somme + ppt (non normée) (A, B) = A (A B) Utilisée pour le calcul (simple) de vecteurs requête en RI (A, A) = A (A A) = A A A (A, 0) = A (A 0) = A 0 A (A, 1) = A (A 1) = A A A Ex : (frégate, frégate) bof ! (frégate, oiseau) ah oui !

28 Opérations sur les vecteurs Soustraction V = X Y v i = x i y i Soustraction pointée V = X Y v i = max (x i y i, 0) Complémentaire V = C(X) v i = (1 x i c) * c … Opérations ensemblistes

29 Autres distances Distance dintensité Intensité (norme) du ptt non normé 0 ( (X Y)) 1 si |x| = |y| = 1 D I (X, Y) = acos( ( X Y)) D I (X, X) = 0et D I (X, 0) = /2 D I (moineau, moineau) = 0(D A = 0) D I (moineau, passereau) = 0.25(D A = 0.4) D I (moineau, oiseau) = 0.58(D A = 0.7) D I (moineau, train) = 0.89 (D A = 1.14) D I (moineau, insecte) = 0.50(D A = 0.62)

30 Autres distances Distance de profil et généralisation Profil D p : Comparaison de la forme des vecteurs (sans tenir compte de la magnitude) Généralisation D G : magnitude + profil V V D p (V,V ) = 0 D G (X,Y) = D A (X,Y) + ( -1)D P (X,Y)

31 Fonction Lexicale vectorielle Synonymie relative Syn R (A, B, C) C est l axe de projection Rappel : (A, B) = A (A B) Syn R (A, B, C) = D A ( (A, C), (B, C)) D A (charbon,nuit) = 0.9 Syn R (charbon, nuit, couleur) = 0.4 Syn R (charbon, nuit, noir) = 0.35

32 Synonymie relative Syn R (A, B, C) = Syn R (B, A, C) Syn R (A, A, C) = D A (A (A C), A (A C)) = 0 Syn R (A, B, 0) = D A (A, B) Syn R (A, B, 1) = D A (A, B) Syn R (A, 0, C) = /2 Syn R (A, B, A) = D A (A (A A), B (B A)) = D A (A, B (B A))

33 68 Analyse « sémantique » Propagation de vecteurs sur l arbre (d analyse morpho-syntaxique Application SYGMART J. Chauch é ) Lesrapidement P GV GVA GNP termites attaquent lesfermes GN dutoit Les termites attaquent les fermes du toit rapidement

34 Lesrapidement P GV GVA GNP attaquent fermes termites les GN toit GN du Exploitation agricole bâtiment Élément de charpente (dune) maison Terme d anatomie au-dessus agresser commencer critiquer Analyse sémantique

35 Initialisation les vecteurs sont attachés aux cerises puis propagés aux termes Lesrapidement P GV GVA GNP termites attaquent lesfermes GN dutoit Analyse sémantique poids 1

36 Propagation vers le haut (montée) (N i ) = (N i 1 ) … (N i k ) Lesrapidement P GV GVA GNP termites attaquent lesfermes GN dutoit Analyse sémantique

37 Descente = contextualisation faible (N i j ) = (N i j, N i ) = (N i j ) ( (N i j ) (N i )) Lesrapidement P GV GVA GNP termites attaquent lesfermes GN dutoit Analyse sémantique Contextualisation forte

38 Pondération/sélection de sens Lesrapidement P GV GVA GNP termites attaquent les fermes GN du toit exploitation bâtiment élément de charpente d une maison anatomie au-dessus commencer attaquer critiquer Analyse sémantique

39 Schémas syntaxiques S: NP(ART,N) (NP) = V(N) S: NP1(NP2,N) (NP1) = (NP1) (N)0< <1 (bateau à voile) = (bateau) 1/2 (voile) (voile de bateau) = (voile) 1/2 (bateau) Où est la tête (gouverneur) ?

40 Iteration et convergence convergence ? (ou nb de cycles max) Local D( i, i+1 ) pour racine Global D( i, i+1 ) pour tout Global : Meilleurs résultats mais coûteux et converge rarement (oscillations) Local : Bons résultats et rapide

41 SYGMART Analyse morphosyntaxique (Sygmart) Définitions Dico à usage humain (multisources) Base de Vecteurs Conceptuels Construction et affinage de la base de VC

42 Noyau manuel (nécessaire pour lamorçage) Analyses de définitions (dico, encyclo, etc. en ligne et hors ligne) Boucle infinie --> apprentissage permanent Supervision --> ajustements manuels (nouvelles def, plus précises, moins ambiguës, etc.) itérations synonymes Mots inconnus des définitions noyau

43 charançon : n (un) petit insecte qui détruit les grains. NP ART un ANP ADJN petitinsecte REL VP PR V détruit. GN grains PUNCT PH qui V1V1 V 2 = V 2,1 V 2.2 V3V3 V4V4 V PH V=V 1 2V 2 V=V REL (V REL, V PH ) GOV NART les

44 charançon : n (un) petit insecte qui détruit le grain. NP ART un ANP ADJN petitinsecte REL VP PR V détruit. GN grains PUNCT PH qui V1V1 V 2 = V 2,1 V 2.2 V3V3 V 4 = 0 V PH V=V 1 2V 2 V=V REL (V REL, V PH ) GOV NART les Analyse partielle Mot inconnu

45 V 4 = 0 Mot inconnu

46 V 4 = 0 Mot inconnu On tire le vecteur au hasard On révisera au moment de lapprentissage de ce mot Émergence Expérience EMER873 Pas de thésaurus - pas de noyau On fixe juste la dimension de E (la taille des vecteurs) Amplification pour éviter une convergence globale vers le vecteur 1 (effet bouillie)

47 T Espace T Maille fixe - densité lexicale variable

48 E Espace E Maille variable - densité lexicale plus ou moins constante

49 Points de test 1/2 E Écart type de la densité lexicale (test 1) ET(DL(E)) < ET(DL(T)) Les n vecteurs booléens (dans TH873 et EMER873 on a n = 873)

50 Points de test 2/2 E Écart type de la densité lexicale (test 2) ET(DL(E)) < ET(DL(T)) Les p premiers termes en fréquence dusage (dans TH873 et EMER873 on a p = 1000)

51 Construction de taxonomies Fonctions lexicales Hyperonymes/hyponymes (is-a) Holonymes/méronymes (part-of) Synonymes - Antonymes (agents à apprentissage D. Schwab) Cause/effet ??? Combinaison Extractions lexicales (classique) Vecteurs conceptuels (pour la sélection des acceptions des termes) Jouer à la fois : au niveau des termes - du sens - des relations Problématique de fond : distinguer des sens par affinage successifs

52 É meraude/pierre pr é cieuse É meraude/b é ryl b é ryl Pierre pr é cieuse Gemme/pierre pr é cieuseGemme/bourgeonGemme/r é sine Plus proche vecteur É meraude/gemme … v v v vv v É meraude/pierre pr é cieuse É meraude/b é ryl b é ryl Pierre pr é cieuse Gemme/pierre pr é cieuseGemme/bourgeonGemme/r é sine É meraude/gemme … v v v vv v

53 É meraude/pierre pr é cieuse É meraude/b é ryl b é ryl Pierre pr é cieuse Gemme/pierre pr é cieuseGemme/bourgeonGemme/r é sine É meraude/b é ryl b é ryl Pierre pr é cieuse Gemme/pierre pr é cieuse É meraude/vert É meraude/couleur É meraude/vert Vert/couleur des signaux Couleur/mati è reCouleur/sensation Vert/couleur … … …

54 Voiture/wagon wagon Moyen de transport v é hicule/Moyen de transportv é hicule/vecteur automobile Voiture/automobile Cheval/moyen de transport Cheval/mammif è re mammif è re Cheval/viande Viande/nourriture aliment nourriture artefact Cheval/unit é de puissance animal hypo

55 Comparaison entre les deux approches Thésaurus - discrimination - utilisation des ressources + évaluation par inspection ou par voisinage Émergence + discrimination + utilisation des ressources - évaluation par voisinage uniquement ++ pas besoin de thésaurus ? Reconstitution du (dun) thésaurus ? au moins partiellement Concepts pertinents Concepts utiles Il faut coupler lanalyse par définitions et lanalyse par corpus Analyses intentionnelle (def), extentionnelle (ex), distributionelle (corpus)

56 Conclusion Emergence Vecteurs (fort rappel) Taxonomies (forte précision) Apprentissage permanent Différent dun entraînement Multi-sources Termes - Lexies - Acceptions Amas de lexies + nommage + réinjection Bouclages (cf Ch. Lecerf sur la Double boucle) Expérience en cours avec une dim = 5000

57 Fin 1. extremité 2. mort 3. but …


Télécharger ppt "Sémantique lexicale et TALN Vecteur conceptuels et apprentissage Mathieu Lafourcade LIRMM - France www.lirmm.fr/~lafourca."

Présentations similaires


Annonces Google