Introduction à L’analyse sémantique latente. Landauer, Laham et Foltz.
Plan 1. Introduction 2. Modèle mathématique 3. Modèle cognitif 4. Modélisation des connaissances humaines 5. Limites et possibilités 6. Conclusion
1. Introduction LSA: Modèle cognitif de la représentation du sens des mots. Programme informatique qui simule l’acquisition des connaissances. Connaissances représentées sous la forme de vecteurs dans un espace de grandes dimensions.
2. Modèle mathématique Fonctionnement du LSA: Représentation multidimensionnelle de la signification du sens des mots. Un mot est défini statistiquement à partir de l’ensemble des contextes (paragraphe, phrase, texte) dans lequel il apparaît. Un nombre suffisant de textes doit être utilisé. Un mécanisme permet de croiser les informations de co-occurrences propre à chaque mot.
2. Modèle mathématique Le LSA repose sur la définition suivante: Deux mots sont sémantiquement proches s’ils apparaissent dans des contextes similaires. Deux contextes sont sémantiquement proches s’ils comportent des mots similaires. Procédure du LSA: Etablissement des liaisons sémantiques : décomposition en valeurs singulières.
Exemples de données: 9 titres de documents techniques Interaction homme ordinateur . c1: Human machine interface for ABC computer applications . c2: A survey of user opinion of computer system response time . c3: The EPS user interface management system . c4: System and human system enginneering testing of EPS . c5: Relation of user perceived response time to error measurement Théorie mathématique graphique . m1: The generation of random, binary, orered trees . m2: The intersection graph of paths in trees . m3: Graph minors IV: Widths of trees and well-quasi-ordering . m4: Graph minors: A survey
Matrice d’occurrence des mots dans chaque texte. Human 1 Interface Computer User system 2 Response Time EPS Survey Trees Graph minors
m1: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasiordering m4: Graph minors: A survey C1 C2 C3 C4 C5 M1 M2 M3 M4 ... survey 1 Trees 0 = 0.66 Graph minors
C1 C2 C3 C4 C5 M1 M2 M3 M4 Human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 Interface 0.14 0.37 0.33 -0.03 -0.07 -0.10 -0.04 Computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 User 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.15 -0.21 Response 0.58 0.42 0.28 0.13 0.22 Time EPS 0.55 0.63 -0.14 -0.20 -0.11 Survey 0.10 0.53 0.23 0.21 0.27 0.31 0.44 Trees -0.06 -0.27 0.57 0.77 0.66 Graph 0.34 -0.30 0.20 0.69 0.98 0.85 minors 0.25 0.50 0.71 0.62 - Corrélation entre human et user passe de : -0.38 à 0.94 - Corrélation entre user et minors passe de :-0.29 à -0.83
Nombre de dimensions optimales : 300. Valeurs plus grandes : émergence non suffisante des informations. Valeurs plus petites : grande perte d’informations. Similarité sémantique : cosinus entre les angles des vecteurs ( -1: minimum ; 1 maximum). D’un modèle mathématique à un modèle cognitif…
3.Modèle cognitif Propriétés du LSA: Imite la catégorisation humaine des mots et les jugements humains. Estime la compréhension et la cohérence des textes. Sélectionne la qualité et la quantité d’informations contenues dans un devoir.
4. Modélisation des connaissances humaines 4.1 - Le LSA fournit des documents répondant aux questions des gens. J.R Anderson a mis en évidence le lien entre la récupération d’informations et les processus de mémorisation sémantique. Ex : lorsqu’une personne se pose une question particulière, il l’exprime en mots et le LSI (latent semantic indexing) tente de trouver un document correspondant au questionnement de la personne. Les performances du LSI sont meilleures que les prototypes de recherches à vecteurs standards.
4.2 - Le LSA simule les tests de vocabulaire sur des jugements par rapport aux synonymes. Propriété évaluée en comparant les données de similarité sémantique du modèle à des résultats de jugements humains. Test standard issu du TOEFL (Test Of English as a Foreign Language) : ~ 4.5 millions de mots ~ 30473 contextes ~ 500 caractères. Le test comporte 80 items : un mot question et quatre propositions de réponses.
Calcul de la similarité sémantique entre le mot inducteur et chaque alternative de réponse. Le meilleur synonyme correspond à : La réponse la plus associée au vecteur le plus corrélé au vecteur associé au mot inducteur. Résultat : 65% de réponses correctes. Comparable au score moyen d’un grand échantillon d’étudiants.
a. Etudes de Foltz, Laham et Landauer. 4.3 - Le LSA simule les choix humains en réponse à des tests à choix multiples. a. Etudes de Foltz, Laham et Landauer. Entraînement du LSA sur des textes psychologiques puis testé à l’aide de questions à choix multiples. LSA performant pour les questions faciles et items factuels. Résultat du LSA limité par rapport aux humains : Entraînement fait sur de petits ensembles de documents.
b. Etude de Laham et Landauer sur le tri des mots. Relation entre le LSA et les représentations lexicales des humains. Tâche : 5 classes d’enfants différentes devaient trier des mots dans des groupes de leur choix. Mesure de la ressemblance sémantique de chaque paire de mots par la proportion des participants qui les regroupaient ensemble. LSA expose les différences de similarité à travers le degré d’abstraction des mots. Le coefficient de corrélation entre estimation du LSA et les données humaines augmentent avec l’âge des sujets. Limite : Le LSA ne sépare pas les classes de mots comme les humains. Ceci est dû au manque d’information sur l’ordre des mots.
4.4 - Le LSA simule les relations mots-mots et passages-mots dans des expérimentations d’amorçages sémantiques (Landauer et Dumais). Présentation (visuelle séquentielle rapide) de deux phrases se terminant par un homographe. Ex: - Devant un étalage de fruits et légumes, elle demanda à la vendeuse des pommes de terre pour 5 livres. - Il n’aimait pas sortir ou voir ses amis, sa seule passion était les livres. Mots cibles: poids, ouvrages, nourriture et solitude. Mot non relié: argent.
Tâche : Choisir le mot correspondant à l’homographe. Dans l’expérimentation de Till et al ,1988: Avec un ISI de 100 ms : temps de décision plus rapide pour les mots cibles reliés à l’homographe. Avec un ISI de 300 ms et 1 sec : mots reliés au contexte plus répondus que les mots reliés à l’homographe. Le LSA calcule le cosinus entre chaque mot et chaque cible. Résultats montrent que LSA imite l’amorçage sémantique des êtres humains.
4.5 – Le LSA prédit des notes à des dissertations. L’ IEA (intelligent essay assessor) conçu par Foltz délivre différents types de notes à une copie: - score holistique: compare le texte à noter à une série de copies déjà notées. - Etalon or : compare le texte à noter avec une copie idéale réalisée par un professeur (comparaison globale ou locale). - On peut aussi calculer le cosinus entre chaque phrase que l’étudiant doit apprendre et chaque phrase qu’il restitue. - Une autre méthode est de calculer le cosinus de chaque phrase de l’étudiant et les phrases que le professeur juge importantes. La corrélation entre LSA et juges humains est équivalente à celle entre juges humains.
4.6 - Le LSA prédit la cohérence des textes (Kintsch et al). Ce modèle est-il capable de prédire l’effet de la cohérence du texte sur la compréhension ? LSA calcule le cosinus d’une phrase avec celle qui suit. Landauer et Dumais ont observé que les enfants apprennent très rapidement le vocabulaire. Ex: -John est le père de Bob et Mary la mère d’Anne Puis on rajoute la phrase: -Mary est la mère de Bob. La seconde phrase nous permet de faire des inférences sur les relations entre les personnages.
4.7 - Le LSA prédit la concordance entre des textes instructifs et ce que les élèves ont besoin d’apprendre. Kintsch, Landauer et al ont testé LSA pour trouver des textes qui correspondent à chaque étudiant, c’est-à-dire des textes qu’ils ont besoin d’apprendre. Le LSA permet donc de caractériser les connaissances des étudiants avant et après avoir lu un texte.
5. Limites et possibilités Le LSA : - Simule l’acquisition des connaissances et la représentation du sens des mots. - Il est de base automatique. La méthode est donc généralisable selon les langues et domaines étudiés. Principales limites : - Influence de la taille des contextes, proximité du vocabulaire utilisé. - Il manque de capacités cognitives que les humains utilisent. Ouverture : - Pour l’améliorer, il faudrait ajouter des connaissances syntaxiques.
6. Conclusion Le LSA ne doit pas être sous estimé : Les théories précédentes ne fournissent pas de simulation aussi rigoureuse que le LSA qui prend en compte strictement les mêmes données que les humains.