Introduction à L’analyse sémantique latente.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Gestion de portefeuille
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
But de la lecture critique
L’ÉPREUVE ANTICIPÉE D’HISTOIRE GÉOGRAPHIE
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
Etude de la dynamique des groupes et des objets intermédiaires de conception, en s’appuyant sur la dynamique de l’émergence des état problèmes Reza MOVAHEDKHAH,
Les TESTS STATISTIQUES
Français Programme de Première Réalisation : P
Des repères pour lévaluation à lécole élémentaire.
La compréhension en lecture, J. Giasson
NOUVELLES EPREUVES HISTOIRE ET GEOGRAPHIE
Un neurone élémentaire
L’ANALYSE SENSORIELLE
Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
Sons de l’Environnement
Méthode des k plus proches voisins
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
FICHE METHODOLOGIQUE DE LA DISSERTATION
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
Recherche Documentaire et traitement de l’information
LA COMPREHENSION EN LECTURE
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
MOT Éditeur de modèles de connaissances par objets typés
Apprendre à construire un raisonnement en SES (EC3)
Thème 8 : l'observation et l'expérimentation
Lévaluation des apprentissages FPE 7550 Andrée Cantin Leçon 2 15 septembre 2004.
Présentation du mémoire
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Objectifs: Etudier l’hétérogénéité des caractères au sein de la composante environnementale de la variance résiduelle Pour cela on tente de minimiser les.
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Réalité virtuelle et Représentation de Données Complexes
Interprétation automatique
Le candidat traite un sujet au choix parmi deux proposés dans la même discipline. Pour traiter le sujet choisi, en histoire comme en géographie : - il.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
GNU Free Documentation License
Le rôle des connaissances dans l’identification automatique d’icones Une comparaison avec des humains Philippe Dessus* & Daniel Peraya** *LSE, Univ. Pierre-Mendès-France.
Les tests adaptatifs en langue: quel est leur avenir ? Michel D. LAURIER Université de Montréal Colloque ACFAS 2006 Solutions apportées et problèmes engendrés.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
LA COMPREHENSION 10 Décembre REFLEXIONS PREALABLES Récolter/recueillir des informations  Aspect fonctionnel, nécessaire mais pas exclusif.  Mobiliser.
Les épreuves du BTS Systèmes photoniques
Séance 8 30 novembre 2005 N. Yamaguchi
Les approches qualitatives et quantitatives pour la recherche comparative Anthony Sealey Université de Toronto This material is distributed under an Attribution-NonCommercial-ShareAlike.
DESIGN MULTIMÉDIA Initiation aux bases de La scénarisation multimédia
Initiation à la conception des systèmes d'informations
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Dominique LAURENT Patrick SEGUELA
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Efficient Crawling Through URL Ordering Junghoo Cho - Hector Garcia-Molina - Lawrence Page Department of Computer Science Stanford, CA Algorithmes.
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
ANIMATION PEDAGOGIQUE MATERNELLE
D’après une présentation de A. Conti
Régression linéaire (STT-2400)
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Introduction Module 1.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Introduction aux Interfaces Homme-Machine
Démarche d’enseignement de l’APL : analyser
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
Dániel Darvas (CERN BE-ICS-PCS) Spécification formelle pour les API CERN-ESTEREL séminaire 21/01/2016, CERN Travail conjoint avec B. Fernández, E. Blanco,
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Catherine Leduc, conseillère d’orientation
MES STRATÉGIES DE LECTURE
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Introduction à L’analyse sémantique latente. Landauer, Laham et Foltz.

Plan 1. Introduction 2. Modèle mathématique 3. Modèle cognitif 4. Modélisation des connaissances humaines 5. Limites et possibilités 6. Conclusion

1. Introduction LSA: Modèle cognitif de la représentation du sens des mots. Programme informatique qui simule l’acquisition des connaissances. Connaissances représentées sous la forme de vecteurs dans un espace de grandes dimensions.

2. Modèle mathématique Fonctionnement du LSA: Représentation multidimensionnelle de la signification du sens des mots. Un mot est défini statistiquement à partir de l’ensemble des contextes (paragraphe, phrase, texte) dans lequel il apparaît. Un nombre suffisant de textes doit être utilisé. Un mécanisme permet de croiser les informations de co-occurrences propre à chaque mot.

2. Modèle mathématique Le LSA repose sur la définition suivante: Deux mots sont sémantiquement proches s’ils apparaissent dans des contextes similaires. Deux contextes sont sémantiquement proches s’ils comportent des mots similaires. Procédure du LSA: Etablissement des liaisons sémantiques : décomposition en valeurs singulières.

Exemples de données: 9 titres de documents techniques Interaction homme ordinateur . c1: Human machine interface for ABC computer applications . c2: A survey of user opinion of computer system response time . c3: The EPS user interface management system . c4: System and human system enginneering testing of EPS . c5: Relation of user perceived response time to error measurement Théorie mathématique graphique . m1: The generation of random, binary, orered trees . m2: The intersection graph of paths in trees . m3: Graph minors IV: Widths of trees and well-quasi-ordering . m4: Graph minors: A survey

Matrice d’occurrence des mots dans chaque texte. Human 1 Interface Computer User system 2 Response Time EPS Survey Trees Graph minors

m1: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasiordering m4: Graph minors: A survey C1 C2 C3 C4 C5 M1 M2 M3 M4 ... survey 1 Trees 0 = 0.66 Graph minors

C1 C2 C3 C4 C5 M1 M2 M3 M4 Human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 Interface 0.14 0.37 0.33 -0.03 -0.07 -0.10 -0.04 Computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 User 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.15 -0.21 Response 0.58 0.42 0.28 0.13 0.22 Time EPS 0.55 0.63 -0.14 -0.20 -0.11 Survey 0.10 0.53 0.23 0.21 0.27 0.31 0.44 Trees -0.06 -0.27 0.57 0.77 0.66 Graph 0.34 -0.30 0.20 0.69 0.98 0.85 minors 0.25 0.50 0.71 0.62 - Corrélation entre human et user passe de : -0.38 à 0.94 - Corrélation entre user et minors passe de :-0.29 à -0.83

Nombre de dimensions optimales : 300. Valeurs plus grandes : émergence non suffisante des informations. Valeurs plus petites : grande perte d’informations. Similarité sémantique : cosinus entre les angles des vecteurs ( -1: minimum ; 1 maximum). D’un modèle mathématique à un modèle cognitif…

3.Modèle cognitif Propriétés du LSA: Imite la catégorisation humaine des mots et les jugements humains. Estime la compréhension et la cohérence des textes. Sélectionne la qualité et la quantité d’informations contenues dans un devoir.

4. Modélisation des connaissances humaines 4.1 - Le LSA fournit des documents répondant aux questions des gens. J.R Anderson a mis en évidence le lien entre la récupération d’informations et les processus de mémorisation sémantique. Ex : lorsqu’une personne se pose une question particulière, il l’exprime en mots et le LSI (latent semantic indexing) tente de trouver un document correspondant au questionnement de la personne. Les performances du LSI sont meilleures que les prototypes de recherches à vecteurs standards.

4.2 - Le LSA simule les tests de vocabulaire sur des jugements par rapport aux synonymes. Propriété évaluée en comparant les données de similarité sémantique du modèle à des résultats de jugements humains. Test standard issu du TOEFL (Test Of English as a Foreign Language) : ~ 4.5 millions de mots ~ 30473 contextes ~ 500 caractères. Le test comporte 80 items : un mot question et quatre propositions de réponses.

Calcul de la similarité sémantique entre le mot inducteur et chaque alternative de réponse. Le meilleur synonyme correspond à : La réponse la plus associée au vecteur le plus corrélé au vecteur associé au mot inducteur. Résultat : 65% de réponses correctes. Comparable au score moyen d’un grand échantillon d’étudiants.

a. Etudes de Foltz, Laham et Landauer. 4.3 - Le LSA simule les choix humains en réponse à des tests à choix multiples. a. Etudes de Foltz, Laham et Landauer. Entraînement du LSA sur des textes psychologiques puis testé à l’aide de questions à choix multiples. LSA performant pour les questions faciles et items factuels. Résultat du LSA limité par rapport aux humains : Entraînement fait sur de petits ensembles de documents.

b. Etude de Laham et Landauer sur le tri des mots. Relation entre le LSA et les représentations lexicales des humains. Tâche : 5 classes d’enfants différentes devaient trier des mots dans des groupes de leur choix. Mesure de la ressemblance sémantique de chaque paire de mots par la proportion des participants qui les regroupaient ensemble. LSA expose les différences de similarité à travers le degré d’abstraction des mots. Le coefficient de corrélation entre estimation du LSA et les données humaines augmentent avec l’âge des sujets. Limite : Le LSA ne sépare pas les classes de mots comme les humains. Ceci est dû au manque d’information sur l’ordre des mots.

4.4 - Le LSA simule les relations mots-mots et passages-mots dans des expérimentations d’amorçages sémantiques (Landauer et Dumais). Présentation (visuelle séquentielle rapide) de deux phrases se terminant par un homographe. Ex: - Devant un étalage de fruits et légumes, elle demanda à la vendeuse des pommes de terre pour 5 livres. - Il n’aimait pas sortir ou voir ses amis, sa seule passion était les livres. Mots cibles: poids, ouvrages, nourriture et solitude. Mot non relié: argent.

Tâche : Choisir le mot correspondant à l’homographe. Dans l’expérimentation de Till et al ,1988: Avec un ISI de 100 ms : temps de décision plus rapide pour les mots cibles reliés à l’homographe. Avec un ISI de 300 ms et 1 sec : mots reliés au contexte plus répondus que les mots reliés à l’homographe. Le LSA calcule le cosinus entre chaque mot et chaque cible. Résultats montrent que LSA imite l’amorçage sémantique des êtres humains.

4.5 – Le LSA prédit des notes à des dissertations. L’ IEA (intelligent essay assessor) conçu par Foltz délivre différents types de notes à une copie: - score holistique: compare le texte à noter à une série de copies déjà notées. - Etalon or : compare le texte à noter avec une copie idéale réalisée par un professeur (comparaison globale ou locale). - On peut aussi calculer le cosinus entre chaque phrase que l’étudiant doit apprendre et chaque phrase qu’il restitue. - Une autre méthode est de calculer le cosinus de chaque phrase de l’étudiant et les phrases que le professeur juge importantes.  La corrélation entre LSA et juges humains est équivalente à celle entre juges humains.

4.6 - Le LSA prédit la cohérence des textes (Kintsch et al). Ce modèle est-il capable de prédire l’effet de la cohérence du texte sur la compréhension ? LSA calcule le cosinus d’une phrase avec celle qui suit. Landauer et Dumais ont observé que les enfants apprennent très rapidement le vocabulaire. Ex: -John est le père de Bob et Mary la mère d’Anne Puis on rajoute la phrase: -Mary est la mère de Bob.  La seconde phrase nous permet de faire des inférences sur les relations entre les personnages.

4.7 - Le LSA prédit la concordance entre des textes instructifs et ce que les élèves ont besoin d’apprendre. Kintsch, Landauer et al ont testé LSA pour trouver des textes qui correspondent à chaque étudiant, c’est-à-dire des textes qu’ils ont besoin d’apprendre.  Le LSA permet donc de caractériser les connaissances des étudiants avant et après avoir lu un texte.

5. Limites et possibilités Le LSA : - Simule l’acquisition des connaissances et la représentation du sens des mots. - Il est de base automatique. La méthode est donc généralisable selon les langues et domaines étudiés. Principales limites : - Influence de la taille des contextes, proximité du vocabulaire utilisé. - Il manque de capacités cognitives que les humains utilisent. Ouverture : - Pour l’améliorer, il faudrait ajouter des connaissances syntaxiques.

6. Conclusion Le LSA ne doit pas être sous estimé : Les théories précédentes ne fournissent pas de simulation aussi rigoureuse que le LSA qui prend en compte strictement les mêmes données que les humains.