Fouille de données dans les corpus de textes

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
L1 Lire avec aisance (à haute voix, silencieusement) un texte
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Corese Moteur de recherche sémantique pour RDF
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Les numéros
Le Modèle Logique de Données
Introduction à la logique
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Indexation textuelle : Systèmes de recherche d’informations
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
1 Résultats de lenquête de lectorat du magazine "Vivre la Meurthe-et-Moselle" Enquête réalisée par la société
Gestion de la communication par établissement sur le site ville
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Développement d’applications web
Le Concours de Conaissance III Francais I fevrier 2013.
Écrit, animé et illustré par Sheila CartwrightTraduit par
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Cours 16 LA BIBLIOGRAPHIE
Le portail documentaire de Paris 1
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
18/05/ Utiliser le cahier de texte en ligne avec lapplication SPIP Adresse du site du lycée :
1.2 COMPOSANTES DES VECTEURS
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Méthode des k plus proches voisins
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
1.3 COORDONNÉES DES POINTS
Logiciel gratuit à télécharger à cette adresse :
Guide à l'usage des élèves
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
La Distribution des Données
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
1.1 LES VECTEURS GÉOMÉTRIQUES
Web sémantique : Web de demain
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
La veille numérique : un outil pour s'informer intelligemment &
Item 03 Objectif : Planification des travaux de curatif Public cible :
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Comenius 1 Projet européen Analyse de film euroculturelle Humanisme dans le nouveau cinéma européen.
Création et présentation d’un tableau avec Word 2007
Nom:____________ Prénom: ___________
Centre d’échange d’informations sur la Convention sur la Diversité Biologique Bienvenue dans le cours sur l’ajout d’une page web sur un site web développé.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
TEXT MINING Fouille de textes
Transcription de la présentation:

Fouille de données dans les corpus de textes Michèle Jardino jardino@limsi.fr Groupe Langues, Information et Représentations http://www.limsi.fr/Recherche/LIR 13/12/04

Qu’est ce que c’est? Acquérir des connaissances (données) enfouies (fouille) dans des corpus de textes Extraire des informations dans la mine des textes électroniques disponibles en abondance aujourd’hui. Corpus = recueil de documents concernant une même discipline (Petit Robert) Un corpus géant : le Web, " THE WEB AS A CORPUS ", conférence CORPUS LINGUISTICS 2005 En anglais : text data mining 13/12/04

Un 1er exemple Société de mesure d’audience a enregistré les sites visités par un panel d’internautes. Elle veut mettre en relation les parcours de ces internautes avec leur description sociologique Corpus = pages Web visitées Objectif : cibler au mieux une clientèle Moyen : chercher traits caractéristiques dans les textes des pages visitées par les internautes Projet national RNRT mêlant industriels et laboratoires publiques (FT, Paris 3, LIMSI, NetValue) 13/12/04

Un 2ème exemple Répondre à une question précise : A partir de textes électroniques mais de plus en plus à partir du Web Encore au stade de recherche (ex : système question-réponse développé cette année au LIMSI) Compétitions internationales sur extraction d’informations : Text Retrieval Conference, mêlant laboratoires et industries et Cross-Language Evaluation Forum http://trec.nist.gov, en 2003, 25 compétiteurs (mondial) http://clef.isti.cnr.it/, en 2004, 18 compétiteurs (européen) 13/12/04

Une question de TREC(2003) <top> <num> Number: 2322 <type> Type: definition <desc> Description: Who is Absalom? </top> Qid 2322: Who is Absalom? 2322 1 vital Son of biblical David 2322 2 vital Traitor to his father 2322 3 okay Name in title of Faulkner novel 13/12/04

Un 3ème exemple : résumeur de textes Copernic summarizer, (algorithmes statistiques et linguistiques), téléchargeable en anglais, français et allemand (30 jours) http://www.copernic.com Pertinence Summarizer (techniques linguistiques), multilingue http://www.pertinence.net Résumé d’un document 13/12/04

Datation Domaine de recherche récent, prolongement de travaux en Recherche documentaire par mots-clés Représentation des connaissances en Intelligence Artificielle Adaptation pour gérer de grandes masses de données facilement accessibles Cours en 1999 par Mati Hearst Et Martin Rajman en 2001 13/12/04

Fouille de données dans les textes / Recherche dans Bases de Données Données non ou peu structurées, par opposition aux bases de données où les données sont structurées et stockées dans des tables avec des champs particuliers Recherche de connaissances implicites et non explicites 13/12/04

Domaines de connaissances Statistiques Analyse des données Apprentissage, inférence Intelligence artificielle Traitement automatique de la langue 13/12/04

Plan général (I) 1er cours : Analyse robuste des textes Quels textes? Quels constituants du texte (traits) utiliser pour extraire des informations des textes (présence, fréquence) ? Quelles méthodes pour fouiller? Représentation des textes 2ème cours : Description d’un système de question-réponse 13/12/04

Plan général (II) 3ème cours : Classification automatique non supervisée de textes Classification hiérarchique Partition de documents en k classes 4ème cours : Classifieur SVM (Support Vector Machine) Apprentissage d'une frontière entre documents partagés initialement en 2 classes (recherche des vecteurs support) Classification de documents non étiquetés de part et d'autre de cette frontière 13/12/04

Plan 1er cours Quels textes? Du document au texte Pré-traitements Quels traits (ou éléments) du texte utiliser? Caractères, mots, liens, balises, … Enrichissement (synonymes) Quelles méthodes pour fouiller? Méthodes d’Analyse des données (Statistiques, Logique) Moteurs de recherche Représentation des textes, distances 13/12/04

Quels textes? Documents structurés ou non Prétraitements des textes Texte « brut » : Extrait du journal Le Monde, décembre 1996 Transcriptions d'oral Pages WEB (HTML), images et textes Textes structurés (XML) Prétraitements des textes 13/12/04 Quels textes?

Documents structurés ou non Textes « bruts » Journaux Pages WEB, accès par moteur de recherche Livres électroniques Revues scientifiques en ligne Transcriptions d'oral Textes structurés TEI, Text Encoding Initiative, production de textes balisés, ( http://www.tei-c.org ) : SGML ,XML, présentation hiérarchisée de documents RDF, Resource Description Framework, (http://www.w3.org/RDF) : Web sémantique 13/12/04 Quels textes?

Texte « brut » : Extrait du journal Le Monde, décembre 1996 {\rtf1\ansi \deff0\plain Document soumis aux dispositions du droit d'auteur. Tous droits r\'E9serv\'E9s. \par ------------ \par \b\fs34 Le Monde\b0\fs24 \par \par 31 d\'E9cembre 1996, page 1\par \par HORIZONS - ANALYSES ET DEBATS\par \b\fs34 L'Allemagne se sent plut\'F4t bien\b0\fs24 \par \b DELATTRE LUCAS\b0 \par C'\'C9TAIT, il y a peu, \'E0 Bonn. Vendredi, 15 h 30. Helmut Kohl, seul, quitte son bureau et traverse tranquillement le parc de la chancellerie. Sa semaine de travail est termin\'E9e. Le chancelier allemand se rend dans sa villa priv\'E9e, au fond du jardin, ce que l'on appelle ici le "bungalow". L\'E0, quelques lectures d'agr\'E9ment l'attendent un roman historique ou une biographie, sans doute. \par Surprenante image. 13/12/04 Quels textes?

Transcription d'oral, un dialogue sur une hot-line <Caller> oui euh c' est encore moi Madame Morichon <Operator> oui bonjour <Caller> c' est vous que j' ai eu tout à l' heure <Operator> oui oui c' est moi oui <Caller> bon bah alors figurez -vous que je suis coinçée parce que là je suis toujours sur mes mails en train de les regarder de les supprimer <Operator> oui <Caller> et puis il vient de s' ouvrir une petite fenêtre euh dont le titre c' est modem modem on hold état de l' appel reprise de la communication répond de la connection modem répondre ou ignorer alors euh j' ai beau cliquer sur répondre ou sur ignorer ou sur la petite croix pour fermer rien ne marche <Operator> d' accord donc vous ne pouvez pas vous débarrasser de ce message -là <Caller> non <Operator> et euh si vous faites control alt euh <Caller> et ça veut dire quoi d' abord ce truc -là <Operator> control c' est les touches sur votre clavier … 13/12/04 Quels textes?

Quelques pages WEB Foire aux questions (FAQ) sur traducteur de google Présentation du LIMSI Discours sur le site de la CNIL (Commission Nationale Informatique et Liberté) 13/12/04 Quels textes?

Textes électroniques Exemple Le petit Prince CHAPITRE II J'ai ainsi vécu seul, sans personne avec qui parler véritablement, jusqu'à une panne dans le désert du Sahara, il y a six ans. Quelque chose s'était cassé dans mon moteur, Et comme je n'avais avec moi ni méchanicien, ni passagers, je me préparai à essayer de réussir, tout seul, une réparation difficile. C'était pour moi une question de vie ou de mort. J'avais à peine de l'eau à boire pour huit jours. Le premier soir je me suis donc endormi sur le sable à mille milles de toute terre habitée. J'étais bien plus isolé qu'un naufragé sur un rideau au milieu de l'océan. Alors vous imaginez ma surprise, au levé du jour, quand une drôle de petite voix m'a réveillé. Elle disait: -S'il vous plaît... dessine-moi un mouton! -Hein! -Dessine-moi un mouton... 13/12/04 Quels textes?

Revues scientifiques en ligne http://www.atala.org/tal 13/12/04 Quels textes?

13/12/04 Quels textes?

Textes structurés : XML <?xml version="1.0"?> <menu_petit_dejeuner> <nourriture> <nom>Cafe croissants</nom> <prix>*5.95</prix> <description> Café crème avec deux croissants, beurre et confiture </description> <calories>650</calories> </nourriture> <nom>Pain fromage</nom> <description> Choix de fromage, pain de seigle, beurre </description> <calories>750</calories> <nom>Petit déjeuner anglais</nom> <prix>*10.95</prix> <description> Oeufs avec bacon, pain et confiture, tranche de pud-ding maison </description> </menu_petit_dejeuner> 13/12/04 Quels textes?

Pré-traitements des textes Extraire le texte des documents Enlever images, tableaux, balises … Conserver ou non la casse Tout en majuscule ou en minuscule Différenciation majuscules, minuscules Traitement de la ponctuation L’isoler des mots (virgule) Traitement des chiffres en mots 13/12/04 Quels textes?

Que peut on utiliser dans les textes? A partir du texte original : - Caractères - Mots : vocabulaire, dictionnaire, stop-list - Ensembles de mots : entités nommées, n-grammes de mots, co-occurrences, collocations - Balises (XML, liens hypertextes) Texte enrichi - Etiquettes grammaticales - Concepts, réseau sémantique 13/12/04 Quels traits?

Les caractères Identification de la langue Typage de textes Par fréquence de succession de caractères Typage de textes Par fréquence des caractères 13/12/04 Quels traits?

Identification de la langue par les caractères Système Qué? (http://www.alis.com) tri-grammes de caractères appris sur de gros corpus, pour chaque langue L à identifier pour chaque triplet de caractères présents dans ces corpus, on incrémente trois compteurs : les fréquences de trouver ces trois caractères consécutifs, de trouver les deux derniers caractères ensemble et de trouver le dernier caractère. 1 modèle probabiliste par langue = {p(L|triplet)} ~100 caractères pour reconnaître une langue 13/12/04 Quels traits?

Projection des textes sur les caractères e,t,a,o,… Fiction Non-Fiction Presse Divers RC ESP 13/12/04 Quels traits?

Les mots: lesquels? Mots simples, chaîne de caractères entre blancs (tokenisation) Mots composés Formes composées : « Y-a-t-il? » Mots infléchis ou non (lemmatisation) 13/12/04 Quels traits?

Les mots : loi de Zipf Dans les années 30, un scientifique de l'université de Harvard, G.K. Zipf, a montré qu'en classant les mots d'un texte par fréquence décroissante, on observe que la fréquence d'utilisation d'un mot est inversement proportionnelle à son rang, r. Cette loi peut s'exprimer de la manière suivante : Fréquence d'un mot de rang r = (Fréquence du mot de rang 1) / r La loi de Zipf stipule que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. 13/12/04 Quels traits?

Loi de Zipf 13/12/04 Quels traits?

Loi de Zipf du Petit Prince 13/12/04 Quels traits?

Stop-list Mots ôtés du vocabulaire Lesquels? Mots très fréquents (statistique), mots-outils (linguistique : article, coordination, pronom …) En français sur 2 ans du Monde, les mots les plus fréquents sont : de, la, l’, le, à, les, et, des, d’, en, un,du, une, … Le Petit Prince : le, de, je, il, et, les, un, la, petit, pas, à, prince, ne, … Les mots-outils sont-ils vraiment inutiles? Utiles, pour le typage de textes Utiles, pour la reconnaissance de la parole Inutiles, en indexation de documents 13/12/04 Quels traits?

n-grammes de mots (I) Succession de n mots consécutifs Très utilisés en reconnaissance de la parole À partir des fréquences de successions de n mots dans un corpus, on crée un modèle de langage: P(mot| (n-1) mots précédents) Probabilité de trouver mot connaissant les n-1 mots qui le précèdent Modèle markovien 13/12/04 Quels traits?

n-grammes de mots (II) Exemple : Le père Noël est une ordure 1-gramme (unigramme) : Le, père, Noël, est, une, ordure 2-grammes (bigrammes) : Le père, père Noël, Noël est, est une, une ordure 3-grammes (trigrammes) : Le père Noël, père Noël est, Noël est une, est une ordure 4-grammes (quadrigrammes) : Le père Noël est, père Noël est une, Noël est une ordure 5-grammes (pentagrammes) : Le père Noël est une, père Noël est une ordure Probabilité 3-grammes : p(Noël| Le père ) 13/12/04

Informations de plus haut niveau Co-occurrences de mots Collocations Entités nommées Classes grammaticales groupe verbal, groupe nominal, adjectif … Réseaux sémantiques Famille : parents, enfants … Emotions : colère, joie … 13/12/04 Quels traits?

Cooccurrences de mots Fréquence d’apparition de deux mots dans une fenêtre Exemple : dans un même paragraphe on parlera de sport, de ski, de champion, mots que l’on pourra associer dans un réseau, si on les retrouve fréquemment dans un corpus de textes Intérêt : enrichissement des connaissances, création de réseaux sémantiques (exemple : matrice des fréquences) 13/12/04 Quels traits?

Collocations Cas particulier des co-occurrences Mots qui, lorsqu’ils apparaissent ensemble, ont un nouveau sens par rapport aux sens initial des mots qui le composent Exemple : pomme de terre 13/12/04 Quels traits?

Entités nommées Lieux : la gare Saint Michel Noms de personnes : la présidente de l’université Paris XI, Anita Bersellini Dates : 13 décembre 2004 Chiffres : 3000€ 13/12/04 Quels traits?

Classes grammaticales Analyseurs syntaxiques À base de règles, éventuellement quelques informations statistiques (commerciaux et académiques) Analyse fine, ne peut pas analyser toutes les phrases (réelles~éventuellement mal formées) Analyse robuste (partielle, moins de détail, analyse des questions) 13/12/04 Quels traits?

Réseaux sémantiques WordNet : Ontologies http://www.cogsciprincetonedu/~wn base de données lexicales pour l’Anglais Synonymes Ontologies Description simplifiée des connaissances du domaine (coûteux à faire) 13/12/04 Quels traits?

Fouille dans les textes Méthodes Statistiques Logique Visualisation Moteurs de recherche Approche sac de traits Sélection de traits caractéristiques 13/12/04 Méthodes et outils

Quelles méthodes? Statistiques Modèles vectoriels : 1 texte = 1vecteur Comptages sur des corpus, méthode adaptée à des données abondantes Fréquence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … (Présence/absence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … pour des données moins fréquentes) ACP (Analyse en composantes principales) des données pour extraire traits dominants - Latent Semantic Indexing/Latent Semantic Analysis (voir cours M.Roche) Classification automatique Documents, Paragraphes,Traits … 13/12/04 Méthodes et outils

Quelles méthodes? Logique Traitement du langage naturel Analyse syntaxique (analyseur de Brill) Grammaire partielle Représentation des connaissances (Intelligence Artificielle) pour des données réduites pour des tâches partielles, de haut niveau 13/12/04 Méthodes et outils

Visualisation Séquentielle Projection Quelques images : 3D-XV D’un espace à N dimensions à 2 ou 3 dimensions (plan ou volume) Quelques images : http://nd.loopback.org/hyperd/ 13/12/04 Méthodes et outils

Outils commerciaux : moteurs de recherche sur le WEB Indexation (stat) qq mots-clés Classification (manuelle) Logique (et ou …) Exemples : Classes de google Classes de yahoo 13/12/04 Méthodes et outils

Sélection de traits caractéristiques Trop de traits, complexité Mesure de complexité : Entropie, poids du trait et distribution dans les textes Tf-Idf (Recherche d’information) Recherche des traits dominants par Analyse en composantes principales Par Regroupement de traits en classes de traits pour simplifier la représentation 13/12/04 Méthodes et outils

Représentation vectorielle des documents I Choix : Un document = un texte = une suite de mots (ou de caractères, ou d’étiquettes grammaticales …) Un vecteur = une suite de chiffres : V2= {16, 39, 13, 7, 3, 70, 2, 13, 1, 2, 5, 1 …} 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Illustration I Représentation simplifiée dans un espace à 2 dimensions = 2 mots! Un bègue prononce les 3 phrases suivantes : T1 : « je je vais» T2 : «  je je je je vais vais » T3 : « je vais vais » Dans l’espace à deux dimensions, correspondant aux fréquences des deux mots   « je » et « vais », on associe aux phrases, T1, T2, T3, les vecteurs T1{2,1}, T2{4,2}, T3 {1,2} 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Illustration II Roman « Le petit Prince », Saint-Exupéry Composé de 27 chapitres Chaque chapitre sera considéré comme 1 document Classification automatique des 27 chapitres 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents II Exemple : chapitre 2 du Petit Prince (J’ai ainsi vécu seul, sans personne …) On compte les mots du chapitre (chapitre 2 : 814 mots, 309 mots différents) Le vecteur associé au chapitre 2 est un ensemble de 309 chiffres, correspondant au nombre de fois où chaque mot est vu V2= {16 39 13 7 3 70 2 13 1 2 5 1 …} Mots = - , : ! ? . a à absurde ainsi alors ami … Vecteur (309D) pas dessinable sur une feuille (2D) 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents III On a perdu la séquentialité des mots Chaque texte est devenu un sac de mots Les composantes d’un vecteur texte, Tj f1Tj,f2Tj, …,fVTj fréquences des mots dans le document Tj Si le document contient n mots différents (n<=V), il y a n composantes non nulles et V-n composantes nulles Longueur d’un document Nombre de mots du document, N (N>=n) 13/12/04 Représentation vectorielle des documents

Similarité des documents Les textes qui se ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans les mêmes contextes (hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques sont similaires) Dans l’espace vectoriel, ils correspondent à des vecteurs proches. 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Chapitres 2 et 7 Nombre total de mots Nombre de mots différents Mots non communs Chapitre 2 814 309 208 Chapitre 7 884 299 198 Intersection = mots communs = 101 Union = 507 mots différents 13/12/04 Représentation vectorielle des documents

Mots communs aux chapitres 2 et 7 13/12/04 Représentation vectorielle des documents

Représentation dans l’espace, Projection Dans l’espace vectoriel de dimension V, les vecteurs représentant les textes forment un faisceau d’origine 0 regrouper les vecteurs « proches », c’est trouver les vecteurs qui ont des directions quasi-identiques ou dont les extrémités sont proches 13/12/04 Représentation vectorielle des documents

Comparaison de deux textes Comparaison de 2 vecteurs T1 et T2 sont deux vecteurs colinéaires, ils ont la même direction et la même proportion de je et vais (2/3 de je et 1/3 de vais) T3 et T2 sont deux vecteurs de directions différentes, avec des proportions différentes de « je » et « vais » On norme les vecteurs Les vecteurs T1N et T2N sont similaires, leurs extrémités sont confondues Les extrémités des vecteurs T1N et T3N sont séparées d’une distance qui est la longueur T1N , T3N 13/12/04 Représentation vectorielle des documents

Normes des vecteurs Norme habituelle = longueur du vecteur = norme L2 L2 =√{ (f1Tj )2 + (f2Tj )2 + … + (fVTj )2 } Norme L1 = somme des coordonnées du vecteur, utilisée pour obtenir des probabilités, distributions ou profils L1 = f1Tj + f2Tj + … + fVTj Exemple L1 = longueur du document 13/12/04

Comparaison par similarité ou par distance Similarité entre deux textes mesurée par le cosinus de l'angle formé entre les vecteurs associés les textes T1 et T2 ont des directions similaires : s= cos (T1,T2) = 1 ils contiennent les mêmes proportions de mots. Distance entre deux textes distance séparant les extrémités des vecteurs associés intérêt de normer les textes par leur longueur 13/12/04 Représentation vectorielle des documents

Distances géométriques entre vecteurs Distances entre vecteurs Tj1 et Tr2 dans espace multi-dimensionnel Distance euclidienne D(Tj,Tr) = i (fiTj –fiTr)2 Distance de Manhattan (City-block ) D(Tj,Tr)=i |fiTj –fiTr | i varie de 1 à V 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Représentation des distances en 2D Deuclidienne (Tj,Tr) = (f1Tj –f1Tr)2 + (f2Tj –f2Tr)2 DManhattan (Tj,Tr) = | f1Tj –f1Tr| + | f2Tj –f2Tr Exemple : f1Tj = 1 f2Tj = 4 f1Tr = 3 f2Tr =1 Deuclidienne ((1,4),(3,1)) est la ligne droite entre (1,4) et (3,1) Dmanhattan ((1,4),(3,1)) = dist1((1,4),(3,1)) est la ligne brisée en pointillé entre (1,4) et (3,1) 13/12/04 Représentation vectorielle des documents

Autre mesure de similarité Indice de Jaccard Comparaison de 2 vecteurs : on compte mots communs aux 2 textes, les mots du texte 1, m1, les mots du texte 2, m2 Indice de ressemblance, s := s= (m1  m2)/(m1+m2- m1  m2) Distance : d=1-s, varie entre 0 et 1 Convient à des données binaires 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Comparaison de T1N et T3N Distance euclidienne = (2)/3 Distance de Manhattan = 2/3 Indice de Jaccard = s = 1 Avec cet indice, les deux textes sont semblables, car ils contiennent les mêmes mots 13/12/04 Représentation vectorielle des documents

Distance de Kullback-Leibler Traitement de l’information, approche probabiliste, Utilise vecteurs normés par L1 (proportions ou profils) A partir des éléments du vecteur, on peut calculer la probabilité du vecteur comme le produit des probabilités d’avoir ce texte étant donné chaque mot qui le constitue (approche sac de mots) Cette valeur est un indicateur discriminant Deux vecteurs peuvent être comparés avec cet indicateur « distance » de Kullback-Leibler 13/12/04 Représentation vectorielle des documents

Représentation vectorielle des documents Remarques Si 2 textes contiennent les mêmes mots, dans les mêmes proportions, ils sont similaires (indépendamment de l’ordre des mots) Si ils contiennent les mêmes mots dans des proportions différentes, ils sont dissemblables Si ils n’ont aucun mot en commun, ils sont complètement dissemblables 13/12/04 Représentation vectorielle des documents

Lien entre similarité et distance 2 mesures de comparaison des vecteurs qui varient en sens inverse Pour des vecteurs normés : Similarité (cosinus) S = 1, les documents sont similaires, ils ont les mêmes proportions de mots S = 0, les documents n’ont aucun mot en commun Distance D = 0, les documents sont similaires, ils ont les mêmes proportions de mots D = Dmax, les documents n’ont aucun mot en commun 13/12/04 Représentation vectorielle des documents

Ouvrage de référence 13/12/04 Brief Contents Preliminaries Introduction Mathematical Foundations Linguistic Essentials Corpus-Based Work Words Collocations Statistical Inference: n-gram models over sparse data Word Sense Disambiguation Lexical Acquisition Grammar Markov Models Part-Of-Speech Tagging Probabilistic Context Free Grammars Probabilistic Parsing Applications and Techniques Statistical Alignment and Machine Translation Clustering Topics in Information Retrieval Text Categorization Published May 1999 by The MIT Press, Cambridge, Massassuchets 13/12/04

Quelques références Livre : Cours Article : Statistique textuelle, L. Lebart A. Salem, 1994, Dunod Cours http://www.stanford.edu/class/cs276b/syllabus.html, Manning, Raghavan et Schütze, 2003 Article : « A comparative Study on Feature Selection in Text  Categorization », Yang et Pedersen, 1997, Proceedings of ICML-97, 14th International Conference on Machine Learning 13/12/04