La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fouille de données dans les corpus de textes

Présentations similaires


Présentation au sujet: "Fouille de données dans les corpus de textes"— Transcription de la présentation:

1 Fouille de données dans les corpus de textes
Michèle Jardino Groupe Langues, Information et Représentations 13/12/04

2 Qu’est ce que c’est? Acquérir des connaissances (données) enfouies (fouille) dans des corpus de textes Extraire des informations dans la mine des textes électroniques disponibles en abondance aujourd’hui. Corpus = recueil de documents concernant une même discipline (Petit Robert) Un corpus géant : le Web, " THE WEB AS A CORPUS ", conférence CORPUS LINGUISTICS 2005 En anglais : text data mining 13/12/04

3 Un 1er exemple Société de mesure d’audience a enregistré les sites visités par un panel d’internautes. Elle veut mettre en relation les parcours de ces internautes avec leur description sociologique Corpus = pages Web visitées Objectif : cibler au mieux une clientèle Moyen : chercher traits caractéristiques dans les textes des pages visitées par les internautes Projet national RNRT mêlant industriels et laboratoires publiques (FT, Paris 3, LIMSI, NetValue) 13/12/04

4 Un 2ème exemple Répondre à une question précise :
A partir de textes électroniques mais de plus en plus à partir du Web Encore au stade de recherche (ex : système question-réponse développé cette année au LIMSI) Compétitions internationales sur extraction d’informations : Text Retrieval Conference, mêlant laboratoires et industries et Cross-Language Evaluation Forum en 2003, 25 compétiteurs (mondial) en 2004, 18 compétiteurs (européen) 13/12/04

5 Une question de TREC(2003) <top> <num> Number: 2322
<type> Type: definition <desc> Description: Who is Absalom? </top> Qid 2322: Who is Absalom? vital Son of biblical David vital Traitor to his father okay Name in title of Faulkner novel 13/12/04

6 Un 3ème exemple : résumeur de textes
Copernic summarizer, (algorithmes statistiques et linguistiques), téléchargeable en anglais, français et allemand (30 jours) Pertinence Summarizer (techniques linguistiques), multilingue Résumé d’un document 13/12/04

7 Datation Domaine de recherche récent, prolongement de travaux en
Recherche documentaire par mots-clés Représentation des connaissances en Intelligence Artificielle Adaptation pour gérer de grandes masses de données facilement accessibles Cours en 1999 par Mati Hearst Et Martin Rajman en 2001 13/12/04

8 Fouille de données dans les textes / Recherche dans Bases de Données
Données non ou peu structurées, par opposition aux bases de données où les données sont structurées et stockées dans des tables avec des champs particuliers Recherche de connaissances implicites et non explicites 13/12/04

9 Domaines de connaissances
Statistiques Analyse des données Apprentissage, inférence Intelligence artificielle Traitement automatique de la langue 13/12/04

10 Plan général (I) 1er cours : Analyse robuste des textes
Quels textes? Quels constituants du texte (traits) utiliser pour extraire des informations des textes (présence, fréquence) ? Quelles méthodes pour fouiller? Représentation des textes 2ème cours : Description d’un système de question-réponse 13/12/04

11 Plan général (II) 3ème cours : Classification automatique non supervisée de textes Classification hiérarchique Partition de documents en k classes 4ème cours : Classifieur SVM (Support Vector Machine) Apprentissage d'une frontière entre documents partagés initialement en 2 classes (recherche des vecteurs support) Classification de documents non étiquetés de part et d'autre de cette frontière 13/12/04

12 Plan 1er cours Quels textes?
Du document au texte Pré-traitements Quels traits (ou éléments) du texte utiliser? Caractères, mots, liens, balises, … Enrichissement (synonymes) Quelles méthodes pour fouiller? Méthodes d’Analyse des données (Statistiques, Logique) Moteurs de recherche Représentation des textes, distances 13/12/04

13 Quels textes? Documents structurés ou non Prétraitements des textes
Texte « brut » : Extrait du journal Le Monde, décembre 1996 Transcriptions d'oral Pages WEB (HTML), images et textes Textes structurés (XML) Prétraitements des textes 13/12/04 Quels textes?

14 Documents structurés ou non
Textes « bruts » Journaux Pages WEB, accès par moteur de recherche Livres électroniques Revues scientifiques en ligne Transcriptions d'oral Textes structurés TEI, Text Encoding Initiative, production de textes balisés, ( ) : SGML ,XML, présentation hiérarchisée de documents RDF, Resource Description Framework, ( : Web sémantique 13/12/04 Quels textes?

15 Texte « brut » : Extrait du journal Le Monde, décembre 1996
{\rtf1\ansi \deff0\plain Document soumis aux dispositions du droit d'auteur. Tous droits r\'E9serv\'E9s. \par \par \b\fs34 Le Monde\b0\fs24 \par \par 31 d\'E9cembre 1996, page 1\par \par HORIZONS - ANALYSES ET DEBATS\par \b\fs34 L'Allemagne se sent plut\'F4t bien\b0\fs24 \par \b DELATTRE LUCAS\b0 \par C'\'C9TAIT, il y a peu, \'E0 Bonn. Vendredi, 15 h 30. Helmut Kohl, seul, quitte son bureau et traverse tranquillement le parc de la chancellerie. Sa semaine de travail est termin\'E9e. Le chancelier allemand se rend dans sa villa priv\'E9e, au fond du jardin, ce que l'on appelle ici le "bungalow". L\'E0, quelques lectures d'agr\'E9ment l'attendent un roman historique ou une biographie, sans doute. \par Surprenante image. 13/12/04 Quels textes?

16 Transcription d'oral, un dialogue sur une hot-line
<Caller> oui euh c' est encore moi Madame Morichon <Operator> oui bonjour <Caller> c' est vous que j' ai eu tout à l' heure <Operator> oui oui c' est moi oui <Caller> bon bah alors figurez -vous que je suis coinçée parce que là je suis toujours sur mes mails en train de les regarder de les supprimer <Operator> oui <Caller> et puis il vient de s' ouvrir une petite fenêtre euh dont le titre c' est modem modem on hold état de l' appel reprise de la communication répond de la connection modem répondre ou ignorer alors euh j' ai beau cliquer sur répondre ou sur ignorer ou sur la petite croix pour fermer rien ne marche <Operator> d' accord donc vous ne pouvez pas vous débarrasser de ce message -là <Caller> non <Operator> et euh si vous faites control alt euh <Caller> et ça veut dire quoi d' abord ce truc -là <Operator> control c' est les touches sur votre clavier … 13/12/04 Quels textes?

17 Quelques pages WEB Foire aux questions (FAQ) sur traducteur de google
Présentation du LIMSI Discours sur le site de la CNIL (Commission Nationale Informatique et Liberté) 13/12/04 Quels textes?

18 Textes électroniques Exemple Le petit Prince CHAPITRE II
J'ai ainsi vécu seul, sans personne avec qui parler véritablement, jusqu'à une panne dans le désert du Sahara, il y a six ans. Quelque chose s'était cassé dans mon moteur, Et comme je n'avais avec moi ni méchanicien, ni passagers, je me préparai à essayer de réussir, tout seul, une réparation difficile. C'était pour moi une question de vie ou de mort. J'avais à peine de l'eau à boire pour huit jours. Le premier soir je me suis donc endormi sur le sable à mille milles de toute terre habitée. J'étais bien plus isolé qu'un naufragé sur un rideau au milieu de l'océan. Alors vous imaginez ma surprise, au levé du jour, quand une drôle de petite voix m'a réveillé. Elle disait: -S'il vous plaît... dessine-moi un mouton! -Hein! -Dessine-moi un mouton... 13/12/04 Quels textes?

19 Revues scientifiques en ligne
13/12/04 Quels textes?

20 13/12/04 Quels textes?

21 Textes structurés : XML
<?xml version="1.0"?> <menu_petit_dejeuner> <nourriture> <nom>Cafe croissants</nom> <prix>*5.95</prix> <description> Café crème avec deux croissants, beurre et confiture </description> <calories>650</calories> </nourriture> <nom>Pain fromage</nom> <description> Choix de fromage, pain de seigle, beurre </description> <calories>750</calories> <nom>Petit déjeuner anglais</nom> <prix>*10.95</prix> <description> Oeufs avec bacon, pain et confiture, tranche de pud-ding maison </description> </menu_petit_dejeuner> 13/12/04 Quels textes?

22 Pré-traitements des textes
Extraire le texte des documents Enlever images, tableaux, balises … Conserver ou non la casse Tout en majuscule ou en minuscule Différenciation majuscules, minuscules Traitement de la ponctuation L’isoler des mots (virgule) Traitement des chiffres en mots 13/12/04 Quels textes?

23 Que peut on utiliser dans les textes?
A partir du texte original : - Caractères - Mots : vocabulaire, dictionnaire, stop-list - Ensembles de mots : entités nommées, n-grammes de mots, co-occurrences, collocations - Balises (XML, liens hypertextes) Texte enrichi - Etiquettes grammaticales - Concepts, réseau sémantique 13/12/04 Quels traits?

24 Les caractères Identification de la langue Typage de textes
Par fréquence de succession de caractères Typage de textes Par fréquence des caractères 13/12/04 Quels traits?

25 Identification de la langue par les caractères
Système Qué? ( tri-grammes de caractères appris sur de gros corpus, pour chaque langue L à identifier pour chaque triplet de caractères présents dans ces corpus, on incrémente trois compteurs : les fréquences de trouver ces trois caractères consécutifs, de trouver les deux derniers caractères ensemble et de trouver le dernier caractère. 1 modèle probabiliste par langue = {p(L|triplet)} ~100 caractères pour reconnaître une langue 13/12/04 Quels traits?

26 Projection des textes sur les caractères
e,t,a,o,… Fiction Non-Fiction Presse Divers RC ESP 13/12/04 Quels traits?

27 Les mots: lesquels? Mots simples, chaîne de caractères entre blancs (tokenisation) Mots composés Formes composées : « Y-a-t-il? » Mots infléchis ou non (lemmatisation) 13/12/04 Quels traits?

28 Les mots : loi de Zipf Dans les années 30, un scientifique de l'université de Harvard, G.K. Zipf, a montré qu'en classant les mots d'un texte par fréquence décroissante, on observe que la fréquence d'utilisation d'un mot est inversement proportionnelle à son rang, r. Cette loi peut s'exprimer de la manière suivante : Fréquence d'un mot de rang r = (Fréquence du mot de rang 1) / r La loi de Zipf stipule que la fréquence du second mot le plus fréquent est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. 13/12/04 Quels traits?

29 Loi de Zipf 13/12/04 Quels traits?

30 Loi de Zipf du Petit Prince
13/12/04 Quels traits?

31 Stop-list Mots ôtés du vocabulaire Lesquels?
Mots très fréquents (statistique), mots-outils (linguistique : article, coordination, pronom …) En français sur 2 ans du Monde, les mots les plus fréquents sont : de, la, l’, le, à, les, et, des, d’, en, un,du, une, … Le Petit Prince : le, de, je, il, et, les, un, la, petit, pas, à, prince, ne, … Les mots-outils sont-ils vraiment inutiles? Utiles, pour le typage de textes Utiles, pour la reconnaissance de la parole Inutiles, en indexation de documents 13/12/04 Quels traits?

32 n-grammes de mots (I) Succession de n mots consécutifs
Très utilisés en reconnaissance de la parole À partir des fréquences de successions de n mots dans un corpus, on crée un modèle de langage: P(mot| (n-1) mots précédents) Probabilité de trouver mot connaissant les n-1 mots qui le précèdent Modèle markovien 13/12/04 Quels traits?

33 n-grammes de mots (II) Exemple : Le père Noël est une ordure
1-gramme (unigramme) : Le, père, Noël, est, une, ordure 2-grammes (bigrammes) : Le père, père Noël, Noël est, est une, une ordure 3-grammes (trigrammes) : Le père Noël, père Noël est, Noël est une, est une ordure 4-grammes (quadrigrammes) : Le père Noël est, père Noël est une, Noël est une ordure 5-grammes (pentagrammes) : Le père Noël est une, père Noël est une ordure Probabilité 3-grammes : p(Noël| Le père ) 13/12/04

34 Informations de plus haut niveau
Co-occurrences de mots Collocations Entités nommées Classes grammaticales groupe verbal, groupe nominal, adjectif … Réseaux sémantiques Famille : parents, enfants … Emotions : colère, joie … 13/12/04 Quels traits?

35 Cooccurrences de mots Fréquence d’apparition de deux mots dans une fenêtre Exemple : dans un même paragraphe on parlera de sport, de ski, de champion, mots que l’on pourra associer dans un réseau, si on les retrouve fréquemment dans un corpus de textes Intérêt : enrichissement des connaissances, création de réseaux sémantiques (exemple : matrice des fréquences) 13/12/04 Quels traits?

36 Collocations Cas particulier des co-occurrences
Mots qui, lorsqu’ils apparaissent ensemble, ont un nouveau sens par rapport aux sens initial des mots qui le composent Exemple : pomme de terre 13/12/04 Quels traits?

37 Entités nommées Lieux : la gare Saint Michel
Noms de personnes : la présidente de l’université Paris XI, Anita Bersellini Dates : 13 décembre 2004 Chiffres : 3000€ 13/12/04 Quels traits?

38 Classes grammaticales
Analyseurs syntaxiques À base de règles, éventuellement quelques informations statistiques (commerciaux et académiques) Analyse fine, ne peut pas analyser toutes les phrases (réelles~éventuellement mal formées) Analyse robuste (partielle, moins de détail, analyse des questions) 13/12/04 Quels traits?

39 Réseaux sémantiques WordNet : Ontologies
base de données lexicales pour l’Anglais Synonymes Ontologies Description simplifiée des connaissances du domaine (coûteux à faire) 13/12/04 Quels traits?

40 Fouille dans les textes
Méthodes Statistiques Logique Visualisation Moteurs de recherche Approche sac de traits Sélection de traits caractéristiques 13/12/04 Méthodes et outils

41 Quelles méthodes? Statistiques
Modèles vectoriels : 1 texte = 1vecteur Comptages sur des corpus, méthode adaptée à des données abondantes Fréquence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … (Présence/absence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … pour des données moins fréquentes) ACP (Analyse en composantes principales) des données pour extraire traits dominants - Latent Semantic Indexing/Latent Semantic Analysis (voir cours M.Roche) Classification automatique Documents, Paragraphes,Traits … 13/12/04 Méthodes et outils

42 Quelles méthodes? Logique
Traitement du langage naturel Analyse syntaxique (analyseur de Brill) Grammaire partielle Représentation des connaissances (Intelligence Artificielle) pour des données réduites pour des tâches partielles, de haut niveau 13/12/04 Méthodes et outils

43 Visualisation Séquentielle Projection Quelques images : 3D-XV
D’un espace à N dimensions à 2 ou 3 dimensions (plan ou volume) Quelques images : 13/12/04 Méthodes et outils

44 Outils commerciaux : moteurs de recherche sur le WEB
Indexation (stat) qq mots-clés Classification (manuelle) Logique (et ou …) Exemples : Classes de google Classes de yahoo 13/12/04 Méthodes et outils

45 Sélection de traits caractéristiques
Trop de traits, complexité Mesure de complexité : Entropie, poids du trait et distribution dans les textes Tf-Idf (Recherche d’information) Recherche des traits dominants par Analyse en composantes principales Par Regroupement de traits en classes de traits pour simplifier la représentation 13/12/04 Méthodes et outils

46 Représentation vectorielle des documents I
Choix : Un document = un texte = une suite de mots (ou de caractères, ou d’étiquettes grammaticales …) Un vecteur = une suite de chiffres : V2= {16, 39, 13, 7, 3, 70, 2, 13, 1, 2, 5, 1 …} 13/12/04 Représentation vectorielle des documents

47 Représentation vectorielle des documents
Illustration I Représentation simplifiée dans un espace à 2 dimensions = 2 mots! Un bègue prononce les 3 phrases suivantes : T1 : « je je vais» T2 : «  je je je je vais vais » T3 : « je vais vais » Dans l’espace à deux dimensions, correspondant aux fréquences des deux mots   « je » et « vais », on associe aux phrases, T1, T2, T3, les vecteurs T1{2,1}, T2{4,2}, T3 {1,2} 13/12/04 Représentation vectorielle des documents

48 Représentation vectorielle des documents
Illustration II Roman « Le petit Prince », Saint-Exupéry Composé de 27 chapitres Chaque chapitre sera considéré comme 1 document Classification automatique des 27 chapitres 13/12/04 Représentation vectorielle des documents

49 Représentation vectorielle des documents II
Exemple : chapitre 2 du Petit Prince (J’ai ainsi vécu seul, sans personne …) On compte les mots du chapitre (chapitre 2 : 814 mots, 309 mots différents) Le vecteur associé au chapitre 2 est un ensemble de 309 chiffres, correspondant au nombre de fois où chaque mot est vu V2= { …} Mots = - , : ! ? . a à absurde ainsi alors ami … Vecteur (309D) pas dessinable sur une feuille (2D) 13/12/04 Représentation vectorielle des documents

50 Représentation vectorielle des documents III
On a perdu la séquentialité des mots Chaque texte est devenu un sac de mots Les composantes d’un vecteur texte, Tj f1Tj,f2Tj, …,fVTj fréquences des mots dans le document Tj Si le document contient n mots différents (n<=V), il y a n composantes non nulles et V-n composantes nulles Longueur d’un document Nombre de mots du document, N (N>=n) 13/12/04 Représentation vectorielle des documents

51 Similarité des documents
Les textes qui se ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans les mêmes contextes (hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques sont similaires) Dans l’espace vectoriel, ils correspondent à des vecteurs proches. 13/12/04 Représentation vectorielle des documents

52 Représentation vectorielle des documents
Chapitres 2 et 7 Nombre total de mots Nombre de mots différents Mots non communs Chapitre 2 814 309 208 Chapitre 7 884 299 198 Intersection = mots communs = 101 Union = 507 mots différents 13/12/04 Représentation vectorielle des documents

53 Mots communs aux chapitres 2 et 7
13/12/04 Représentation vectorielle des documents

54 Représentation dans l’espace, Projection
Dans l’espace vectoriel de dimension V, les vecteurs représentant les textes forment un faisceau d’origine 0 regrouper les vecteurs « proches », c’est trouver les vecteurs qui ont des directions quasi-identiques ou dont les extrémités sont proches 13/12/04 Représentation vectorielle des documents

55 Comparaison de deux textes
Comparaison de 2 vecteurs T1 et T2 sont deux vecteurs colinéaires, ils ont la même direction et la même proportion de je et vais (2/3 de je et 1/3 de vais) T3 et T2 sont deux vecteurs de directions différentes, avec des proportions différentes de « je » et « vais » On norme les vecteurs Les vecteurs T1N et T2N sont similaires, leurs extrémités sont confondues Les extrémités des vecteurs T1N et T3N sont séparées d’une distance qui est la longueur T1N , T3N 13/12/04 Représentation vectorielle des documents

56 Normes des vecteurs Norme habituelle = longueur du vecteur = norme L2
L2 =√{ (f1Tj )2 + (f2Tj )2 + … + (fVTj )2 } Norme L1 = somme des coordonnées du vecteur, utilisée pour obtenir des probabilités, distributions ou profils L1 = f1Tj + f2Tj + … + fVTj Exemple L1 = longueur du document 13/12/04

57 Comparaison par similarité ou par distance
Similarité entre deux textes mesurée par le cosinus de l'angle formé entre les vecteurs associés les textes T1 et T2 ont des directions similaires : s= cos (T1,T2) = 1 ils contiennent les mêmes proportions de mots. Distance entre deux textes distance séparant les extrémités des vecteurs associés intérêt de normer les textes par leur longueur 13/12/04 Représentation vectorielle des documents

58 Distances géométriques entre vecteurs
Distances entre vecteurs Tj1 et Tr2 dans espace multi-dimensionnel Distance euclidienne D(Tj,Tr) = i (fiTj –fiTr)2 Distance de Manhattan (City-block ) D(Tj,Tr)=i |fiTj –fiTr | i varie de 1 à V 13/12/04 Représentation vectorielle des documents

59 Représentation vectorielle des documents
Représentation des distances en 2D Deuclidienne (Tj,Tr) = (f1Tj –f1Tr)2 + (f2Tj –f2Tr)2 DManhattan (Tj,Tr) = | f1Tj –f1Tr| + | f2Tj –f2Tr Exemple : f1Tj = 1 f2Tj = 4 f1Tr = 3 f2Tr =1 Deuclidienne ((1,4),(3,1)) est la ligne droite entre (1,4) et (3,1) Dmanhattan ((1,4),(3,1)) = dist1((1,4),(3,1)) est la ligne brisée en pointillé entre (1,4) et (3,1) 13/12/04 Représentation vectorielle des documents

60 Autre mesure de similarité Indice de Jaccard
Comparaison de 2 vecteurs : on compte mots communs aux 2 textes, les mots du texte 1, m1, les mots du texte 2, m2 Indice de ressemblance, s := s= (m1  m2)/(m1+m2- m1  m2) Distance : d=1-s, varie entre 0 et 1 Convient à des données binaires 13/12/04 Représentation vectorielle des documents

61 Représentation vectorielle des documents
Comparaison de T1N et T3N Distance euclidienne = (2)/3 Distance de Manhattan = 2/3 Indice de Jaccard = s = 1 Avec cet indice, les deux textes sont semblables, car ils contiennent les mêmes mots 13/12/04 Représentation vectorielle des documents

62 Distance de Kullback-Leibler
Traitement de l’information, approche probabiliste, Utilise vecteurs normés par L1 (proportions ou profils) A partir des éléments du vecteur, on peut calculer la probabilité du vecteur comme le produit des probabilités d’avoir ce texte étant donné chaque mot qui le constitue (approche sac de mots) Cette valeur est un indicateur discriminant Deux vecteurs peuvent être comparés avec cet indicateur « distance » de Kullback-Leibler 13/12/04 Représentation vectorielle des documents

63 Représentation vectorielle des documents
Remarques Si 2 textes contiennent les mêmes mots, dans les mêmes proportions, ils sont similaires (indépendamment de l’ordre des mots) Si ils contiennent les mêmes mots dans des proportions différentes, ils sont dissemblables Si ils n’ont aucun mot en commun, ils sont complètement dissemblables 13/12/04 Représentation vectorielle des documents

64 Lien entre similarité et distance
2 mesures de comparaison des vecteurs qui varient en sens inverse Pour des vecteurs normés : Similarité (cosinus) S = 1, les documents sont similaires, ils ont les mêmes proportions de mots S = 0, les documents n’ont aucun mot en commun Distance D = 0, les documents sont similaires, ils ont les mêmes proportions de mots D = Dmax, les documents n’ont aucun mot en commun 13/12/04 Représentation vectorielle des documents

65 Ouvrage de référence 13/12/04
Brief Contents Preliminaries Introduction Mathematical Foundations Linguistic Essentials Corpus-Based Work Words Collocations Statistical Inference: n-gram models over sparse data Word Sense Disambiguation Lexical Acquisition Grammar Markov Models Part-Of-Speech Tagging Probabilistic Context Free Grammars Probabilistic Parsing Applications and Techniques Statistical Alignment and Machine Translation Clustering Topics in Information Retrieval Text Categorization Published May 1999 by The MIT Press, Cambridge, Massassuchets 13/12/04

66 Quelques références Livre : Cours Article :
Statistique textuelle, L. Lebart A. Salem, 1994, Dunod Cours Manning, Raghavan et Schütze, 2003 Article : « A comparative Study on Feature Selection in Text  Categorization », Yang et Pedersen, 1997, Proceedings of ICML-97, 14th International Conference on Machine Learning 13/12/04


Télécharger ppt "Fouille de données dans les corpus de textes"

Présentations similaires


Annonces Google