La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

13/12/041 Fouille de données dans les corpus de textes Michèle Jardino Groupe Langues, Information et Représentations

Présentations similaires


Présentation au sujet: "13/12/041 Fouille de données dans les corpus de textes Michèle Jardino Groupe Langues, Information et Représentations"— Transcription de la présentation:

1 13/12/041 Fouille de données dans les corpus de textes Michèle Jardino Groupe Langues, Information et Représentations

2 13/12/042 Quest ce que cest? Acquérir des connaissances (données) enfouies (fouille) dans des corpus de textes –Extraire des informations dans la mine des textes électroniques disponibles en abondance aujourdhui. –Corpus = recueil de documents concernant une même discipline (Petit Robert) –Un corpus géant : le Web, " THE WEB AS A CORPUS ", conférence CORPUS LINGUISTICS 2005 En anglais : text data mining

3 13/12/043 Un 1er exemple Société de mesure daudience a enregistré les sites visités par un panel dinternautes. Elle veut mettre en relation les parcours de ces internautes avec leur description sociologique Corpus = pages Web visitées Objectif : cibler au mieux une clientèle Moyen : chercher traits caractéristiques dans les textes des pages visitées par les internautes Projet national RNRT mêlant industriels et laboratoires publiques (FT, Paris 3, LIMSI, NetValue)

4 13/12/044 Un 2ème exemple Répondre à une question précise : –A partir de textes électroniques mais de plus en plus à partir du Web –Encore au stade de recherche (ex : système question- réponse développé cette année au LIMSI) –Compétitions internationales sur extraction dinformations : Text Retrieval Conference, mêlant laboratoires et industries et Cross-Language Evaluation Forum en 2003, 25 compétiteurs (mondial) en 2004, 18 compétiteurs (européen)/

5 13/12/045 Une question de TREC(2003) Qid 2322: Who is Absalom? vitalSon of biblical David vitalTraitor to his father okayName in title of Faulkner novel Number: 2322 Type: definition Description: Who is Absalom?

6 13/12/046 Un 3ème exemple : résumeur de textes Copernic summarizer, (algorithmes statistiques et linguistiques), téléchargeable en anglais, français et allemand (30 jours) –http://www.copernic.comhttp://www.copernic.com Pertinence Summarizer (techniques linguistiques), multilingue –http://www.pertinence.nethttp://www.pertinence.net Résumé dun document

7 13/12/047 Datation Domaine de recherche récent, prolongement de travaux en –Recherche documentaire par mots-clés –Représentation des connaissances en Intelligence Artificielle Adaptation pour gérer de grandes masses de données facilement accessibles

8 13/12/048 Fouille de données dans les textes / Recherche dans Bases de Données Données non ou peu structurées, par opposition aux bases de données où les données sont structurées et stockées dans des tables avec des champs particuliers Recherche de connaissances implicites et non explicites

9 13/12/049 Domaines de connaissances Statistiques Analyse des données Apprentissage, inférence Intelligence artificielle Traitement automatique de la langue

10 13/12/0410 Plan général (I) 1er cours : Analyse robuste des textes –Quels textes? –Quels constituants du texte (traits) utiliser pour extraire des informations des textes (présence, fréquence) ? –Quelles méthodes pour fouiller? –Représentation des textes 2ème cours : Description dun système de question-réponse

11 13/12/0411 Plan général (II) 3ème cours : Classification automatique non supervisée de textes –Classification hiérarchique –Partition de documents en k classes 4ème cours : Classifieur SVM (Support Vector Machine) –Apprentissage d'une frontière entre documents partagés initialement en 2 classes (recherche des vecteurs support) –Classification de documents non étiquetés de part et d'autre de cette frontière

12 13/12/0412 Plan 1er cours Quels textes? –Du document au texte –Pré-traitements Quels traits (ou éléments) du texte utiliser? –Caractères, mots, liens, balises, … –Enrichissement (synonymes) Quelles méthodes pour fouiller? –Méthodes dAnalyse des données (Statistiques, Logique) –Moteurs de recherche Représentation des textes, distances

13 13/12/04Quels textes?13 Quels textes? Documents structurés ou non –Texte « brut » : Extrait du journal Le Monde, décembre 1996 –Transcriptions d'oral –Pages WEB (HTML), images et textes –Textes structurés (XML) Prétraitements des textes

14 13/12/04Quels textes?14 Documents structurés ou non Textes « bruts » –Journaux –Pages WEB, accès par moteur de recherche –Livres électroniques –Revues scientifiques en ligne –Transcriptions d'oral Textes structurés –TEI, Text Encoding Initiative, production de textes balisés, ( ) : SGML,XML, présentation hiérarchisée de documents –RDF, Resource Description Framework, (http://www.w3.org/RDF) : Web sémantique

15 13/12/04Quels textes?15 Texte « brut » : Extrait du journal Le Monde, décembre 1996 {\rtf1\ansi \deff0\plain Document soumis aux dispositions du droit d'auteur. Tous droits r\'E9serv\'E9s. \par \par \b\fs34 Le Monde\b0\fs24 \par \par 31 d\'E9cembre 1996, page 1\par \par \par HORIZONS - ANALYSES ET DEBATS\par \b\fs34 L'Allemagne se sent plut\'F4t bien\b0\fs24 \par \par \b DELATTRE LUCAS\b0 \par \par C'\'C9TAIT, il y a peu, \'E0 Bonn. Vendredi, 15 h 30. Helmut Kohl, seul, quitte son bureau et traverse tranquillement le parc de la chancellerie. Sa semaine de travail est termin\'E9e. Le chancelier allemand se rend dans sa villa priv\'E9e, au fond du jardin, ce que l'on appelle ici le "bungalow". L\'E0, quelques lectures d'agr\'E9ment l'attendent un roman historique ou une biographie, sans doute. \par \par Surprenante image.

16 13/12/04Quels textes?16 Transcription d'oral, un dialogue sur une hot-line oui euh c' est encore moi Madame Morichon oui bonjour c' est vous que j' ai eu tout à l' heure oui oui c' est moi oui bon bah alors figurez -vous que je suis coinçée parce que là je suis toujours sur mes mails en train de les regarder de les supprimer oui et puis il vient de s' ouvrir une petite fenêtre euh dont le titre c' est modem modem on hold état de l' appel reprise de la communication répond de la connection modem répondre ou ignorer alors euh j' ai beau cliquer sur répondre ou sur ignorer ou sur la petite croix pour fermer rien ne marche d' accord donc vous ne pouvez pas vous débarrasser de ce message -là non et euh si vous faites control alt euh et ça veut dire quoi d' abord ce truc -là control c' est les touches sur votre clavier …

17 13/12/04Quels textes?17 Quelques pages WEB Foire aux questions (FAQ) sur traducteur de google Présentation du LIMSI Discours sur le site de la CNIL (Commission Nationale Informatique et Liberté)

18 13/12/04Quels textes?18 Textes électroniques Exemple Le petit Prince CHAPITRE II J'ai ainsi vécu seul, sans personne avec qui parler véritablement, jusqu'à une panne dans le désert du Sahara, il y a six ans. Quelque chose s'était cassé dans mon moteur, Et comme je n'avais avec moi ni méchanicien, ni passagers, je me préparai à essayer de réussir, tout seul, une réparation difficile. C'était pour moi une question de vie ou de mort. J'avais à peine de l'eau à boire pour huit jours. Le premier soir je me suis donc endormi sur le sable à mille milles de toute terre habitée. J'étais bien plus isolé qu'un naufragé sur un rideau au milieu de l'océan. Alors vous imaginez ma surprise, au levé du jour, quand une drôle de petite voix m'a réveillé. Elle disait: -S'il vous plaît... dessine-moi un mouton! -Hein! -Dessine-moi un mouton...

19 13/12/04Quels textes?19 Revues scientifiques en ligne

20 13/12/04Quels textes?20

21 13/12/04Quels textes?21 Textes structurés : XML Cafe croissants *5.95 Café crème avec deux croissants, beurre et confiture 650 Pain fromage *5.95 Choix de fromage, pain de seigle, beurre 750 Petit déjeuner anglais *10.95 Oeufs avec bacon, pain et confiture, tranche de pud-ding maison 750

22 13/12/04Quels textes?22 Pré-traitements des textes Extraire le texte des documents –Enlever images, tableaux, balises … Conserver ou non la casse –Tout en majuscule ou en minuscule –Différenciation majuscules, minuscules Traitement de la ponctuation –Lisoler des mots (virgule) Traitement des chiffres en mots

23 13/12/04Quels traits?23 Que peut on utiliser dans les textes? A partir du texte original : - Caractères - Mots : vocabulaire, dictionnaire, stop-list - Ensembles de mots : entités nommées, n- grammes de mots, co-occurrences, collocations - Balises (XML, liens hypertextes) Texte enrichi - Etiquettes grammaticales - Concepts, réseau sémantique

24 13/12/04Quels traits?24 Les caractères Identification de la langue –Par fréquence de succession de caractères Typage de textes –Par fréquence des caractères

25 13/12/04Quels traits?25 Identification de la langue par les caractères –Système Qué? (http://www.alis.com) tri-grammes de caractères appris sur de gros corpus, pour chaque langue L à identifier pour chaque triplet de caractères présents dans ces corpus, on incrémente trois compteurs : les fréquences de trouver ces trois caractères consécutifs, de trouver les deux derniers caractères ensemble et de trouver le dernier caractère. 1 modèle probabiliste par langue = {p(L|triplet)} –~100 caractères pour reconnaître une langue

26 13/12/04Quels traits?26 Projection des textes sur les caractères Fiction Presse Divers Non-Fiction e,t,a,o,… ESP RC

27 13/12/04Quels traits?27 Les mots: lesquels? Mots simples, chaîne de caractères entre blancs (tokenisation) Mots composés Formes composées : « Y-a-t-il? » Mots infléchis ou non (lemmatisation)

28 13/12/04Quels traits?28 Les mots : loi de Zipf Dans les années 30, un scientifique de l'université de Harvard, G.K. Zipf, a montré qu'en classant les mots d'un texte par fréquence décroissante, on observe que la fréquence d'utilisation d'un mot est inversement proportionnelle à son rang, r. Cette loi peut s'exprimer de la manière suivante : Fréquence d'un mot de rang r = (Fréquence du mot de rang 1) / r

29 13/12/04Quels traits?29 Loi de Zipf

30 13/12/04Quels traits?30 Loi de Zipf du Petit Prince

31 13/12/04Quels traits?31 Stop-list Mots ôtés du vocabulaire Lesquels? –Mots très fréquents (statistique), mots-outils (linguistique : article, coordination, pronom …) –En français sur 2 ans du Monde, les mots les plus fréquents sont : de, la, l, le, à, les, et, des, d, en, un,du, une, … –Le Petit Prince : le, de, je, il, et, les, un, la, petit, pas, à, prince, ne, … Les mots-outils sont-ils vraiment inutiles? –Utiles, pour le typage de textes –Utiles, pour la reconnaissance de la parole –Inutiles, en indexation de documents

32 13/12/04Quels traits?32 n-grammes de mots (I) Succession de n mots consécutifs Très utilisés en reconnaissance de la parole À partir des fréquences de successions de n mots dans un corpus, on crée un modèle de langage: –P(mot| (n-1) mots précédents) –Probabilité de trouver mot connaissant les n-1 mots qui le précèdent –Modèle markovien

33 13/12/0433 n-grammes de mots (II) Exemple : Le père Noël est une ordure 1-gramme (unigramme) : Le, père, Noël, est, une, ordure 2-grammes (bigrammes) : Le père, père Noël, Noël est, est une, une ordure 3-grammes (trigrammes) : Le père Noël, père Noël est, Noël est une, est une ordure 4-grammes (quadrigrammes) : Le père Noël est, père Noël est une, Noël est une ordure 5-grammes (pentagrammes) : Le père Noël est une, père Noël est une ordure Probabilité 3-grammes : p(Noël| Le père )

34 13/12/04Quels traits?34 Informations de plus haut niveau Co-occurrences de mots Collocations Entités nommées Classes grammaticales –groupe verbal, groupe nominal, adjectif … Réseaux sémantiques –Famille : parents, enfants … –Emotions : colère, joie …

35 13/12/04Quels traits?35 Cooccurrences de mots Fréquence dapparition de deux mots dans une fenêtre Exemple : dans un même paragraphe on parlera de sport, de ski, de champion, mots que lon pourra associer dans un réseau, si on les retrouve fréquemment dans un corpus de textes Intérêt : enrichissement des connaissances, création de réseaux sémantiques (exemple : matrice des fréquences)

36 13/12/04Quels traits?36 Collocations Cas particulier des co-occurrences Mots qui, lorsquils apparaissent ensemble, ont un nouveau sens par rapport aux sens initial des mots qui le composent Exemple : pomme de terre

37 13/12/04Quels traits?37 Entités nommées Lieux : la gare Saint Michel Noms de personnes : la présidente de luniversité Paris XI, Anita Bersellini Dates : 13 décembre 2004 Chiffres : 3000

38 13/12/04Quels traits?38 Classes grammaticales Analyseurs syntaxiques –À base de règles, éventuellement quelques informations statistiques (commerciaux et académiques) –Analyse fine, ne peut pas analyser toutes les phrases (réelles~éventuellement mal formées) –Analyse robuste (partielle, moins de détail, analyse des questions)

39 13/12/04Quels traits?39 Réseaux sémantiques WordNet : –http://www.cogsciprincetonedu/~wnhttp://www.cogsciprincetonedu/~wn –base de données lexicales pour lAnglais –Synonymes Ontologies –Description simplifiée des connaissances du domaine (coûteux à faire)

40 13/12/04Méthodes et outils40 Fouille dans les textes Méthodes –Statistiques –Logique –Visualisation Moteurs de recherche Approche sac de traits Sélection de traits caractéristiques

41 13/12/04Méthodes et outils41 Quelles méthodes? Statistiques Modèles vectoriels : 1 texte = 1vecteur Comptages sur des corpus, méthode adaptée à des données abondantes –Fréquence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … (Présence/absence des caractères, des mots, des cooccurrences de mots, des successions de mots (n-grammes) … pour des données moins fréquentes) ACP (Analyse en composantes principales) des données pour extraire traits dominants - Latent Semantic Indexing/Latent Semantic Analysis (voir cours M.Roche) Classification automatique –Documents, Paragraphes,Traits …

42 13/12/04Méthodes et outils42 Quelles méthodes? Logique Traitement du langage naturel –Analyse syntaxique (analyseur de Brill) –Grammaire partielle Représentation des connaissances (Intelligence Artificielle) –pour des données réduites –pour des tâches partielles, de haut niveau

43 13/12/04Méthodes et outils43 Visualisation Séquentielle –3D-XV Projection –Dun espace à N dimensions à 2 ou 3 dimensions (plan ou volume) Quelques images : –http://nd.loopback.org/hyperd/

44 13/12/04Méthodes et outils44 Outils commerciaux : moteurs de recherche sur le WEB Moteurs de recherche –Indexation (stat) qq mots-clés –Classification (manuelle) –Logique (et ou …) Exemples : –Classes de google –Classes de yahoo

45 13/12/04Méthodes et outils45 Sélection de traits caractéristiques Trop de traits, complexité Mesure de complexité : –Entropie, poids du trait et distribution dans les textes –Tf-Idf (Recherche dinformation) Recherche des traits dominants –par Analyse en composantes principales –Par Regroupement de traits en classes de traits pour simplifier la représentation

46 13/12/04Représentation vectorielle des documents 46 Représentation vectorielle des documents I Choix : Un document = un texte = une suite de mots (ou de caractères, ou détiquettes grammaticales …) Un vecteur = une suite de chiffres : V2= {16, 39, 13, 7, 3, 70, 2, 13, 1, 2, 5, 1 …}

47 13/12/04Représentation vectorielle des documents 47 Illustration I Représentation simplifiée dans un espace à 2 dimensions = 2 mots! Un bègue prononce les 3 phrases suivantes : –T1 : « je je vais» –T2 : « je je je je vais vais » –T3 : « je vais vais » Dans lespace à deux dimensions, correspondant aux fréquences des deux mots « je » et « vais », on associe aux phrases, T1, T2, T3, les vecteurs T1{2,1}, T2{4,2}, T3 {1,2}

48 13/12/04Représentation vectorielle des documents 48 Illustration II –Roman « Le petit Prince », Saint-Exupéry –Composé de 27 chapitres –Chaque chapitre sera considéré comme 1 document –Classification automatique des 27 chapitres

49 13/12/04Représentation vectorielle des documents 49 Représentation vectorielle des documents II Exemple : chapitre 2 du Petit Prince ( Jai ainsi vécu seul, sans personne …) On compte les mots du chapitre (chapitre 2 : 814 mots, 309 mots différents) Le vecteur associé au chapitre 2 est un ensemble de 309 chiffres, correspondant au nombre de fois où chaque mot est vu V2= { …} Mots = -, : ! ?. a à absurde ainsi alors ami … Vecteur (309D) pas dessinable sur une feuille (2D)

50 13/12/04Représentation vectorielle des documents 50 Représentation vectorielle des documents III On a perdu la séquentialité des mots Chaque texte est devenu un sac de mots Les composantes dun vecteur texte, T j –f 1 Tj,f 2 Tj, …,f V Tj –fréquences des mots dans le document T j –Si le document contient n mots différents (n<=V), il y a n composantes non nulles et V-n composantes nulles Longueur dun document –Nombre de mots du document, N (N>=n)

51 13/12/04Représentation vectorielle des documents 51 Similarité des documents Les textes qui se ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans les mêmes contextes (hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques sont similaires) Dans lespace vectoriel, ils correspondent à des vecteurs proches.

52 13/12/04Représentation vectorielle des documents 52 Chapitres 2 et 7 Intersection = mots communs = 101 Union = 507 mots différents Nombre total de mots Nombre de mots différents Mots non communs Chapitre Chapitre

53 13/12/04Représentation vectorielle des documents 53 Mots communs aux chapitres 2 et 7

54 13/12/04Représentation vectorielle des documents 54 Représentation dans lespace, Projection Dans lespace vectoriel de dimension V, les vecteurs représentant les textes forment un faisceau dorigine 0 regrouper les vecteurs « proches », cest trouver les vecteurs qui ont des directions quasi-identiques ou dont les extrémités sont proches

55 13/12/04Représentation vectorielle des documents 55 Comparaison de deux textes Comparaison de 2 vecteurs –T1 et T2 sont deux vecteurs colinéaires, ils ont la même direction et la même proportion de je et vais (2/3 de je et 1/3 de vais) –T3 et T2 sont deux vecteurs de directions différentes, avec des proportions différentes de « je » et « vais » –On norme les vecteurs Les vecteurs T1N et T2N sont similaires, leurs extrémités sont confondues –Les extrémités des vecteurs T1N et T3N sont séparées dune distance qui est la longueur T1N, T3N

56 13/12/0456 Normes des vecteurs Norme habituelle = longueur du vecteur = norme L2 –L2 ={ (f 1 Tj ) 2 + (f 2 Tj ) 2 + … + (f V Tj ) 2 } Norme L1 = somme des coordonnées du vecteur, utilisée pour obtenir des probabilités, distributions ou profils –L1 = f 1 Tj + f 2 Tj + … + f V Tj –Exemple L1 = longueur du document

57 13/12/04Représentation vectorielle des documents 57 Comparaison par similarité ou par distance Similarité entre deux textes –mesurée par le cosinus de l'angle formé entre les vecteurs associés –les textes T1 et T2 ont des directions similaires : s= cos (T1,T2) = 1 ils contiennent les mêmes proportions de mots. Distance entre deux textes –distance séparant les extrémités des vecteurs associés –intérêt de normer les textes par leur longueur

58 13/12/04Représentation vectorielle des documents 58 Distances géométriques entre vecteurs Distances entre vecteurs T j1 et T r2 dans espace multi-dimensionnel –Distance euclidienne D(T j,T r ) = i (f i Tj –f i Tr ) 2 –Distance de Manhattan (City-block ) D(T j,T r )= i |f i Tj –f i Tr | –i varie de 1 à V

59 13/12/04Représentation vectorielle des documents 59 Représentation des distances en 2D D euclidienne (T j,T r ) = (f 1 Tj –f 1 Tr ) 2 + (f 2 Tj –f 2 Tr ) 2 D Manhattan (T j,T r ) = | f 1 Tj –f 1 Tr | + | f 2 Tj –f 2 Tr Exemple : f 1 Tj = 1 f 2 Tj = 4 f 1 Tr = 3 f 2 Tr =1 D euclidienne ((1,4),(3,1)) est la ligne droite entre (1,4) et (3,1) D manhattan ((1,4),(3,1)) = dist1((1,4),(3,1)) est la ligne brisée en pointillé entre (1,4) et (3,1)

60 13/12/04Représentation vectorielle des documents 60 Autre mesure de similarité Indice de Jaccard Comparaison de 2 vecteurs : –on compte mots communs aux 2 textes, les mots du texte 1, m1, les mots du texte 2, m2 Indice de ressemblance, s := –s= (m1 m2)/(m1+m2- m1 m2) Distance : –d=1-s, varie entre 0 et 1 Convient à des données binaires

61 13/12/04Représentation vectorielle des documents 61 Comparaison de T1N et T3N Distance euclidienne = ( 2)/3 Distance de Manhattan = 2/3 Indice de Jaccard = s = 1 –Avec cet indice, les deux textes sont semblables, car ils contiennent les mêmes mots

62 13/12/04Représentation vectorielle des documents 62 Distance de Kullback-Leibler Traitement de linformation, approche probabiliste, Utilise vecteurs normés par L1 (proportions ou profils) A partir des éléments du vecteur, on peut calculer la probabilité du vecteur comme le produit des probabilités davoir ce texte étant donné chaque mot qui le constitue (approche sac de mots) Cette valeur est un indicateur discriminant Deux vecteurs peuvent être comparés avec cet indicateur « distance » de Kullback-Leibler

63 13/12/04Représentation vectorielle des documents 63 Remarques Si 2 textes contiennent les mêmes mots, dans les mêmes proportions, ils sont similaires (indépendamment de lordre des mots) Si ils contiennent les mêmes mots dans des proportions différentes, ils sont dissemblables Si ils nont aucun mot en commun, ils sont complètement dissemblables

64 13/12/04Représentation vectorielle des documents 64 Lien entre similarité et distance 2 mesures de comparaison des vecteurs qui varient en sens inverse Pour des vecteurs normés : – Similarité (cosinus) S = 1, les documents sont similaires, ils ont les mêmes proportions de mots S = 0, les documents nont aucun mot en commun –Distance D = 0, les documents sont similaires, ils ont les mêmes proportions de mots D = D max, les documents nont aucun mot en commun

65 13/12/0465 Ouvrage de référence Brief Contents 1.Preliminaries 2.Introduction 3.Mathematical Foundations 4.Linguistic Essentials 5.Corpus-Based Work 6.Words 7.Collocations 8.Statistical Inference: n-gram models over sparse data 9.Word Sense Disambiguation 10.Lexical Acquisition 11.Grammar 12.Markov Models 13.Part-Of-Speech Tagging 14.Probabilistic Context Free Grammars 15.Probabilistic Parsing 16.Applications and Techniques 17.Statistical Alignment and Machine Translation 18.Clustering 19.Topics in Information Retrieval 20.Text Categorization Published May 1999 by The MIT Press, Cambridge, Massassuchets

66 13/12/0466 Quelques références Livre : –Statistique textuelle, L. Lebart A. Salem, 1994, Dunod Cours –http://www.stanford.edu/class/cs276b/syllabus.html, Manning, Raghavan et Schütze, 2003http://www.stanford.edu/class/cs276b/syllabus.html Article : –« A comparative Study on Feature Selection in Text Categorization », Yang et Pedersen, 1997, Proceedings of ICML-97, 14 th International Conference on Machine Learning


Télécharger ppt "13/12/041 Fouille de données dans les corpus de textes Michèle Jardino Groupe Langues, Information et Représentations"

Présentations similaires


Annonces Google