La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Xavier Tannier Normalisation - Pondération Extraction dInformation dans les textes I.

Présentations similaires


Présentation au sujet: "Xavier Tannier Normalisation - Pondération Extraction dInformation dans les textes I."— Transcription de la présentation:

1 Xavier Tannier Normalisation - Pondération Extraction dInformation dans les textes I

2 Rappels des épisodes précédents

3 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Les acteurs de la Recherche d'Information Utilisateur : un besoin d'information et/ou une tâche à accomplir Collection : un ensemble de documents Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information En langage naturel (et créée pour des humains) De façon rapide et pertinente 3

4 Indexation - Normalisation

5 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Recherche d'Information 5 Collections dynamiques vs. statiques Collections dynamiques vs. statiques Requête Indexation (modèle de document) Modèle de recherche Évaluation

6 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Indexation : pourquoi ? Lidée principale du moteur de recherche est de retrouver les documents qui « parlent de » la requête. On utilise ce quon a sous la main : les mots – Quest-ce quun mot ? – Que faire lorsquun mot est « proche » dun mot de la requête ? Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif. On passe par un traitement préalable : l'indexation : Le but de l'indexation automatique : "transformer des documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983) 6

7 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Indexation libre et contrôlée Indexation libre : – Mots, termes des documents Indexation contrôlée – Listes de termes prédéfinies – Vocabulaire contrôlé (évite polysémie, synonymie et problèmes de granularité) – Thésaurus 7 exemple : thésaurus UMLS

8 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Construction de lindex : vue générale 8 TEXTE Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?" TERMES Rien nesert de couririlfaut partir à point TERMES NORMALISÉS rien sert courirfaut partirpoint DOCUMENTS INDEX aujourdhui dun S.N.C.F. Le Mans 14/07/1789 … Quels choix ? On verra ça plus tard

9 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Construction de lindex : exemple 9 TEXTE TERMES I didenact Julius CaesarIwas killed i the TERMES NORMALISÉS DOCUMENTS INDEX I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc #1 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Doc #2 I didenact julius caesarIwas killed i the

10 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Dans quels documents cherche-t-on ? Formats : – HTML(menus, tableaux, publicité, rendu) – Texte brut(structure ?) – pdf (problèmes dencodage, rendu) – Word(format propriétaire, structure) – Excel(gestion des tableaux) – OpenOffice(XML) – … Il est assez simple de détecter le type dun document Des heuristiques spécifiques à chaque format pour extraire le texte Les moteurs de recherche utilisent très rarement la structure des documents 10

11 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Dans quels documents cherche-t-on ? Langues – Identification de langues, un problème difficile – Des documents multilingues – De la recherche dinformation multilingue Encodages – Vu en TD… – Des erreurs dans la gestion de lencodage peuvent conduire à des résultats erronés « président du Pérou » 11

12 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Dans quels documents cherche-t-on ? « Unité » document – Un fichier ? – Un ? Avec ses entêtes ? Avec ses attachements ? – Un groupe de fichiers ? Site Web Document en plusieurs fichiers – Etc. 12

13 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Du texte aux termes 13 TEXTE Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?" TERMES Rien nesert de couririlfaut partir à point TERMES NORMALISÉS rien sert courirfaut partirpoint DOCUMENTS INDEX aujourdhui dun S.N.C.F. Le Mans 14/07/1789 …

14 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La segmentation Identification des unités élémentaires (phonèmes, morphèmes, mots, etc.). Pour l'écrit, des mots et des phrases. Un problème très complexe dans certaines langues (chinois...) Létape initiale indispensable pour tout travail sur le texte On obtient des mots, ou des termes, ou des tokens Ces unités seront les candidats à lindexation et à la recherche dans une requête 14

15 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La segmentation Dans les langues "européennes" : – Les délimiteurs de mots et de phrases peuvent être ambigus etc. T.A.L l'illusion aujourd'hui jusqu'à Jean-Louisdonne-t-il – Les mots (noms propres en particulier) peuvent avoir des variantes : Etats-UnisÉtats-Unis France Inter France-Inter – Même lespace nest pas toujours un bon délimiteur San Francisco ? « Ni putes ni soumises » ? 15

16 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La segmentation Dans les langues "européennes" : – Les nombres, les dates 14/07/1789Mardi 12 mars B-52 (+33) Les anciens systèmes de RI retiraient tout simplement les nombres Toujours source de beaucoup derreurs dans les systèmes de RI modernes Les langues agglutinantes – Lebensversicherungsgesellschaftsangestellter (employé dune compagnie dassurance-vie) – Un segmenteur de mots composés est alors utile 16

17 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La segmentation En Japonais, Chinois, etc. il ny a pas despace entre les mots – – La segmentation nest pas toujours unique En Japonais, on ajoute au problème plusieurs types dalphabets ! En Arabe ou en Hébreu, on écrit de droite à gauche, mais certains éléments sont écrits de gauche à droite يوم الأربعاء أن زكاة الفطر عن شهر رمضان المعظم لعام 1432 هجري الموافق ل 2011 ميلادي قدرت ب 100 دينار 17

18 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Normalisation 18 TEXTE Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?" TERMES Rien nesert de couririlfaut partir à point TERMES NORMALISÉS rien sert courirfaut partirpoint DOCUMENTS INDEX aujourdhui dun S.N.C.F. Le Mans 14/07/1789 …

19 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Mots vides Les mots « outils » napportent pas de sens au texte déterminants : « le », « la », pronoms : « je », « nous », prépositions : « sur », « contre », … Ce sont les mots les plus fréquents de la langue – Les 30 mots les plus fréquents représentent 30 % des occurrences de mots – Les supprimer permet déconomiser beaucoup de place dans lindex Mais : – On en a besoin pour des requêtes multi-termes « pomme de terre », « les Chevaliers du Zodiaque » – Ils sont parfois porteurs de sens dans des cas particuliers « Let it be », « The Who », « ça », « être ou ne pas être » – La compression permet finalement de conserver les mots vides dans peu despace (nous verrons cela plus tard) 19

20 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Normalisation de mots « identiques » Dans les documents comme dans la requête On veut par exemple normaliser : – « U.S.A. » et « USA » USA – « morpho-syntaxe » et « morphosyntaxe » morphosyntaxe – « Tuebingen », « Tübingen » et « Tubingen » Tubingen – « Gorbatchov » et « Gorbatchev » Gorbatchev Mais pas : – « sur » et « sûr », – « pêche » et « péché » – En allemand, « mit » (avec) et « MIT » – En anglais, « C.A.T. » (Caterpillar) et « cat » Sans oublier les fautes de frappe / dorthographe (voir plus tard) 20

21 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Formes d'un mot, famille d'un mot Flexion – Verbale : montrer, montreras... – Nominale : cheval, chevaux... – forme canonique (lemme) et formes fléchies Dérivation – penser/V + able = pensable – in + pensable/A = impensable – base et dérivé Composition – appendice + ectomie = appendicectomie – éléments de formation, mot composé 21

22 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Lemmatisation Obtention de la forme canonique (le lemme) à partir du mot : – Pour un verbe : sa forme à l'infinitif (sans les flexions) montrer, montreras, montraient montrer – Pour un nom, adjectif, article,... : sa forme au masculin singulier vert, vertes, verts vert La lemmatisation demande des ressources et un traitement linguistique – En particulier pour les nombreuses exceptions – Long et donc difficile à mettre en œuvre pour des grandes collections – Dépendant de la langue Elle nagrège que des variantes flexionnelles – cheval = chevaux – cheval chevalier 22

23 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Racinisation (stemming) Obtention de la racine, une forme tronquée du mot, commune à toutes les variantes morphologiques – Suppression des flexions – Suppression des suffixes – Ex : cheval, chevaux, chevalier, chevalerie, chevaucher "cheva"(mais pas "cavalier") La racinisation est généralement à base de règles – Rapide – Dépendant de la langue Elle agrège beaucoup plus que la lemmatisation – Index plus petit 23

24 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Racinication : algorithme de Porter 5 phases de réduction par règles (pour langlais, adapté ensuite au français) Si deux règles de réduction sappliquent, on choisit celle qui supprime le plus long suffixe 24 sses ss ies i ational ate tional tion Si m > 1 alors cement "" replacement replac cement

25 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Étiquetage Associer aux mots leur catégorie morphosyntaxique (nom, verbe, adjectif, etc.) Peut être utile en recherche d'information pour : – Supprimer les mots inutiles – Opérer des regroupements en termes complexes – Rechercher des mots ambigus avec plus de précision (vers, or, pouvoir…) Mais : – Un processus plus long – 96 % de précision = une erreur par phrase en moyenne ! 25

26 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La morphosyntaxe Des analyses différentes pour des besoins différents : – Lemmatisation : pour rechercher/extraire de l'information, accéder au sens d'un lemme en faisant abstraction des flexions. – Racinisation (stemming) : pour agréger les dérivations morphologiques à peu de frais, sans souci de la perte du sens et des lemmes initiaux. – Étiquetage : pour appliquer des techniques de TAL sur les catégories grammaticales plutôt que sur les mots eux-mêmes. – Types de flexions, de dérivations : pour appliquer des traitements plus fins en vue d'une analyse syntaxique et/ou sémantique. Des techniques assez bien maîtrisées : un pourcentage d'erreurs faible mais difficilement compressible. 26

27 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Indexation 27 TEXTE Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?" TERMES Rien nesert de couririlfaut partir à point TERMES NORMALISÉS rien sert courirfaut partirpoint DOCUMENTS INDEX aujourdhui dun S.N.C.F. Le Mans 14/07/1789 …

28 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Matrice d'incidence 28 Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine Brutus César Calpurnia Cléopâtre pitié pire101110

29 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Matrice d'incidence 29 Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine Brutus César Calpurnia Cléopâtre pitié pire Brutus ET Cléopâtre ET PAS Calpurnia Vecteurs d'incidence Calpurnia ET "bit à bit"

30 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Matrice d'incidence On ne peut pas utiliser une telle matrice d'incidence en pratique 30 Pourquoi ? Indices Considérons une collection d'un million de documents Environ 1000 mots par document en moyenne Un vocabulaire total de mots distincts. Combien y'a-t-il de cases dans la matrice ? Combien de 1 ? Combien de 0 ? Combien y'a-t-il de cases dans la matrice ? Combien de 1 ? Combien de 0 ?

31 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Fichier inverse 31

32 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Indexation : le fichier inverse Notion "classique" de l'index Un fichier inverse associe des index aux documents qui les contiennent. Chaque document possède un identifiant unique. – a d1, d2, d3, d4, d5... – à d1, d2, d3, d4, d5... – abaissa d3, d4... – abaissable d5 – abandon d1, d5 – abandonna d2 – abasourdi d1 – … 32 Quelle structure de données pour cet index ? Que se passe-t-il si on ajoute le mot « abandon » au document d3 ? Quelle structure de données pour cet index ? Que se passe-t-il si on ajoute le mot « abandon » au document d3 ?

33 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Sac de mots Modèles « sac de mots » pour lindexation et la recherche : – On oublie lordre des mots (« Jean est plus rapide que Marie » = « Marie est plus rapide que Jean ») – On raisonne en termes de présence / absence des termes dans un document, ou en terme de fréquence de ces termes 33

34 Pondération des termes

35 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Taille du vocabulaire Le vocabulaire grandit quand la collection grandit. Loi de Heaps : M = kT b – M : taille du vocabulaire – T : nombre de tokens dans la collection – b et k : constantes (typiquement, b = 0,5 et k = 30 à 100) – Loi empirique Et cest bien pire pour le Web ! 35 Pourquoi ?

36 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Fréquence des termes Peu de mots fréquents, et beaucoup de mots rares Loi de Zipf : le n ème mot le plus fréquent a une fréquence proportionnelle à 1/n 36 rang des termes fréquence des termes Rappel En RI, "fréquence" = "nb doccurrences"

37 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Le tf 37 Rien ne sert de courir; il faut partir à point : Le lièvre et la tortue en sont un témoignage. «Gageons, dit celle-ci, que vous n'atteindrez point Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." Ainsi fut fait; et de tous deux On mit près du but les enjeux : Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. Notre lièvre n'avait que quatre pas à faire, J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes. Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter D'où vient le vent, il laisse la tortue Aller son train de sénateur. Elle part, elle s'évertue, Elle se hâte avec lenteur. Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire, Croit qu'il y a de son honneur De partir tard. Il broute, il se repose, Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit Furent vains : la tortue arriva la première. "Eh bien! lui cria-t-elle, avais-je pas raison ? De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

38 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération La matrice des fréquences 38 Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine Brutus César Calpurnia Cléopâtre pitié pire Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine Brutus César Calpurnia Cléopâtre pitié pire201110

39 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier Variante du tf Hamlet est plus pertinent pour le terme « pitié » quAntoine & Cléopâtre, mais pas 5/2 = 2,5 fois plus pertinent Jules César nest pas 157/4 = 39 fois plus pertinent quA & C pour le terme « Brutus » 0 0 ; 1 1 ; 2 1,3 ; 10 2 ; ; etc. « pitié » : Hamlet 1,7 ; A & C 1,3 « Brutus » : Jules César 3,2 ; A & C 1,6 39

40 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier tf Première proposition pour le score de similarité dun document D en fonction dune requête Q Ce score est entre 0 et linfini. On ne le conservera pas ! 40

41 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier idf Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants) On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df) 41

42 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier tf.idf Le poids dun terme (tf.idf) est la combinaison de ces deux intuitions pour rendre compte du caractère discriminant dun terme dans un document Le poids dun terme t : – augmente avec sa fréquence dans le document – augmente avec sa rareté dans la collection 42 ou

43 Indexation et Recherche d'Information Xavier Tannier Normalisation, pondération Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine Brutus César Calpurnia Cléopâtre pitié pire La matrice des poids 43 Antoine & Cléopâtre Jules César La Tempête HamletOthelloMacbeth Antoine13,111,40000 Brutus3,08,30100 César2,3 00,50,3 Calpurnia011,20000 Cléopâtre17, pitié0,500,70,9 0,3 pire1,200,6 0

44 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier tf.idf Deuxième proposition pour le score de similarité dun document D en fonction dune requête Q On ne la conservera pas non plus ! (voir cours sur les modèles de recherche…) 44

45 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier tf.idf Il y a un tf par terme et par document dans une collection Il y a un idf par terme dans une collection Attention à ne pas confondre : 45 Pourquoi ? cfdf assurance essayer

46 Extraction dInformation dans les Textes I Normalisation, pondération Xavier Tannier La semaine prochaine Construction de lindex Requête dans un index Structures de données 46


Télécharger ppt "Xavier Tannier Normalisation - Pondération Extraction dInformation dans les textes I."

Présentations similaires


Annonces Google