Normalisation - Pondération

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Vocabulaire 6.2 Français II Bon voyage ! 1.
Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
A l’issue des conseils de classe de 3ème,
Licence pro MPCQ : Cours
Distance inter-locuteur
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Les numéros
1 Introduction Introduction 1 - Caractérisation de la polarisation 2 - Etude de la polarisation dune OPPM Chapitre 2 Polarisation des OEM dans le vide.
Architecture de réseaux
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Cours présentielle avec 1er année.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
JACK JEDWAB ASSOCIATION DÉTUDES CANADIENNES MAI 2013 LE DÉCLIN DU FRANÇAIS OU DE LANGLAIS AU QUÉBEC? OPINIONS DU RDC (RESTE DU CANADA)
Introduction aux CMS.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Améliorer les performances du chiffrage à flot SYND
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Écrit, animé et illustré par Sheila CartwrightTraduit par
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1. 9 juillet 2009 Portrait du financement des organismes communautaires en santé et services sociaux Année de référence Ministère de la Santé
Le maitre est ici, et il te demande.
1.2 COMPOSANTES DES VECTEURS
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Décomposer un nombre en facteurs premiers.
Pro Senectute Vaud Unité Centres de rencontre Centre Val Paisible Lausanne.
28 novembre 2012 Grégory Petit
Bases de données lexicales
Tableaux de distributions
Tableaux de distributions
22 janvier 2013 Commercialiser en 2013 ! Que de variables à ajuster ! 1.
Indexation et Recherche d'Information
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les Pourcentages.
Jeu de révision pour le test La 2e Guerre mondiale.
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La Distribution des Données
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
1.1 LES VECTEURS GÉOMÉTRIQUES
Indexation et Recherche d'Information
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Résoudre une équation du 1er degré à une inconnue
45 Conseils Écrit par Regina Brett, 90 ans,
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Exercice de vérification 1 p
passé simple  1 il fin… son livre itint èrent aut irenturentinrent.
Les Chiffres Prêts?
Jean de la Fontaine UMP Présidentielle 2017 Récitant: Fernandel Le lièvre et la tortue Par Nanou et Stan.
1.
Partie II: Temps et évolution Energie et mouvements des particules
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Transcription de la présentation:

Normalisation - Pondération Extraction d’Information dans les textes I

Rappels des épisodes précédents

Les acteurs de la Recherche d'Information Collection : un ensemble de documents Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information En langage naturel (et créée pour des humains) De façon rapide et pertinente Utilisateur : un besoin d'information et/ou une tâche à accomplir

Indexation - Normalisation

Recherche d'Information Indexation (modèle de document) Collections dynamiques vs. statiques Modèle de recherche Évaluation Requête

Indexation : pourquoi ? L’idée principale du moteur de recherche est de retrouver les documents qui « parlent de » la requête. On utilise ce qu’on a sous la main : les mots Qu’est-ce qu’un mot ? Que faire lorsqu’un mot est « proche » d’un mot de la requête ? Le parcours complet de l'ensemble des documents  avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif. On passe par un traitement préalable : l'indexation : Le but de l'indexation automatique : "transformer des  documents en substituts capables de représenter le contenu  de ces documents" (Salton et McGill, 1983)

Indexation libre et contrôlée Mots, termes des documents Indexation contrôlée Listes de termes prédéfinies Vocabulaire contrôlé (évite polysémie,  synonymie et problèmes de granularité) Thésaurus exemple : thésaurus UMLS

Construction de l’index : vue générale DOCUMENTS TERMES Rien ne sert de courir il faut partir à point INDEX Quels choix ? TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" aujourd’hui d’un S.N.C.F. Le Mans 14/07/1789 … TERMES normalisés rien sert courir faut partir point On verra ça plus tard

Construction de l’index : exemple DOCUMENTS TERMES INDEX I did enact Julius Caesar I was killed i’ the TEXTE TERMES normalisés Doc #1 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc #2 I did enact julius So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious caesar I was killed i’ the

Dans quels documents cherche-t-on ? Formats : HTML (menus, tableaux, publicité, rendu) Texte brut (structure ?) pdf (problèmes d’encodage, rendu) Word (format propriétaire, structure) Excel (gestion des tableaux) OpenOffice (XML) … Il est assez simple de détecter le type d’un document Des heuristiques spécifiques à chaque format pour extraire le texte Les moteurs de recherche utilisent très rarement la structure des documents

Dans quels documents cherche-t-on ? Langues Identification de langues, un problème difficile Des documents multilingues De la recherche d’information multilingue Encodages Vu en TD… Des erreurs dans la gestion de l’encodage peuvent conduire à des résultats erronés « président du Pérou »

Dans quels documents cherche-t-on ? « Unité » document Un fichier ? Un e-mail ? Avec ses entêtes ? Avec ses attachements ? Un groupe de fichiers ? Site Web Document en plusieurs fichiers Etc.

Du texte aux termes DOCUMENTS TERMES INDEX TEXTE TERMES normalisés Rien ne sert de courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" aujourd’hui d’un S.N.C.F. Le Mans 14/07/1789 … TERMES normalisés rien sert courir faut partir point

La segmentation Identification des unités élémentaires (phonèmes, morphèmes, mots, etc.). Pour l'écrit, des mots et des phrases. Un problème très complexe dans certaines langues (chinois...) L’étape initiale indispensable pour tout travail sur le texte On obtient des mots, ou des termes, ou des tokens Ces unités seront les candidats à l’indexation et à la recherche dans une requête

La segmentation Dans les langues "européennes" : Les délimiteurs de mots et de phrases peuvent être ambigus etc. T.A.L. 21.3 www.sncf.com l'illusion aujourd'hui jusqu'à Jean-Louis donne-t-il 1914-1918 06-13-23-33-12 Les mots (noms propres en particulier) peuvent avoir des variantes : Etats-Unis États-Unis France Inter France-Inter Même l’espace n’est pas toujours un bon délimiteur San Francisco ? « Ni putes ni soumises » ?

La segmentation Dans les langues "européennes" : Les nombres, les dates 14/07/1789 Mardi 12 mars B-52 (+33) 6 45 65 13 95 Les anciens systèmes de RI retiraient tout simplement les nombres Toujours source de beaucoup d’erreurs dans les systèmes de RI modernes Les langues agglutinantes Lebensversicherungsgesellschaftsangestellter (employé d’une compagnie d’assurance-vie) Un segmenteur de mots composés est alors utile

La segmentation En Japonais, Chinois, etc. il n’y a pas d’espace entre les mots 情报信息检索中用于对信息分类或索引的词。 La segmentation n’est pas toujours unique En Japonais, on ajoute au problème plusieurs types d’alphabets ! 県災害対策本部が11日現在で発表した被害状況によると、計19市町の201カ所に7299人が避難している。 En Arabe ou en Hébreu, on écrit de droite à gauche, mais certains éléments sont écrits de gauche à droite يوم الأربعاء أن زكاة الفطر عن شهر رمضان المعظم لعام 1432 هجري الموافق ل 2011 ميلادي قدرت ب 100 دينار

Normalisation DOCUMENTS TERMES INDEX TEXTE TERMES normalisés Rien ne sert de courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" aujourd’hui d’un S.N.C.F. Le Mans 14/07/1789 … TERMES normalisés rien sert courir faut partir point

Mots vides Les mots « outils » n’apportent pas de sens au texte déterminants : « le », « la », pronoms : « je », « nous », prépositions : « sur », « contre », … Ce sont les mots les plus fréquents de la langue Les 30 mots les plus fréquents représentent 30 % des occurrences de mots Les supprimer permet d’économiser beaucoup de place dans l’index Mais : On en a besoin pour des requêtes multi-termes « pomme de terre », « les Chevaliers du Zodiaque » Ils sont parfois porteurs de sens dans des cas particuliers « Let it be », « The Who », « ça », « être ou ne pas être » La compression permet finalement de conserver les mots vides dans peu d’espace (nous verrons cela plus tard)

Normalisation de mots « identiques » Dans les documents comme dans la requête On veut par exemple normaliser : « U.S.A. » et « USA »  USA « morpho-syntaxe » et « morphosyntaxe »  morphosyntaxe « Tuebingen », « Tübingen » et « Tubingen »  Tubingen «  Gorbatchov » et « Gorbatchev »  Gorbatchev Mais pas : « sur » et « sûr », « pêche » et « péché » En allemand, « mit » (avec) et « MIT » En anglais, « C.A.T. » (Caterpillar) et « cat » Sans oublier les fautes de frappe / d’orthographe (voir plus tard)

Formes d'un mot, famille d'un mot Flexion Verbale : montrer, montreras... Nominale : cheval, chevaux... forme canonique (lemme) et formes fléchies Dérivation penser/V + able = pensable in + pensable/A = impensable base et dérivé Composition appendice + ectomie = appendicectomie éléments de formation, mot composé

Lemmatisation Obtention de la forme canonique (le lemme) à partir du mot : Pour un verbe : sa forme à l'infinitif (sans les flexions) montrer, montreras, montraient  montrer Pour un nom, adjectif, article, ... : sa forme au masculin singulier vert, vertes, verts  vert La lemmatisation demande des ressources et un traitement linguistique En particulier pour les nombreuses exceptions Long et donc difficile à mettre en œuvre pour des grandes collections Dépendant de la langue Elle n’agrège que des variantes flexionnelles cheval = chevaux cheval ≠ chevalier

Racinisation (stemming) Obtention de la racine, une forme tronquée du mot, commune à toutes les variantes morphologiques Suppression des flexions Suppression des suffixes Ex : cheval, chevaux, chevalier, chevalerie, chevaucher  "cheva"(mais pas "cavalier") La racinisation est généralement à base de règles Rapide Dépendant de la langue Elle agrège beaucoup plus que la lemmatisation Index plus petit

Racinication : algorithme de Porter 5 phases de réduction par règles (pour l’anglais, adapté ensuite au français) Si deux règles de réduction s’appliquent, on choisit celle qui supprime le plus long suffixe sses  ss ies  i ational  ate tional  tion Si m > 1 alors cement  "" replacement  replac cement  cement

Étiquetage Associer aux mots leur catégorie morphosyntaxique (nom, verbe, adjectif, etc.) Peut être utile en recherche d'information pour : Supprimer les mots inutiles Opérer des regroupements en termes complexes Rechercher des mots ambigus avec plus de précision (vers, or, pouvoir…) Mais : Un processus plus long 96 % de précision = une erreur par phrase en moyenne !

La morphosyntaxe Des analyses différentes pour des besoins différents : Lemmatisation : pour rechercher/extraire de l'information, accéder au sens d'un lemme en faisant abstraction des flexions. Racinisation (stemming) : pour agréger les dérivations morphologiques à peu de frais, sans souci de la perte du sens et des lemmes initiaux. Étiquetage : pour appliquer des techniques de TAL sur les catégories grammaticales plutôt que sur les mots eux-mêmes. Types de flexions, de dérivations : pour appliquer des traitements plus fins en vue d'une analyse syntaxique et/ou sémantique. Des techniques assez bien maîtrisées : un pourcentage d'erreurs faible mais difficilement compressible.

Indexation DOCUMENTS TERMES INDEX TEXTE TERMES normalisés Rien ne sert courir il faut partir à point INDEX TEXTE Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" aujourd’hui d’un S.N.C.F. Le Mans 14/07/1789 … TERMES normalisés rien sert courir faut partir point

Matrice d'incidence Antoine 1 Brutus César Calpurnia Cléopâtre pitié Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 1 Brutus César Calpurnia Cléopâtre pitié pire

Brutus ET Cléopâtre ET PAS Calpurnia Matrice d'incidence Brutus ET Cléopâtre ET PAS Calpurnia Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 1 Brutus César Calpurnia Cléopâtre pitié pire Vecteurs d'incidence Calpurnia 1 ET "bit à bit" 1

Matrice d'incidence Pourquoi ? On ne peut pas utiliser une telle matrice d'incidence en pratique Pourquoi ? Indices Considérons une collection d'un million de documents Environ 1000 mots par document en moyenne Un vocabulaire total de 500 000 mots distincts. Combien y'a-t-il de cases dans la matrice ? Combien de 1 ? Combien de 0 ?

Fichier inverse

Indexation : le fichier inverse Notion "classique" de l'index Un fichier inverse associe des index aux documents qui les contiennent. Chaque document possède un identifiant unique. a   ▸  d1, d2, d3, d4, d5... à   ▸  d1, d2, d3, d4, d5... abaissa    ▸  d3, d4... abaissable    ▸  d5 abandon ▸  d1, d5 abandonna ▸  d2 abasourdi ▸  d1 … Quelle structure de données pour cet index ? Que se passe-t-il si on ajoute le mot « abandon » au document d3 ?

Sac de mots Modèles « sac de mots » pour l’indexation et la recherche : On oublie l’ordre des mots (« Jean est plus rapide que Marie » = « Marie est plus rapide que Jean ») On raisonne en termes de présence / absence des termes dans un document, ou en terme de fréquence de ces termes

Pondération des termes

Taille du vocabulaire Le vocabulaire grandit quand la collection grandit. Loi de Heaps : M = kTb M : taille du vocabulaire T : nombre de tokens dans la collection b et k : constantes (typiquement, b = 0,5 et k = 30 à 100) Loi empirique Et c’est bien pire pour le Web ! Pourquoi ? Pourquoi ?

Fréquence des termes Peu de mots fréquents, et beaucoup de mots rares Loi de Zipf : le nème mot le plus fréquent a une fréquence proportionnelle à 1/n fréquence des termes Rappel En RI, "fréquence" = "nb d’occurrences" rang des termes

Le tf Dans une requête comme dans un document, les termes n'ont pas tous la même importance Intuition #1 : plus un document contient d'occurrences  d'un terme, plus il est "à propos" de ce terme  (plus il sera pertinent par rapport à une requête contenant ce terme) 𝑡𝑓 𝑡,𝑑 = On va donc conserver dans l’index le nombre d’occurrences de chaque terme dans le document Rien ne sert de courir; il faut partir à point : «Gageons, dit celle-ci, que vous n'atteindrez point Le lièvre et la tortue en sont un témoignage. Sitôt que moi ce but. - Sitôt? Êtes-vous sage ? Ma commère, il vous faut purger Repartit l'animal léger : Avec quatre grains d'ellébore.) - Sage ou non, je parie encore." On mit près du but les enjeux : Ainsi fut fait; et de tous deux Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint. J'entends de ceux qu'il fait lorsque, prêt d'être atteint, Notre lièvre n'avait que quatre pas à faire, Il s'éloigne des chiens, les renvoie aux calendes, Ayant, dis-je, du temps de reste pour brouter, Et leur fait arpenter les landes. D'où vient le vent, il laisse la tortue Pour dormir et pour écouter Aller son train de sénateur. Elle part, elle s'évertue, Lui cependant méprise une telle victoire, Elle se hâte avec lenteur. Tient la gageure à peu de gloire, De partir tard. Il broute, il se repose, Croit qu'il y a de son honneur Qu'à la gageure. A la fin, quand il vit Il s'amuse à toute autre chose Que l'autre touchait presque au bout de la carrière, Il partit comme un trait; mais les élans qu'il fit "Eh bien! lui cria-t-elle, avais-je pas raison ? Furent vains : la tortue arriva la première. Moi l'emporter! et que serait-ce De quoi vous sert votre vitesse ? Si vous portiez une maison ?" nombre d ′ occurrences du terme 𝑡 dans le document 𝑑

La matrice des fréquences Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 157 73 Brutus 4 1 César 232 227 2 Calpurnia 10 Cléopâtre 57 pitié 3 5 pire Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 1 Brutus César Calpurnia Cléopâtre pitié pire Chaque document est un vecteur v dans ℕ 𝑣

Variante du tf Hamlet est plus pertinent pour le terme « pitié » qu’Antoine & Cléopâtre, mais pas 5/2 = 2,5 fois plus pertinent Jules César n’est pas 157/4 = 39 fois plus pertinent qu’A & C pour le terme « Brutus » 0  0 ; 1  1 ; 2  1,3 ; 10  2 ; 1000  4 ; etc. « pitié » : Hamlet  1,7 ; A & C  1,3 « Brutus » : Jules César  3,2 ; A & C  1,6 𝑙𝑜𝑔_𝑡𝑓 𝑡,𝑑 = 0 𝑠𝑖 𝑡𝑓 𝑡,𝑑 =0 1+ log 10 ( 𝑡𝑓 𝑡,𝑑 )

tf Première proposition pour le score de similarité d’un document D en fonction d’une requête Q Ce score est entre 0 et l’infini. On ne le conservera pas ! 𝑠𝑖𝑚 𝑄,𝐷 = 𝑡 ∈𝑄∩𝐷 𝑡𝑓 𝑡,𝐷

idf Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants) On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df) 𝑑𝑓 𝑡 = nombre de documents qui contiennent le terme 𝑡 𝒊𝒅𝒇 𝒕 = 𝒍𝒐𝒈 𝟏𝟎 𝑵 𝒅𝒇 𝒕 (𝑁=nombre total de documents)

tf.idf Le poids d’un terme (tf.idf) est la combinaison de ces deux intuitions pour rendre compte du caractère discriminant d’un terme dans un document Le poids d’un terme t : augmente avec sa fréquence dans le document augmente avec sa rareté dans la collection 𝒘 𝒕,𝒅 = 𝒕𝒇 𝒕,𝒅 ×𝒊𝒅𝒇 𝒕 = 𝒕𝒇 𝒕,𝒅 ×𝒍𝒐𝒈 𝟏𝟎 𝑵 𝒅𝒇 𝒕 𝒘 𝒕,𝒅 = 𝒍𝒐𝒈_𝒕𝒇 𝒕,𝒅 ×𝒍𝒐𝒈 𝟏𝟎 𝑵 𝒅𝒇 𝒕 ou

La matrice des poids Chaque document est un vecteur v dans ℝ 𝑣 Antoine Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 157 73 Brutus 4 1 César 232 227 2 Calpurnia 10 Cléopâtre 57 pitié 3 5 pire Antoine & Cléopâtre Jules César La Tempête Hamlet Othello Macbeth Antoine 13,1 11,4 Brutus 3,0 8,3 1 César 2,3 0,5 0,3 Calpurnia 11,2 Cléopâtre 17,7 pitié 0,7 0,9 pire 1,2 0,6 Chaque document est un vecteur v dans ℝ 𝑣

tf.idf Deuxième proposition pour le score de similarité d’un document D en fonction d’une requête Q On ne la conservera pas non plus ! (voir cours sur les modèles de recherche…) 𝑠𝑖𝑚 𝑄,𝐷 = 𝑡 ∈𝑄∩𝐷 𝑤 𝑡,𝐷

tf.idf Il y a un tf par terme et par document dans une collection Il y a un idf par terme dans une collection Attention à ne pas confondre : 𝑑𝑓 𝑡 = nombre de documents qui contiennent le terme 𝑡 𝑐𝑓 𝑡 = nombre d ′ occurrences du terme 𝑡 dans la collection Pourquoi ? cf df assurance 10440 3997 essayer 10422 8760

La semaine prochaine Construction de l’index Requête dans un index Structures de données