La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La Recherche d’Information

Présentations similaires


Présentation au sujet: "La Recherche d’Information"— Transcription de la présentation:

1 La Recherche d’Information
Janvier 2001

2 Max CHEVALIER - chevalie@irit.fr
Plan La Recherche d'Informations (RI) Evaluation Méta-données le « vague » en RI Domaines d’application : Informations Multilingues Informations Multimédia Librairies numériques Web Documents structurés Max CHEVALIER -

3 La Recherche d'Informations 1/8
Née il y a plus de 40 ans Tâche principale : retrouver des documents pertinents en réponse à un besoin en informations. Sujets de la RI : Comparaison Exacte vs Partielle Modèles Déterministes vs Probabilistes Langage de requête Artificiel vs Naturel Représentation A priori vs A posteriori Classification La RI : 3 « ciments » : La théorie, l’expérimentation, la pratique. La RI est née il y a un peu plus de 40 ans, début des années 1960 avec Cyril Cleverdon entre autres. La tâche principale d ’un système de RI est de retrouver des documents pertinents en réponse à un besoin en informations. Aujourd'hui on peut être surpris de l'ampleur qu'a pris cette "matière". De plus la frontière entre les Bases de Données et la RI devient floue et la RI expérimente de plus en plus d'applications. On peut citer quelques thèmes dans la RI :... En ce qui concerne les modèles on peut dire qu’aujourd’hui la majorité ne sont pas à comparaison exacte. La RI repose sur 3 concepts qui interagissent ensemble pour donner le meilleur résultat. Max CHEVALIER -

4 La Recherche d'Informations 2/8
La Théorie Devenue à tâtons Sujets Fusion de données Résumé Visualisation du Web Traitement du langage naturel en RI (NLP in IR) Logique & modèles « incertains » Dimensions temporelles ... La théorie est devenue aujourd'hui à tâtons. En fait cela signifie qu'une série de paramètres est modifiée pour en évaluer la modification. Elle permet l'émergence de nouveaux modèles, de méthodes d'expérimentations et de nouvelles mesures d'efficacité de la RI. Voici quelques applications de la théorie, il y en a bien d'autres évidemment. (Recherche avec peu de termes pour la requête…) Max CHEVALIER -

5 La Recherche d'Informations 3/8
L'Expérimentation Nécessaire pour valider une idée, un projet Sujets IHM Visualisation Travail en contexte, approches cognitives Croisement de langues Croisement de média RI basée sur des corpus Librairies numériques TREC Les expérimentations en RI sont une tradition. Elles servent à tester un modèle, une idée. Divers problèmes sont liés à cette tâche (établissement de collection de test…) . [Information Retrieval Experiment : Sparck Jones 1981] L'IHM et la visualisation sont 2 thèmes assez liés Dans le domaine de la visualisation on s'interroge sur la façon de présenter les informations (des millions sur une relativement petit espace) afin que l'utilisateur trouve plus aisément ce qu'il recherche. Le croisement de média : recherche d'images en utilisant une requête textuelle. Max CHEVALIER -

6 La Recherche d'Informations 4/8
La Pratique Permet d'apprécier le comportement de l'utilisateur en « grandeur nature » Pour le Web, l'étude pratique est aussi importante que l'expérimentation Sujets Publication électronique RI orientée tâche Exploration des données (data mining) Découverte de connaissance Apprentissage des distances (distance Learning) La 3ème base est la pratique. Celle-ci permet d'apprécier le comportement de l'utilisateur et le fonctionnement en "grandeur nature" du système. Par exemple pour le Web, l'étude Pratique est aussi importante que l'expérimentation. D'autres applications par exemple, RI orientée tâche : (niche de recherche) On a une tâche et on utilise la RI pour la satisfaire (ex : journal dans lequel on a écrit un article mais il manque une photo => RI pour trouver la photo qui irait bien avec le texte) Découverte de connaissances : Docs => Association => Liens entres Docs termes/concept émergent Distance Learning : Evaluation de la distance entre les textes, les documents... Max CHEVALIER -

7 La Recherche d'Informations 5/8
Processus général de la RI Processus en U Besoin en Informations Objets "fictifs" Représentation Représentation Requête Objets indexés Comparaison (matching) Dans ce schéma on peut souligner le "relevance feedback". De toutes les techniques inventées pour améliorer la RI, la RF est probablement la plus performante. Le problème est que, sur le Web par exemple, cette technique est peu utilisée par les utilisateurs. Soit parce qu'ils ne le comprennent pas ou qu'ils ne savent pas en tirer partie. L'Utilisateur tient un rôle primordial dans la conception d'un processus de RI. TOUS LES OUTILS DOIVENT ETRE CONCUS POUR LES UTILISATEURS. Où se trouve l'utilisateur ?? Max CHEVALIER -

8 La Recherche d'Informations 6/8
Les modèles dans la RI Bases théoriques pour calculer la réponse à une requête. Syntaxe, expressivité du langage de requête + représentation des documents. Plus courants : Booléen Vectoriel Probabiliste N. Fuhr : Modèles en logique propositionnelle (Datalog) Les modèles en RI permettent de poser les bases théorique sur la méthode pour retrouver les documents pertinents en réponse à la requête. Ils diffèrent non seulement par la syntaxe et l ’expressivité de la requête mais aussi par la représentation des documents. Les plus courants sont : Si vous le souhaitez vous pouvez jeter un coup d ’œil à l ’article de Norbert Fuhr qui explique en fait que tous ces modèles reposent en fait sur une logique propositionnelle. Il présente en outre Datalog, un langage de programmation issu des BDD et basé sur la logique des prédicats (Ex: Prolog). Je le présenterai succinctement après la présentation des modèles. Max CHEVALIER -

9 La Recherche d'Informations 7/8
Modèle Booléen Repose sur les opérateurs booléens (et, ou, non) Permet d ’établir des requêtes complexes En général : Réponse exacte (les réponses correspondent ou pas) Ex de requête : Recherche ET Informations La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations » Le modèle booléen repose sur les opérateurs ET, OU, NON. Il permet d ’établir des requêtes complexes, mais plus cela devient complexe moins cela reste facilement compréhensible. Il donne en général une réponse exacte (exact matching) bien qu ’aujourd ’hui des travaux comme ceux de Gabriella Pasi permettent d ’introduire une hiérarchie dans la réponse. Max CHEVALIER -

10 La Recherche d'Informations 8/8
Modèle Vectoriel Repose sur l’algèbre vectoriel Les documents et la requête = vecteur poids termes d ’indexation La correspondance entre les vecteurs documents et celui de la requête : produit scalaire mesure de cosinus distance métrique Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983] Le modèle vectoriel représente les documents et la requête sous forme de vecteur de même taille. Chaque élément du vecteur représente le poids du terme d ’indexation correspondant. Le poids peut être calculé avec la formule Tf*Idf On utilise 3 formules de base pour le calcul de la similarité entre les vecteurs documents et le vecteur requête : produit scalaire, mesure cosinus, distance métrique. Le résultat peut être ensuite classé par ordre de pertinence. Pour des renseignements complémentaire et la présentation des autres modèles se référer à l ’ouvrage Modern Information Retrieval de Baeza-Yates ou Introduction to Modern Information Retrieval de Salton. Max CHEVALIER -

11 Evaluation en RI

12 Max CHEVALIER - chevalie@irit.fr
Evaluation 1/5 Pourquoi Evaluer ? Tout système conçu pour aider l’homme dans une tâche doit être évalué. IR : domaine non cartésien Divers angles pour évaluer : Performance de la RI (vitesse de réponse par ex) Efficacité de la RI Nous avons vu grossièrement le problème de comment retrouver les infos pertinentes. Mais il est nécessaire d’évaluer ces systèmes de RI. En effet Tout… D ’autant plus qu ’en IR, on a plusieurs possibilités de conception (niveau d ’abstraction). Ce n ’est pas quelque chose de carré. Il est possible d ’évaluer un systèmes sous divers aspects : Les performances (rapidité par exemple) L ’efficacité : comment il répond aux besoins de l ’utilisateur. C ’est ce dernier point que je détaillerai ici. L ’efficacité d ’un SRI est double. Elle peut être faite en laboratoire et en grandeur nature. Max CHEVALIER -

13 Max CHEVALIER - chevalie@irit.fr
Evaluation 2/5 Evaluation en Laboratoire : Déf : Un système : Ens. Méthodes et procédures pour l’indexation & la recherche. Une collection de documents : Ens. d’informations structurées par un auteur. Une collection de requêtes Critère Basique d’évaluation : Que constitue un bon document (pertinent) ? Il nous faut définir tout d’abord une série de concepts liées à l'évaluation en laboratoire. Mauvaise suppositions : Seulement I/O (No interaction), Seulement un programme (Utilisateur en dehors du système…) Un système est un ensemble de méthodes et procédures (quelles soient réalisées par l’Homme ou la machine. Il peut être vu plus grossièrement comme un système informatique (Logiciel et Hardware) et l’interface utilisateur. Une collection de requêtes : traditionnellement une requête est une description d’un centre d’intérêt. Aujourd’hui une requête est une représentation (partielle) d’un besoin en informations. Critère de Base pour l’évaluation : Un doc pertinent est un document qu’un expert juge comme traitant du centre d’intérêt. Efficacité de la RI est généralement définie en terme de retrouver les documents pertinents et DE NE PAS retrouver les documents non pertinents. Max CHEVALIER -

14 Max CHEVALIER - chevalie@irit.fr
Evaluation 3/5 Mesure de l’efficacité : Rappel Précision Concevoir une Expérimentation Documents et requêtes réutilisés dans différents tests pour pouvoir comparer les systèmes Un grand nombre de tests doivent être réalisés pour vérifier l’étendue des paramètres du système Intérêt d’expérimentations Parallèles TREC (Text REtrieval Conference) CLEF, NCTIR... Un problème reste en suspend : l’expérimentation en laboratoire est quelque chose de mécanique et ne correspond pas à l’utilisation en « grandeur nature ». Autres bases de tests : CLEF NCTIR Max CHEVALIER -

15 Max CHEVALIER - chevalie@irit.fr
Evaluation 4/5 Impliquer l’utilisateur Problème posés par : l’interaction le jugement propre à l’utilisateur D’un point de vue cognitif : Un besoin d’informations provient d’un état des connaissances (EC) incomplet Le processus pour améliorer cet EC est purement cognitif pour la part de l’utilisateur La RI n ’est qu’une partie de ce processus OKAPI : famille de SRI expérimentaux pour utilisateurs finals. L’utilisateur pose problème du fait de l’interaction pendant et entre les sessions de RI. La pertinence ne correspond pas explicitement aux besoins en informations de l ’utilisateur. La pertinence devrait être jugée par rapport aux besoins non demandés. OKAPI : Système mettant en scène des U finals Max CHEVALIER - Basic System Interface Modèle du Système fait par l’utilisateur Modèle de la RI fait par l’utilisateur EC

16 Max CHEVALIER - chevalie@irit.fr
Evaluation 5/5 IR Expérimentale : Non interactive, orientée système, algorithmique, -> Performances relatives au système IR Interactive : Cognitive, centrée sur l’utilisateur -> Permet de comprendre quel système, quelles structures d’informations et fonctionnalités de l’interface, permettent au mieux la recherche d’informations dans le contexte. Max CHEVALIER -

17 Les Méta-données

18 Max CHEVALIER - chevalie@irit.fr
Méta-Données 1/4 Méta-Données ? « Données sur les données » Différentes disciplines, différents « sens » Divers types de Méta-données sont nécessaires : Découverte : Qu’est-ce qui existe ? Localisation ? Termes & Conditions : Règle pour y accéder ? Données administratives : Date de création ? Provenance : Origine de tout ou partie d’un objet Contexte : Qui l’a créé ? Pourquoi ? Structure : Format de fichier ? Table des matières ? Contenu : De quoi traite l’objet ? Historique de l’utilisation Liens, Relations : Liens vers d’autres objets ? Il est nécessaire d ’avoir des méta-données pour tous les points suivants. D ’après « Typologie des méta-données (Dempsey & Heery) » on peut souligner les différences entre méta-données de part leur complexité et leur granularité. Max CHEVALIER -

19 Méta-Données 2/4 Typologie des méta-données
(Dempsey & Heery sur le Web) Max CHEVALIER -

20 Max CHEVALIER - chevalie@irit.fr
Méta-Données 3/4 Dublin Core Stuart Weibel 1995 -> Identifier et définir un jeu simple d’éléments permettant de décrire des ressources sur les réseaux. Simple Indépendant de la syntaxe Modifiable Quelques exemples : Title, Subject, Creator, Description, Date, Language… Subject(scheme=Dewey Decimal System)= Supercomputers Relation(type = ContainedIn)(identifier = url)=www.dlib.org Max CHEVALIER -

21 Max CHEVALIER - chevalie@irit.fr
Méta-Données 4/4 MARC Machine Readable Catalogue Format 1960, -> bibliothèques Beaucoup de formats (USMARC, UNIMARC, BIBSYS MARC…) Ex : UNIMARC 00x Identification block 1xx Coded Information block 2xx Descriptive Information block 3xx Notes block 4xx Linking entry block 5xx Related title block 6xx Subject Analysis block 7xx Intellectual responsability block 8xx International use block 9xx National use block Les formats MARC sont conçus pour 3 types de données : Bibliographique, Propriétaires, Droits d’accès (authority records) Ces méta-données servent à mieux représenter les informations et par le même biais améliorer les recherches d’informations (Surtout Dublin Core qui est voué aux documents Web). Exemple Unimarc : * *020 $a *100 $aArms,William Y Max CHEVALIER -

22 Le « vague » en RI

23 Max CHEVALIER - chevalie@irit.fr
Le « Vague » en RI 1/2 Vague : modélisé en RI par des travaux sur la logique floue Travaux de G. Pasi & G. Bordogna : Appliquer les concepts de Logique floue sur le modèle booléen. « Trouver les documents récents qui traitent principalement du SIDA » Max CHEVALIER -

24 Max CHEVALIER - chevalie@irit.fr
Le « Vague » en RI 2/2 Travaux de G. Pasi & G. Bordogna Langage de requête : Pondération des termes de la requête q = <Meurtres, 1> AND <Journalistes, 0.6> Utilisation de « poids linguistiques » Très important, moyennement important, peu important... q = <Meurtres, très important> AND <Journalistes, moyennement important> Quantifieurs linguistiques pour agréger les conditions de sélection at least n all Exemple : au moins 2 termes parmi 4... Exemple : Booléen (t1 and t2) or … or (t1 and t2 and t3) or … Flou At least 2 (t1, t2, t3, t4) Max CHEVALIER -

25 Les applications de la RI

26 Max CHEVALIER - chevalie@irit.fr
Applications de la RI Informations multilingues Informations multimédia Bibliothèques digitales Documents structurés & Web Max CHEVALIER -

27 RI Multilingue

28 Informations Multilingues 1/6
MLIA : MultiLingual Information Access Définition : Accéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à n’importe quel niveau de spécificité et inclut tous les problèmes induits par la gestion d’informations multilingues (encodage des caractères, identification du langage…) Multidisciplinaire : RI, TALN... CLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage Née il y a un peu plus de 30 ans. Salton montra qu’en établissant avec soin les thesaurus, la CLIR pouvait être aussi efficace que la RI monolingual. Avènement avec la définition d’Unicode 1.0 (1991) Identification du langage sur Web : KiKui 1996 [23] Max CHEVALIER -

29 Informations Multilingues 2/6
Gestion des textes multilingues conversion des caractères extraction des mots (tokenization) suppression des mots vides normalisation (radicalisation : GB/Porter…) CLIR Machine de traduction (Machine-translation) Basée sur la Connaissance (Knowledge based) Basée sur les Corpus (Corpus based) L ’approche est relativement simple et repose sur quelques phases. Conversion Caractères : Utilisation d’unicode Extraction mots : Pb en chinois, japonais car pas d’espace mots-vides : -30%-50% de mots vides * un terme apparaissant de nombreuses fois dans un texte ne joue qu'un rôle syntaxique (mot vide), et ne doit pas être utilisé lors de l'indexation. * un terme peu fréquent dans un texte n'est utilisable lors de l'indexation que s'il n'est que peu présent dans la base (selon la loi de Zipf). * un terme de fréquence intermédiaire est considéré comme significatif, représentant les concepts sémantiques d’un texte et formant en théorie le langage d’indexation. Max CHEVALIER -

30 Informations Multilingues 3/6
Traduction automatique Traduction dans tous les autres langages cibles. De tous les documents Tâches lourdes et redondance de l’information Non viable si plusieurs langages de requête car les documents sont traduits dans toutes les langues De la requête Rapide ambiguïté car pas de contexte Ce n ’est pas une réelle réponse à la RI multilingue. Max CHEVALIER -

31 Informations Multilingues 4/6
Basées sur la Connaissance Thésaurus Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l ’indexation Pas de problème d'ambiguïté Ontologie lourde à construire et à mettre à jour Affectation des termes au document lourde Entrainement nécessaire pour utiliser le thésaurus Dictionnaires bilingues Remplacement des mots de la requête par les traductions possibles Expansion de requête Pour des langues : difficile de trouver un dictionnaire Ambiguïté, termes généraux, expressions Ontologie : Connaissance de l’être en tant qu’être Avec le vocabulaire contrôlé… L’utilisateur choisit un terme dans sa langue correspondant au concept et l’ontologie retrouve des termes dans l’autre langue. Dictionnaires : En remplaçant les termes de la requête par les possibles traductions on arrive a des perf. env. de 40/60% par rapport a une recherche monolingue a cause de : -ambiguïté, pas de termes spécialisés, pas de traduction d’expression. Max CHEVALIER -

32 Informations Multilingues 5/6
Basées sur les corpus Proposent une équivalence lexicale entre les lang. Corpus parallèles Documents traduits dans les lang. cible/destination Latent Semantic Indexing Bons résultats avec GB & FR, Espagne, Grèce et JP Collections difficiles à obtenir Corpus comparables Documents : même thème, même période, même genre Aligne les documents par rapport à leur descripteurs (date, mots-clés, noms propres…) Ex: Swiss News Agency : Allemand, Français, Italien Plus faciles a trouver Alignement plus complexe à réaliser LSI basé sur le modèle vectoriel pour permettre une réduction de matrice (co-ocurrence). La plus connue des approches utilisant les corpus comparables est « le thesaurus de similarité multilingue ». Pb des corpus : Dur a obtenir Les corpus d ’apprentissage doivent être gros tendent à être dépendant du domaine d’appli. Max CHEVALIER -

33 Informations Multilingues 6/6
Résumé La plupart des travaux se basent uniquement sur 2 langues Limitations de chaque méthode Manque de ressources (corpus, dictionnaires…) Plus de travaux doivent se concentrer sur les mécanismes inter-langues. MT : % monolingue Domaine général Dict : % … … Corpus : 80 % … … 90 % … Domaine spécifique La création de ressource (corpus, dictionnaire, ontologie) est longue et chère à implémenter. De plus elle est bien souvent spécifique à l ’application est est peu réutilisable. Max CHEVALIER -

34 RI Multimédia

35 Informations Multimédia 1/3
Images Applications : Prévention des crimes, Propriété intellectuelle (TradeMark) Journalisme & publication, diagnostic médical 3 Niveaux d’études : 1 - Bas niveau : attributs primitifs forme, texture, couleur, localisation spatiale 2 - Niveau dérivé ou attributs logiques objets d’un type donné, objets nommés 3 - Niveau Subjectif ou attributs abstraits événements spécifiés ou type d’activité signification émotionnelle ou symbolique Importance de l’interface et intégration de l’utilisateur CBIR : Content Based Image Retrieval Les requetes sont réparties en 3 niveaux. 2 - Trouver un bus a double etage ! Trouver la Tour Eiffel 3 - Trouver une photo sur la danse irlandaise Trouver une photo qui montre la souffrance L’indexation classique est de fournir un descripteur permettant de répondre à ces niveaux de requête. L ’indexation reste très manuelle Max CHEVALIER -

36 Informations Multimédia 2/3
Son Format de base : WAV, MIDI Différents formats de compression (MP3, AIFF…) Musique : Méta-données ou RI traditionnelle (MIDI). Dialogue : Phonèmes : « More details » -> m oo r d ii t ei l z 4 Approches : Repérage de mots Reconnaissance du locuteur Recherche basée sur les phonèmes Recherche basée sur les mots (Tâche TREC) Le fichier midi est un fichier ASCII ou sont répertoriées toutes les notes de la partition. En ce qui concerne la musique, on reste sur une indexation recherche par rapport des méta-données (auteur, titre, genre…) quoique la recherche via le contenu est active. Le dialogue : Plus complique et a été longtemps une finalité de l’intelligence artificielle. Un mot parlé est exactement comme une mot écrit quoique la reconnaissance des frontieres entre les mots. L’étude des phonèmes peut poser des problèmes car le mot n’a pas constamment la même forme (fatigue, lieu…) Repérage des mots : vocabulaire prédéfini Reconnaissance du locuteur : Reconnaître dans un dialogue par ex qui a prononcé tel ou tel phrase. Par phonème : Utilise les treillis de phonèmes pour indexer. Les requetes sont passees en phonemes par des dictionnaires Par mots : Reconnaissance de termes et utilisation des travaux en IR textuelle. Max CHEVALIER -

37 Informations Multimédia 3/3
Vidéo Taille importante (1 sec = 18 Mo à 720Ko/im) Vidéo = 3 dimensions (x, y, t) 4 Formats compression : MPEG MPEG 1 & 2 : 3 types de Frames I,B,P. MPEG 4 : Identifie les objets dans les séquences. MPEG 7 : Inclus un aspect sémantique, Le « descripteur » : langage balisé (XML) Indexation par identification de séquences et méta-données Indexation son & vidéo synchronisés « navigation » vs « recherche » pour les médias continus (vidéo, son) Qualité TV : minimum 25 im/sec : 720 ko par image MPEG1 : 352x288 VHS 1.5Mo/sec MPEG2: TV 720x Mo/sec MPEG4 : Objets MPEG7 : Semantique Localisation des séquences / images, histogrammes des couleurs, fondus... Max CHEVALIER -

38 Librairies Digitales

39 Librairies Digitales 1/3
Une LD est : un service, une architecture, un ensemble de ressources informatives, bases de données textuelles, sons, images… un ensemble d’outils et fonctionnalités permettant de localiser, d’utiliser les ressources disponibles. normalement centrée sur l’utilisateur RI joue un rôle clé, mais… Chercher ne suffit pas ! Un DL contient des collections ou l ’info est organise, mise a jour, valide et persistente. Mais elle est differente d ’une bibli classique car les collections sont accessibles via internet, les collections tout comme les objets peuvent être répartis Et un utilisateur de DL est a la fois un consommateur et un producteur d ’information. La RI joue un rôle clef dans les LD mais elles nécessitent d’aller plus loin… Chercher ne suffit pas ! Max CHEVALIER -

40 Librairies Digitales 2/3
Bibliothèque classique : trouver, identifier, sélectionner, obtenir les documents à partir d’informations. Bibliothèque numérique: Localiser, sélectionner parmi des sources pertinentes Y retrouver des documents Interpréter ce qui est retrouvé Gérer les informations filtrées localement Partager ces résultats avec les autres. Max CHEVALIER -

41 Librairies Digitales 3/3
Le Web est-il une DL ? NON Web : a un contenu incomplet manque de standards et de contrôles de qualité non catalogué rappel trop élevé par rapport à la pertinence pas d’organisation responsable Mais il y a plusieurs LD sur le Web !! Max CHEVALIER -

42 Le WEB

43 Max CHEVALIER - chevalie@irit.fr
Web 1/7 Comment retrouver des documents sur le Web ? Par navigation : URL connue Par lien présent dans une autre page Web Service d’alerte (méthode PUSH) Par recherche : Moteur de recherche Web 1 Page Web = 1 document Max CHEVALIER -

44 Max CHEVALIER - chevalie@irit.fr
Web 2/7 Indexation sur le Web Automatique Manuelle Moteurs basés sur les requêtes Les index sont construits automatiquement. Listes classifées Les catalogues répertoriant les pages par thèmes sont construits manuellement Max CHEVALIER -

45 Max CHEVALIER - chevalie@irit.fr
Web 3/7 Différences au sein de l’indexation Particularités du Web Liens hypertextes = relations entre les documents classification Avantage : [Botafogo93] proposer des classes de documents qui dépendent d’un contexte, d’un thème… à partir des liens qu’ils possèdent entre eux = Réduction de la quantité d’informations à stocker Liens intéressants pour la classif. Ainsi le Cluster Hypothesis montre que si une page est pertinente, les pages liées tendent à être également pertinentes pour les même besoins. Travaux de Botofago reposent sur l ’insertion de liens semantiques entre les doc et non sur les liens d ’origine des documents. Max CHEVALIER -

46 Max CHEVALIER - chevalie@irit.fr
Web 4/7 Utilisation des liens Hypertextes Hypertexte bien réalisé : Baisse du risque de « perte » de l’utilisateur (hiérarchie) Organisation plus rigoureuse de l’information (navigation) Analyse de l’hypertexte [Botafogo93] Plus le nombre entre 2 nœuds est grand, plus la relation entre les nœuds est importante Permettant de : détecter le nœud index de l’hypertexte (liens out) détecter les nœuds références (liens in) mesurer la compacité de l’hypertexte mesurer la stratification (nbre de « couches ») Compacité : permet d ’évaluer la taille de l ’hypertexte. Compact, l ’utilisateur arrivera + facilement a atteindre presque tous les nœuds a travers un reseau dense de liens. A l ’oppose peu compact avec peu de liens, l ’U ne pourra acceder a tous les nœud a partir d ’un nœud donné. Relation avec Precision/Rappel: Haute Compacite : Rappel eleve (car atteindre tous les nœuds) mais precision faible (pour mm raison) Faible compacite : Rappel faible & Precision Haute Stratification donne une idee de combien de pas sont necessaire pour atteindre le nœud souhaite. Equivaut à l ’effort que doit faire l ’U. Max CHEVALIER -

47 Max CHEVALIER - chevalie@irit.fr
Web 5/7 Utilisation dans la RI Classification : Par contenu Par liens => Utilisation mixte des 2 Analyse Structurelle : Identification de pages d’acceuil et pages références indexation de la structure globale Mesures : Non spécifique au Web mais adéquates qualité et complexité d’une portion du Web La RI et l ’étude des liens a debute à son début avec l ’etude des co-citations. Classif : Par contenu : si on a un doc pertinent on peut dire lesquels le sont egalement. Par lien : independant du contenu, permet une meilleure navigation. Sur le Web probleme car pas de representation semantique entre pages. Max CHEVALIER -

48 Max CHEVALIER - chevalie@irit.fr
Web 6/7 Algorithmes existants HITS (Hyperlink Induced Topic Search) PageRank Algo. de génération de liens auto. [Salton96], [Allan97], [Agosti97], [Melluci99] relation de similarité entre nœuds détection de liens de différents types (révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation) Algo : Permettent de mettre en évidence des pages importantes. Et donc introduire cela dans la RI. Relation de similarité : Salton 96. Creation de l ’Hypertexte lors de la restitution des resultats de recherche et est donc dependant de la requete. Max CHEVALIER -

49 Max CHEVALIER - chevalie@irit.fr
Web 7/7 Evaluation de la RI sur le Web Pb : Dynamique du Web Hétérogénéité des pages et des requêtes Hyperliens entre les pages Base de test : tâche Web de TREC performance de la RI sur le Web (1999) Small Task - 2 Go ( docs) Large Task Go (18.5 Millions docs) Max CHEVALIER -

50 Documents structurés

51 Documents structurés 1/4
RI Interactive Utilisateur Besoins en Informations Début Commande Interprétation de la Commande Révision de la Commande Affichage du résultat Effort Cognitif Evaluation du résultat Commande : * Pose d ’un requête * Active une ancre (lien hypertexte). Utilisateur Satisfait ? Non Oui Fin Max CHEVALIER -

52 Documents structurés 2/4
Recherche vs Navigation Impact des informations structurées : Recherche : Pas ou peu de prise en compte de la structure Navigation : Surcharge cognitive lorsque la structure de l’hypermédia n’est pas explicite -> Interaction mixte Impact sur : Recherche : Les pages Web sont vues comme des documents atomiques. Une liste de pages liees peuvent etres vue comme un hypermedia n’est pas utilisee telle qu ’elle. Une page s,q retrouvee mais liees sont presentee independamment Max CHEVALIER -

53 Documents structurés 3/4
Modèle intégré Modèle de RI étendu (fonctionnalités hypermédia) prendre en considération la structure du document Modèle Hypermédia étendu gestion du contenu liens typés liens pondérés construction de liens Approche : HyperIndex Treillis de concepts RECHERCHE HyperBase NAVIGATION BeamUp BeamDown Max CHEVALIER -

54 Documents structurés 4/4
Conclusion prise en considération de la structure permet d’accroître les performances de la RI en terme d’interaction et P/R permet l’intégration de la recherche et la navigation comme des façons complémentaires de trouver l’information permet l’intégration de divers médias dans une stratégie d’indexation/recherche unique améliorer focus / précision : important pour le Web implique une meilleur compréhension des notions « core » des documents, des besoins de l’utilisateur, de la pertinence Max CHEVALIER -


Télécharger ppt "La Recherche d’Information"

Présentations similaires


Annonces Google