La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La Recherche dInformation Janvier 2001. Max CHEVALIER - zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague.

Présentations similaires


Présentation au sujet: "La Recherche dInformation Janvier 2001. Max CHEVALIER - zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague."— Transcription de la présentation:

1 La Recherche dInformation Janvier 2001

2 Max CHEVALIER - zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague » en RI zDomaines dapplication : yInformations Multilingues yInformations Multimédia yLibrairies numériques yWeb yDocuments structurés

3 Max CHEVALIER - La Recherche d'Informations 1/8 zNée il y a plus de 40 ans zTâche principale : retrouver des documents pertinents en réponse à un besoin en informations. zSujets de la RI : yComparaison Exacte vs Partielle yModèles Déterministes vs Probabilistes yLangage de requête Artificiel vs Naturel yReprésentation A priori vs A posteriori yClassification y… zLa RI : 3 « ciments » : La théorie, lexpérimentation, la pratique.

4 Max CHEVALIER - La Recherche d'Informations 2/8 zLa Théorie yDevenue à tâtons ySujets xFusion de données xRésumé xVisualisation du Web xTraitement du langage naturel en RI (NLP in IR) xLogique & modèles « incertains » xDimensions temporelles x...

5 Max CHEVALIER - La Recherche d'Informations 3/8 zL'Expérimentation yNécessaire pour valider une idée, un projet ySujets xIHM xVisualisation xTravail en contexte, approches cognitives xCroisement de langues xCroisement de média xRI basée sur des corpus xLibrairies numériques xTREC

6 Max CHEVALIER - La Recherche d'Informations 4/8 zLa Pratique yPermet d'apprécier le comportement de l'utilisateur en « grandeur nature » yPour le Web, l'étude pratique est aussi importante que l'expérimentation ySujets xPublication électronique xRI orientée tâche xExploration des données (data mining) xDécouverte de connaissance xApprentissage des distances (distance Learning)

7 Max CHEVALIER - zProcessus général de la RI Processus en U La Recherche d'Informations 5/8 Besoin en Informations Objets "fictifs" Représentation RequêteObjets indexés Comparaison (matching) Où se trouve l'utilisateur ??

8 Max CHEVALIER - La Recherche d'Informations 6/8 zLes modèles dans la RI xBases théoriques pour calculer la réponse à une requête. xSyntaxe, expressivité du langage de requête + représentation des documents. xPlus courants : BooléenBooléen VectorielVectoriel Probabiliste … xN. Fuhr : Modèles en logique propositionnelle (Datalog)

9 Max CHEVALIER - La Recherche d'Informations 7/8 zModèle Booléen xRepose sur les opérateurs booléens (et, ou, non) xPermet d établir des requêtes complexes xEn général : Réponse exacte (les réponses correspondent ou pas) Recherche ET Informations xEx de requête : Recherche ET Informations La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations »

10 Max CHEVALIER - La Recherche d'Informations 8/8 zModèle Vectoriel xRepose sur lalgèbre vectoriel xLes documents et la requête = vecteur poids termes d indexation xLa correspondance entre les vecteurs documents et celui de la requête : produit scalaire mesure de cosinus distance métrique Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983]

11 Evaluation en RI

12 Max CHEVALIER - Evaluation 1/5 zPourquoi Evaluer ? doit xTout système conçu pour aider lhomme dans une tâche doit être évalué. xIR : domaine non cartésien xDivers angles pour évaluer : Performance de la RI (vitesse de réponse par ex) Efficacité de la RIEfficacité de la RI xEfficacité de la RI

13 Max CHEVALIER - Evaluation 2/5 zEvaluation en Laboratoire : yDéf : xUn système xUn système : Ens. Méthodes et procédures pour lindexation & la recherche. xUne collection de documents xUne collection de documents : Ens. dinformations structurées par un auteur. xUne collection de requêtes xCritère Basique dévaluation xCritère Basique dévaluation : Que constitue un bon document (pertinent) ?

14 Max CHEVALIER - Evaluation 3/5 xMesure de lefficacité xMesure de lefficacité : RappelPrécision xConcevoir une Expérimentation Documents et requêtes réutilisés dans différents tests pour pouvoir comparer les systèmes Un grand nombre de tests doivent être réalisés pour vérifier létendue des paramètres du système xIntérêt dexpérimentations Parallèles TREC (Text REtrieval Conference) CLEF, NCTIR...

15 Max CHEVALIER - Evaluation 4/5 zImpliquer lutilisateur xProblème posés par : –linteraction –le jugement propre à lutilisateur xDun point de vue cognitif : Un besoin dinformations provient dun état des connaissances (EC) incomplet Le processus pour améliorer cet EC est purement cognitif pour la part de lutilisateur La RI n est quune partie de ce processus xOKAPI xOKAPI : famille de SRI expérimentaux pour utilisateurs finals.

16 Max CHEVALIER - Evaluation 5/5 zIR Expérimentale : xNon interactive, orientée système, algorithmique, –-> Performances relatives au système zIR Interactive : xCognitive, centrée sur lutilisateur –-> Permet de comprendre quel système, quelles structures dinformations et fonctionnalités de linterface, permettent au mieux la recherche dinformations dans le contexte.

17 Les Méta-données

18 Max CHEVALIER - Méta-Données 1/4 zMéta-Données ? x« Données sur les données » xDifférentes disciplines, différents « sens » xDivers types de Méta-données sont nécessaires : DécouverteDécouverte : Quest-ce qui existe ? Localisation ? Termes & ConditionsTermes & Conditions : Règle pour y accéder ? Données administrativesDonnées administratives : Date de création ? ProvenanceProvenance : Origine de tout ou partie dun objet ContexteContexte : Qui la créé ? Pourquoi ? StructureStructure : Format de fichier ? Table des matières ? ContenuContenu : De quoi traite lobjet ? Historique de lutilisationHistorique de lutilisation Liens, RelationsLiens, Relations : Liens vers dautres objets ?

19 Max CHEVALIER - Méta-Données 2/4 zTypologie des méta-données (Dempsey & Heery sur le Web)

20 Max CHEVALIER - Méta-Données 3/4 zDublin Core xStuart Weibel 1995 x-> Identifier et définir un jeu simple déléments permettant de décrire des ressources sur les réseaux. xSimple xIndépendant de la syntaxe xModifiable xQuelques exemples : xTitle, Subject, Creator, Description, Date, Language… xSubject(scheme=Dewey Decimal System)= Supercomputers xRelation(type = ContainedIn)(identifier = url)=www.dlib.org

21 Max CHEVALIER - Méta-Données 4/4 zMARC xMachine Readable Catalogue Format x1960, -> bibliothèques xBeaucoup de formats (USMARC, UNIMARC, BIBSYS MARC…) xEx : UNIMARC –00xIdentification block –1xx Coded Information block –2xx Descriptive Information block –3xxNotes block –4xxLinking entry block –5xxRelated title block –6xxSubject Analysis block –7xxIntellectual responsability block –8xxInternational use block –9xxNational use block

22 Le « vague » en RI

23 Max CHEVALIER - Le « Vague » en RI 1/2 zVague : modélisé en RI par des travaux sur la logique floue zTravaux de G. Pasi & G. Bordogna : xAppliquer les concepts de Logique floue sur le modèle booléen. récents principalement x« Trouver les documents récents qui traitent principalement du SIDA »

24 Max CHEVALIER - Le « Vague » en RI 2/2 zTravaux de G. Pasi & G. Bordogna xLangage de requête : Pondération des termes de la requête –q = AND Utilisation de « poids linguistiques » –Très important, moyennement important, peu important... –q = AND Quantifieurs linguistiques pour agréger les conditions de sélection –at least n –all –Exemple : au moins 2 termes parmi 4...

25 Les applications de la RI

26 Max CHEVALIER - Applications de la RI zInformations multilingues zInformations multimédia zBibliothèques digitales zDocuments structurés & Web

27 RI Multilingue

28 Max CHEVALIER - Informations Multilingues 1/6 zMLIA zMLIA : MultiLingual Information Access yDéfinition : xAccéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à nimporte quel niveau de spécificité et inclut tous les problèmes induits par la gestion dinformations multilingues (encodage des caractères, identification du langage…) xMultidisciplinaire : RI, TALN... yCLIR yCLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage

29 Max CHEVALIER - Informations Multilingues 2/6 zGestion des textes multilingues xconversion des caractères xextraction des mots (tokenization) xsuppression des mots vides xnormalisation (radicalisation : GB/Porter…) zCLIR xMachine de traduction (Machine-translation) xBasée sur la Connaissance (Knowledge based) xBasée sur les Corpus (Corpus based)

30 Max CHEVALIER - Informations Multilingues 3/6 zTraduction automatique xTraduction dans tous les autres langages cibles. De tous les documents 7Tâches lourdes et redondance de linformation 7Non viable si plusieurs langages de requête car les documents sont traduits dans toutes les langues De la requête 3Rapide 7ambiguïté car pas de contexte

31 Max CHEVALIER - Informations Multilingues 4/6 zBasées sur la Connaissance xThésaurus Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l indexation 3Pas de problème d'ambiguïté 7Ontologie lourde à construire et à mettre à jour 7Affectation des termes au document lourde 7Entrainement nécessaire pour utiliser le thésaurus xDictionnaires bilingues Remplacement des mots de la requête par les traductions possibles 3Expansion de requête 7Pour des langues : difficile de trouver un dictionnaire 7Ambiguïté, termes généraux, expressions

32 Max CHEVALIER - Informations Multilingues 5/6 zBasées sur les corpus xProposent une équivalence lexicale entre les lang. xCorpus parallèles Documents traduits dans les lang. cible/destination Latent Semantic Indexing 3Bons résultats avec GB & FR, Espagne, Grèce et JP 7Collections difficiles à obtenir xCorpus comparables Documents : même thème, même période, même genre Aligne les documents par rapport à leur descripteurs (date, mots-clés, noms propres…) Ex: Swiss News Agency : Allemand, Français, Italien 3Plus faciles a trouver 7Alignement plus complexe à réaliser

33 Max CHEVALIER - Informations Multilingues 6/6 zRésumé 7La plupart des travaux se basent uniquement sur 2 langues 7Limitations de chaque méthode 7Manque de ressources (corpus, dictionnaires…) 3Plus de travaux doivent se concentrer sur les mécanismes inter-langues. MT : 80 % monolingue Domaine général Dict : 80 % … … Corpus : 80 % … … 90 % … Domaine spécifique

34 RI Multimédia

35 Max CHEVALIER - Informations Multimédia 1/3 zImages xApplications : Prévention des crimes, Propriété intellectuelle (TradeMark) Journalisme & publication, diagnostic médical x3 Niveaux détudes : 1 - Bas niveau : attributs primitifs –forme, texture, couleur, localisation spatiale 2 - Niveau dérivé ou attributs logiques –objets dun type donné, objets nommés 3 - Niveau Subjectif ou attributs abstraits –événements spécifiés ou type dactivité –signification émotionnelle ou symbolique xImportance de linterface et intégration de lutilisateur

36 Max CHEVALIER - Informations Multimédia 2/3 zSon xFormat de base : WAV, MIDI xDifférents formats de compression (MP3, AIFF…) xMusique xMusique : Méta-données ou RI traditionnelle (MIDI). xDialogue xDialogue : Phonèmes : « More details » -> m oo r d ii t ei l z 4 Approches : –Repérage de mots –Reconnaissance du locuteur –Recherche basée sur les phonèmes –Recherche basée sur les mots (Tâche TREC)

37 Max CHEVALIER - Informations Multimédia 3/3 zVidéo xTaille importante (1 sec = 18 Mo à 720Ko/im) xVidéo = 3 dimensions (x, y, t) x4 Formats compression : MPEG MPEG 1 & 2 : 3 types de Frames I,B,P. MPEG 4 : Identifie les objets dans les séquences. MPEG 7 : Inclus un aspect sémantique, Le « descripteur » : langage balisé (XML) xIndexation par identification de séquences et méta-données xIndexation son & vidéo synchronisés « navigation » vs « recherche » pour les médias continus (vidéo, son)

38 Librairies Digitales

39 Max CHEVALIER - Librairies Digitales 1/3 zUne LD est : xun service, xune architecture, xun ensemble de ressources informatives, bases de données textuelles, sons, images… xun ensemble doutils et fonctionnalités permettant de localiser, dutiliser les ressources disponibles. xnormalement centrée sur lutilisateur xRI joue un rôle clé, mais… Chercher ne suffit pas !

40 Max CHEVALIER - Librairies Digitales 2/3 zBibliothèque classique : ytrouver, identifier, sélectionner, obtenir les documents à partir dinformations. zBibliothèque numérique: yLocaliser, sélectionner parmi des sources pertinentes yY retrouver des documents yInterpréter ce qui est retrouvé yGérer les informations filtrées localement yPartager ces résultats avec les autres.

41 Max CHEVALIER - Librairies Digitales 3/3 zLe Web est-il une DL ? yNON xWeb : a un contenu incomplet manque de standards et de contrôles de qualité non catalogué rappel trop élevé par rapport à la pertinence pas dorganisation responsable xMais il y a plusieurs LD sur le Web !!

42 Le WEB

43 Max CHEVALIER - Web 1/7 zComment retrouver des documents sur le Web ? yPar navigation : xURL connue xPar lien présent dans une autre page Web xService dalerte (méthode PUSH) yPar recherche : xMoteur de recherche Web y1 Page Web = 1 document

44 Max CHEVALIER - Web 2/7 zIndexation sur le Web Automatique Manuelle Moteurs basés sur les requêtes Les index sont construits automatiquement. Listes classifées Les catalogues répertoriant les pages par thèmes sont construits manuellement

45 Max CHEVALIER - Web 3/7 zDifférences au sein de lindexation zParticularités du Web xLiens hypertextes = relations entre les documents classification –Avantage : [Botafogo93] proposer des classes de documents qui dépendent dun contexte, dun thème… à partir des liens quils possèdent entre eux = Réduction de la quantité dinformations à stocker

46 Max CHEVALIER - Web 4/7 zUtilisation des liens Hypertextes xHypertexte bien réalisé : Baisse du risque de « perte » de lutilisateur (hiérarchie) Organisation plus rigoureuse de linformation (navigation) xAnalyse de lhypertexte [Botafogo93] Plus le nombre entre 2 nœuds est grand, plus la relation entre les nœuds est importante Permettant de : –détecter le nœud index de lhypertexte (liens out) –détecter les nœuds références (liens in) –mesurer la compacité de lhypertexte –mesurer la stratification (nbre de « couches »)

47 Max CHEVALIER - Web 5/7 zUtilisation dans la RI xClassification : Par contenu Par liens => Utilisation mixte des 2 xAnalyse Structurelle : Identification de pages dacceuil et pages références –indexation de la structure globale xMesures : Non spécifique au Web mais adéquates –qualité et complexité dune portion du Web

48 Max CHEVALIER - Web 6/7 zAlgorithmes existants yHITS (Hyperlink Induced Topic Search) yPageRank zAlgo. de génération de liens auto. y[Salton96], [Allan97], [Agosti97], [Melluci99] xrelation de similarité entre nœuds xdétection de liens de différents types (révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation)

49 Max CHEVALIER - Web 7/7 zEvaluation de la RI sur le Web xPb : Dynamique du Web Hétérogénéité des pages et des requêtes Hyperliens entre les pages xBase de test : tâche Web de TREC performance de la RI sur le Web (1999) –Small Task - 2 Go ( docs) –Large Task Go (18.5 Millions docs)

50 Documents structurés

51 Max CHEVALIER - Documents structurés 1/4 zRI Interactive Début Commande Interprétation de la Commande Affichage du résultat Evaluation du résultat Utilisateur Satisfait ? Oui Fin Révision de la Commande Non Effort Cognitif Utilisateur Besoins en Information s

52 Max CHEVALIER - Documents structurés 2/4 zRecherche vs Navigation xImpact des informations structurées : Recherche : Pas ou peu de prise en compte de la structure Navigation : Surcharge cognitive lorsque la structure de lhypermédia nest pas explicite x-> Interaction mixte

53 Max CHEVALIER - Documents structurés 3/4 zModèle intégré xModèle de RI étendu (fonctionnalités hypermédia) prendre en considération la structure du document xModèle Hypermédia étendu gestion du contenu liens typés liens pondérés construction de liens yApproche : HyperIndex Treillis de concepts RECHERCHE HyperBase NAVIGATION BeamDown BeamUp

54 Max CHEVALIER - Documents structurés 4/4 zConclusion xprise en considération de la structure permet daccroître les performances de la RI en terme dinteraction et P/R xpermet lintégration de la recherche et la navigation comme des façons complémentaires de trouver linformation xpermet lintégration de divers médias dans une stratégie dindexation/recherche unique xaméliorer focus / précision : important pour le Web ximplique une meilleur compréhension des notions « core » des documents, des besoins de lutilisateur, de la pertinence


Télécharger ppt "La Recherche dInformation Janvier 2001. Max CHEVALIER - zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague."

Présentations similaires


Annonces Google