21 Repérage de l’information

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
Licence pro MPCQ : Cours
Distance inter-locuteur
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Corese Moteur de recherche sémantique pour RDF
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
Reconnaissance de la parole
1 V-Ingénierie… La compétence au service de lexigence… vous présente.
Comment choisir une solution technologique de veille sur le marché ?
T ravail E tude R echerche COUREUX Éric DUCK Christian ZENGERLÉ Olivier COUREUX Éric DUCK Christian ZENGERLÉ Olivier EncadrantsEncadrants M. Crescenzo.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Le Modèle Logique de Données
Indexation textuelle : Systèmes de recherche d’informations
TP 3-4 BD21.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
IronWEB : Une architecture distribuée
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Chapitre 4 : la gestion électronique des documents
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Vue générale de Sharpdesk
Application des algorithmes génétiques
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Méthode des k plus proches voisins
Construction de modèles visuels
Recherche Documentaire et traitement de l’information
22 janvier 2013 Commercialiser en 2013 ! Que de variables à ajuster ! 1.
LES NOMBRES PREMIERS ET COMPOSÉS
Tolérances géométriques
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SCIENCES DE L ’INGENIEUR
Moteur de recherche d’information
Orléans, CFA, 20 Mars M. Bétrancourt 1 Mireille Bétrancourt TECFA, Faculté de Psychologie et éducation Université de Genève Pour un usage des technologies.
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Web sémantique : Web de demain
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Les techniques des moteurs de recherche
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
Introduction.
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Ressources Internet liées à la CIB
Les Chiffres Prêts?
FRANÇOIS-XAVIER PARÉ Bibliothécaire BUREAU DES SYSTÈMES 11 novembre 2009 L A BARRE D’OUTILS L IB X : L A RECHERCHE À UN CLIC Merci à Lucie Geoffroy et.
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Introduction à SolidWorks
LA GESTION DOCUMENTAIRE BTS Assistant de direction 2e année, Janvier 2007.
Recherche d’information
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
TEXT MINING Fouille de textes
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
1 Stage Master 2 THYP Wiki Informatique Approches sémantique et ontologique à l’Université Paris 8 14 Septembre 2006.
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
21 Repérage de l’information
Transcription de la présentation:

21 Repérage de l’information 2017-04-02 21 Repérage de l’information 02/04/2017 © Robert Godin. Tous droits réservés. © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Processus de base 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Furetage (browsing) Navigation dans un espace Classification hiérarchique Hypertexte 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. The ACM Computing Classification System (1998) : http://www.acm.org/class/1998/ A. General Literature A.0 GENERAL Biographies/autobiographies Conference proceedings General literary works (e.g., fiction, plays) A.1 INTRODUCTORY AND SURVEY A.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries) A.m MISCELLANEOUS B. Hardware B.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2) B.1.0 General B.1.1 Control Design Styles Hardwired control [**] Microprogrammed logic arrays [**] Writable control store [**] B.1.2 Control Structure Performance Analysis and Design Aids Automatic synthesis [**] Formal models [**] Simulation [**] … 02/04/2017 © Robert Godin. Tous droits réservés.

Classification Yahoo.fr Actualités et médias Sujets d’actualité, Télévision, Journaux... Commerce et économie B2B, Shopping, Emploi, Immobilier... Informatique et Internet Internet, Logiciels, Matériel... Santé Diététique, Médecine, Organismes... Enseignement et formation Primaire, Secondaire, Supérieur... Institutions et politique Ministères, Droit, Services publics... Sciences et technologies Animaux, Astronomie, Physique... Sports et loisirs Foot, Tourisme, Auto/Moto, Jeux... Art et culture Littérature, Cinéma, Musique, Musées... Divertissement À voir, Loteries, Humour, Sorties... Exploration géographique Zones régionales, Pays, Europe, France... Références et annuaires Dictionnaires, Annuaires, Bibliothèques... Société Enfants, Gastronomie, Religion... Sciences humaines Archéologie, Histoire, Économie... 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. 20.1 Indexation 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Variantes Granularité du document Nature des termes (descripteurs, mots-clés) Uniterme, multiterme (phrase), n-gramme, concepts, représentation conceptuelle, … Unilingue ou multilingue Chiffres, caractères spéciaux, … Lemmatisation, troncature Vocabulaire contrôlé ou libre Pondération 02/04/2017 © Robert Godin. Tous droits réservés.

Indexation automatique : principes de base Mots "fonctionnels" sont inutiles Adverbes, prépositions,... (et, ou, alors, le, la, les ...) Constitution d'un anti-dictionnaire ("stop list") Analyse des fréquences des termes Termes fréquents dans un texte sont-ils bons? mots fonctionnels sont fréquents... collection informatique: "informatique" ? Besoin de termes discriminants pas fréquents pas tous les documents « inverse document frequency » (idf) maximisent l'information « signal-noise ratio » dispersent les documents valeur discriminante (vd) distinguent pertinents de non pertinents méthode probabiliste distribution “non aléatoire” au sens du repérage de l’information 02/04/2017 © Robert Godin. Tous droits réservés.

Indexation automatique de textes 0) Segmentation Découpage en termes 1) Éliminer les termes non significatifs Anti-dictionnaire 2) Analyse lexicale -> radical/lemme Porter pour l’anglais (liste suffixes) 3) Calculer le poids pij du terme ti dans chaque document dj 4) Conserver si pij > Seuil 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Pondération pij formé de trois composantes (Salton & Buckley, 1988) Composante fréquence dans le document 1.0 (cf1) fij (cf2) 0.5 + 0.5 (fij /maxi(fij)) [0.5,1] (cf3) variations dans la longueur des documents Composante normalisation Diviser par la taille du vecteur 02/04/2017 © Robert Godin. Tous droits réservés.

Composante fréquence documentaire inverse 1.0 (cd1) log (N / fdi) (cd2) N: nombre total de documents (|D|) fdi : fréquence de ti dans la collection (cf2)+(cd2) : « tfidf » log ((N - fdi) / fdi) (cd3) probalistic term relevance (Croft & Harper, 1975) 02/04/2017 © Robert Godin. Tous droits réservés.

Index sous forme de listes inversées Implémentation index + tables « Tableau trié » sur disque arbre digital (trie) … Informations supplémentaires poids localisation des termes 02/04/2017 © Robert Godin. Tous droits réservés.

Indexation par vocabulaire contrôlé Approche à base de connaissances Règles acquises d'un expert (SE) Induction de règles à partir d'un corpus déjà indexé Classification automatique 02/04/2017 © Robert Godin. Tous droits réservés.

Recherche plein texte pour petites collections Algorithmes de recherche KMP (Knuth, Morris & Pratt, 1977) BM (Boyer & Moore, 1977) … Fichiers de signatures Superposition de codes pour filtrer les textes Inverser tout le texte 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. 20.2 Modèle booléen Problème du tout ou rien Formulation de requête difficile 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. 20.3 Modèle vectoriel Métrique du cosinus 02/04/2017 © Robert Godin. Tous droits réservés.

Limites principales du vectoriel Hypothèse d’indépendance des termes Expressivité limitée de la requête 02/04/2017 © Robert Godin. Tous droits réservés.

Intégration booléen/degré de pertinence Modèle flou Modèle booléen étendu Réseaux probabilistes 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Booléen flou sim(dj, q1 ET q2) = min[sim(dj, q1), sim(dj, q2)] sim(dj, q1 OU q2) = max[sim(dj, q1), sim(dj, q2)] sim(dj, NON q) = 1- sim(dj, q) sim(dj, ti) = dij [0,1] Problème évaluation dominée par les petits poids dans les conjonctions et grands poids dans les disjonctions Variante Mixed Min and Max (MMM) (Fox, Betrabet, Koushik & Lee, 1992) Combinaison linéaire de min et max Paice (Fox et al., 1992) Tient compte de tous les poids 02/04/2017 © Robert Godin. Tous droits réservés.

Modèle étendu de requêtes Booléennes (Salton, Fox & Wu, 1983) Généralisation de Booléen flou et vectoriel Pondération des termes dans documents et requêtes Possibilité de requêtes Booléennes Distance paramétrisée : p-norm Paramètre p  [1,∞] détermine l'interprétation p = 1 : vectoriel Tous les termes sont utilisés p = ∞ : Booléen flou Seulement le min ou max 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Feedback 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Feedback du système Fréquence des termes de la sous-collection extraite (Ingwerson & Wormell, 1986) Nuages d’étiquettes Graphes des associations entre documents, termes ...(Belew, 1989) Classification des documents extraits (Crouch, Crouch & Andreas, 1989; Cutting, Karger, Pedersen & Tukey, 1992) Requêtes "voisines" pertinentes à la collection (Carpineto & Romano, 1996; Godin, Davidson, Missaoui & Mili, 1993a; Godin, Missaoui & April, 1993b) 02/04/2017 © Robert Godin. Tous droits réservés.

Réaction de l’utilisateur Pertinence des documents extraits (relevance feedback) Pertinence des termes Sélection de classes/requêtes voisines 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Apprentissage Requête modifiée selon pertinence Relevance feedback (Rocchio, 1971; Salton et al., 1985) Probabiliste, RNA, génétique,… Requête modifiée selon documents extraits Query expansion Indexation modifiée (Belew, 1989; Brauen, 1971) Probabiliste, RNA, génétique, … Hypertexte (liens entre documents) modifié Profil d’utilisateur Système de recommandation 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Raffinements Tenir compte de la structure du document <title> plus important que <body>,… Représentation plus riche Multi-termes, thesaurus, CG, DL, XML, RDF, Ontologies (OWL), Web sémantique,… Analyse de langue naturelle E.g. extraire groupes nominaux Modèles statistiques de la langue Statistiques sur grands corpus P(Requête soit générée par un modèle de langue du Document) Estimer la probabilité d’une suite de termes P(terme|les termes qui précèdent) Modèle unigramme donne de bons résultats Latent Semantic Indexing (LSI) Réduction à un ensemble de dimensions “significatives” par décomposition matricielle Indexation par ensembles fréquents Apprentissage de la fonction d’appariement Méthode d’apprentissage machine 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Thesaurus Termes de requête vs termes d’index (Furnas, Landauer, Gomez & Dumais, 1983) Terme => concept Relations sémantiques entre termes synonymes généralisation/spécialisation relié à … Construction manuel, automatique, assisté général ou par domaine Utilisation à l'indexation expansion de requête métrique d’appariement 02/04/2017 © Robert Godin. Tous droits réservés.

Système de recommandation Pas de requête « ad hoc » Profil d’utilisateur Collection d’items qui évolue Recommander des items pertinents au profil Exploiter les jugements de pertinence antérieurs Application populaire en commerce électronique Recommandation basée sur le contenu (content-based recommendation) Items semblables à ceux jugés pertinents auparavant Filtrage collaboratif Exploiter patrons d’utilisation de communautés d’utilisateurs Recommander les items jugés pertinents par les utilisateurs semblables Recommandation hybride Contenu + collaboratif 02/04/2017 © Robert Godin. Tous droits réservés.

Fouille de textes (text mining) Extraction d’une représentation du texte E.g. indexation automatique Fouille de données sur la représentation regroupement classification automatique Détection de pourriel 02/04/2017 © Robert Godin. Tous droits réservés.

Exploiter les liens entre documents Exploiter les termes des documents reliés Exploiter les étiquettes des liens hypertextes Forme d’indexation sociale Plus de liens = plus de pertinence ? HITS : page d’autorité, page hub Page Rank (Google) 02/04/2017 © Robert Godin. Tous droits réservés.

Analyse du graphe du Web Hyperlink-Induced Topic Search (HITS) de Kleinberg ap : poids d’autorité de la page p hp : poids hub de la page p initialisés à 1/n (n : nombre de pages) Répéter jusqu’à convergence : I(p) : pages qui pointent vers p O(p) : pages pointées par p Normaliser : 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. PageRank de Google Ne distingue pas entre autorité et hub rp : PageRank d’une page Principe de base Importance d’une page est fonction de l’importance des pages qui lui font référence r = rTM Mpq = 1/||O(p)|| si la page p pointe vers la page q Mpq = 0 autrement Page p sans hyperlien Mpq = (1/n) si ||O(p)|| = 0 M’ =  M+ (1-) E où Eij = 1/n Probabilité (1-) de sauter à une page quelconque Pour convergence (chaîne de Markov irréductible) 02/04/2017 © Robert Godin. Tous droits réservés.

Ordonnancement Google PageRank global + Indexation automatique du contenu Pondération basée sur fréquence, fonte, position dans la page, … 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Repérage d’images Texte d’accompagnement Analyse automatique du contenu Indexation par propriétés visuelles génériques couleur, patrons de texture, de forme ... Extraction de patrons + dépendants du domaine ex: visages, empreintes digitales Métadonnées spécifiques aux images dimensions type d’encodage, de compression (TIFF, GIF,...) encodage de la couleur (CMYK, RGB,...) processus d’imagerie (type de scanner, date,...) surtout pour experts authenticité (signatures digitales, ...) 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Oracle interMedia UDT pour image, son, vidéo ORDImage, ORDAudio, ORDVideo Support de formats normalisés Stockage BLOB Externe : BFILE, URL, serveurs spécialisés, … Extraction et stockage de métadonnées Serveurs spécialisés pour contrôle de flux 02/04/2017 © Robert Godin. Tous droits réservés.

Architectures de services bibliographiques Protocole client/serveur : service Z39.5 Normes de méta-données bibliographiques MARC, USMARC Comment choisir la bonne source ? projets de Bibiothèques Électroniques métadonnées sur collections et service 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Architectures Web Moteurs de recherche ne voient pas le Web profond (deep Web : contenu dynamique provenant de BD) 100 fois plus de données que le Web de surface ! World Wide Database (WWD) indexation limitée Méta-données Web Dublin Core Metadata Element Set RDF Web sémantique Architectures de courtiers COIN, InfoSleuth, Information Manifold, TSIMMIS (Stanford-IBM),… Traduction entre sources hétérogènes Médiateurs : vue virtuelle intégrée (modèle commun) de sources hétérogènes Ontologies Repérage de Pair à Pair (P2P, Peer to Peer) Projet JuXTApose (JXTA : http://www.jxta.org) Accès au Web profond Méta-données en XML Processus d’enregistrement auprès de HUB JXTA Espace de requête (~namespace) Agents mobiles 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Étiquetage Retour de l’indexation manuelle ! Étiquette (tag) mot clé donné par un utilisateur pour représenter une ressource vocabulaire libre Étiquetage social (folksonomy) dans un contexte collaboratif combinaison des étiquettes des différents utilisateurs 02/04/2017 © Robert Godin. Tous droits réservés.

Nuage d’étiquettes (tag cloud) Ensemble d’étiquettes pondérées Taille de la fonte d’une étiquette en fonction de son poids fréquence du terme Représentation d’une collection de ressources pages d’un site Web, résultat d’une requête, … Mécanisme de navigation cliquer sur étiquette 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. Évaluation Rappel : (Extraits  Pertinents) / Pertinents Précision : (Extraits  Pertinents) / Extraits 02/04/2017 © Robert Godin. Tous droits réservés.

Oracle : Indexation de colonnes textuelles Paramétrage de l’indexation: (sections, langue, stemmer, anti-dictionnaire,…) 02/04/2017 © Robert Godin. Tous droits réservés.

© Robert Godin. Tous droits réservés. CONTAINS et SCORE 02/04/2017 © Robert Godin. Tous droits réservés.

Oracle : Indexation textuelle de XML 02/04/2017 © Robert Godin. Tous droits réservés.

Requête approximative textuelle sur chemin 02/04/2017 © Robert Godin. Tous droits réservés.

Combinaison structuré/semi-structuré/indexation automatique 02/04/2017 © Robert Godin. Tous droits réservés.