La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation.

Présentations similaires


Présentation au sujet: "16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation."— Transcription de la présentation:

1 16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation

2 16/06/2014© Robert Godin. Tous droits réservés.2 Processus de base

3 16/06/2014© Robert Godin. Tous droits réservés.3 Furetage (browsing) n Navigation dans un espace n Classification hiérarchique n Hypertexte

4 16/06/2014© Robert Godin. Tous droits réservés.4 The ACM Computing Classification System (1998) : A. General Literature A.0 GENERAL Biographies/autobiographies Conference proceedings General literary works (e.g., fiction, plays) A.1 INTRODUCTORY AND SURVEY A.2 REFERENCE (e.g., dictionaries, encyclopedias, glossaries) A.m MISCELLANEOUS B. Hardware B.0 GENERAL B.1 CONTROL STRUCTURES AND MICROPROGRAMMING (D.3.2) B.1.0 General B.1.1 Control Design Styles Hardwired control [**]** Microprogrammed logic arrays [**]** Writable control store [**]** B.1.2 Control Structure Performance Analysis and Design Aids Automatic synthesis [**]** Formal models [**]** Simulation [**]** …

5 16/06/2014© Robert Godin. Tous droits réservés.5 Classification Yahoo.fr Actualités et médias Sujets dactualitéActualités et médias Sujets dactualité, Télévision, Journaux...Télévision Journaux Commerce et économie B2BCommerce et économie B2B, Shopping, Emploi, Immobilier...ShoppingEmploiImmobilier Informatique et Internet InternetInformatique et Internet Internet, Logiciels, Matériel...LogicielsMatériel Santé DiététiqueSanté Diététique, Médecine, Organismes...MédecineOrganismes Enseignement et formation PrimaireEnseignement et formation Primaire, Secondaire, Supérieur...SecondaireSupérieur Institutions et politique MinistèresInstitutions et politique Ministères, Droit, Services publics...DroitServices publics Sciences et technologies AnimauxSciences et technologies Animaux, Astronomie, Physique...AstronomiePhysique Sports et loisirs FootSports et loisirs Foot, Tourisme, Auto/Moto, Jeux...TourismeAuto/MotoJeux Art et culture LittératureArt et culture Littérature, Cinéma, Musique, Musées...CinémaMusiqueMusées Divertissement À voirDivertissement À voir, Loteries, Humour, Sorties...LoteriesHumourSorties Exploration géographique Zones régionalesExploration géographique Zones régionales, Pays, Europe, France...PaysEurope France Références et annuaires DictionnairesRéférences et annuaires Dictionnaires, Annuaires, Bibliothèques...Annuaires Bibliothèques Société EnfantsSociété Enfants, Gastronomie, Religion...GastronomieReligion Sciences humaines ArchéologieSciences humaines Archéologie, Histoire, Économie...HistoireÉconomie

6 16/06/2014© Robert Godin. Tous droits réservés Indexation

7 Variantes n Granularité du document n Nature des termes (descripteurs, mots-clés) – Uniterme, multiterme (phrase), n-gramme, concepts, représentation conceptuelle, … – Unilingue ou multilingue – Chiffres, caractères spéciaux, … n Lemmatisation, troncature n Vocabulaire contrôlé ou libre n Pondération 16/06/2014© Robert Godin. Tous droits réservés.7

8 16/06/2014© Robert Godin. Tous droits réservés.8 Indexation automatique : principes de base n Mots "fonctionnels" sont inutiles – Adverbes, prépositions,... (et, ou, alors, le, la, les...) – Constitution d'un anti-dictionnaire ("stop list") n Analyse des fréquences des termes – Termes fréquents dans un texte sont-ils bons? n mots fonctionnels sont fréquents... n collection informatique: "informatique" ? – Besoin de termes discriminants n pas fréquents pas tous les documents – « inverse document frequency » (idf) n maximisent l'information – « signal-noise ratio » n dispersent les documents – valeur discriminante (vd) n distinguent pertinents de non pertinents – méthode probabiliste n distribution non aléatoire au sens du repérage de linformation

9 16/06/2014© Robert Godin. Tous droits réservés.9 Indexation automatique de textes n 0) Segmentation – Découpage en termes n 1) Éliminer les termes non significatifs – Anti-dictionnaire n 2) Analyse lexicale -> radical/lemme – Porter pour langlais (liste suffixes) n 3) Calculer le poids p ij du terme t i dans chaque document d j n 4) Conserver si p ij > Seuil

10 16/06/2014© Robert Godin. Tous droits réservés.10 Pondération n p ij formé de trois composantes – (Salton & Buckley, 1988) n Composante fréquence dans le document – 1.0(cf1) – f ij (cf2) – (f ij /max i (f ij )) [0.5,1](cf3) n variations dans la longueur des documents n Composante normalisation – Diviser par la taille du vecteur

11 16/06/2014© Robert Godin. Tous droits réservés.11 Composante fréquence documentaire inverse n 1.0(cd1) n log (N / fd i )(cd2) – N: nombre total de documents (|D|) – fd i : fréquence de t i dans la collection – (cf2)+(cd2) : « tfidf » n log ((N - fd i ) / fd i ) (cd3) – probalistic term relevance (Croft & Harper, 1975)

12 16/06/2014© Robert Godin. Tous droits réservés.12 Index sous forme de listes inversées n Implémentation – index + tables – « Tableau trié » sur disque – arbre digital (trie) – … n Informations supplémentaires – poids – localisation des termes

13 16/06/2014© Robert Godin. Tous droits réservés.13 Indexation par vocabulaire contrôlé n Approche à base de connaissances – Règles acquises d'un expert (SE) n Induction de règles à partir d'un corpus déjà indexé – Classification automatique

14 16/06/2014© Robert Godin. Tous droits réservés.14 Recherche plein texte pour petites collections n Algorithmes de recherche – KMP (Knuth, Morris & Pratt, 1977) – BM (Boyer & Moore, 1977) – … n Fichiers de signatures – Superposition de codes pour filtrer les textes n Inverser tout le texte

15 16/06/2014© Robert Godin. Tous droits réservés Modèle booléen n Problème du tout ou rien n Formulation de requête difficile

16 16/06/2014© Robert Godin. Tous droits réservés Modèle vectoriel Métrique du cosinus

17 Limites principales du vectoriel n Hypothèse dindépendance des termes n Expressivité limitée de la requête 16/06/2014© Robert Godin. Tous droits réservés.17

18 16/06/2014© Robert Godin. Tous droits réservés.18 Intégration booléen/degré de pertinence n Modèle flou n Modèle booléen étendu n Réseaux probabilistes

19 16/06/2014© Robert Godin. Tous droits réservés.19 Booléen flou n sim(d j, q 1 ET q 2 ) = min[sim(d j, q 1 ), sim(d j, q 2 )] n sim(d j, q 1 OU q 2 ) = max[sim(d j, q 1 ), sim(d j, q 2 )] n sim(d j, NON q) = 1- sim(d j, q) n sim(d j, t i ) = d ij [0,1] n Problème – évaluation dominée par les petits poids dans les conjonctions et grands poids dans les disjonctions n Variante Mixed Min and Max (MMM) (Fox, Betrabet, Koushik & Lee, 1992) – Combinaison linéaire de min et max n Paice (Fox et al., 1992) – Tient compte de tous les poids

20 16/06/2014© Robert Godin. Tous droits réservés.20 Modèle étendu de requêtes Booléennes (Salton, Fox & Wu, 1983) n Généralisation de Booléen flou et vectoriel n Pondération des termes dans documents et requêtes n Possibilité de requêtes Booléennes n Distance paramétrisée : p-norm n Paramètre p [1,] détermine l'interprétation – p = 1 : vectoriel n Tous les termes sont utilisés – p = : Booléen flou n Seulement le min ou max

21 16/06/2014© Robert Godin. Tous droits réservés.21 Feedback

22 16/06/2014© Robert Godin. Tous droits réservés.22 Feedback du système n Fréquence des termes de la sous-collection extraite (Ingwerson & Wormell, 1986) – Nuages détiquettes n Graphes des associations entre documents, termes...(Belew, 1989) n Classification des documents extraits (Crouch, Crouch & Andreas, 1989; Cutting, Karger, Pedersen & Tukey, 1992) n Requêtes "voisines" pertinentes à la collection (Carpineto & Romano, 1996; Godin, Davidson, Missaoui & Mili, 1993a; Godin, Missaoui & April, 1993b)

23 16/06/2014© Robert Godin. Tous droits réservés.23 Réaction de lutilisateur n Pertinence des documents extraits (relevance feedback) n Pertinence des termes n Sélection de classes/requêtes voisines

24 16/06/2014© Robert Godin. Tous droits réservés.24 Apprentissage n Requête modifiée selon pertinence – Relevance feedback (Rocchio, 1971; Salton et al., 1985) – Probabiliste, RNA, génétique,… n Requête modifiée selon documents extraits – Query expansion n Indexation modifiée (Belew, 1989; Brauen, 1971) – Probabiliste, RNA, génétique, … n Hypertexte (liens entre documents) modifié n Profil dutilisateur – Système de recommandation

25 16/06/2014© Robert Godin. Tous droits réservés.25 Raffinements n Tenir compte de la structure du document – plus important que,… n Représentation plus riche – Multi-termes, thesaurus, CG, DL, XML, RDF, Ontologies (OWL), Web sémantique,… n Analyse de langue naturelle – E.g. extraire groupes nominaux n Modèles statistiques de la langue – Statistiques sur grands corpus – P(Requête soit générée par un modèle de langue du Document) – Estimer la probabilité dune suite de termes n P(terme|les termes qui précèdent) n Modèle unigramme donne de bons résultats n Latent Semantic Indexing (LSI) – Réduction à un ensemble de dimensions significatives par décomposition matricielle n Indexation par ensembles fréquents n Apprentissage de la fonction dappariement – Méthode dapprentissage machine

26 16/06/2014© Robert Godin. Tous droits réservés.26 Thesaurus n Termes de requête vs termes dindex – (Furnas, Landauer, Gomez & Dumais, 1983) n Terme => concept n Relations sémantiques entre termes – synonymes – généralisation/spécialisation – relié à – … n Construction – manuel, automatique, assisté – général ou par domaine n Utilisation – à l'indexation – expansion de requête – métrique dappariement

27 Système de recommandation n Pas de requête « ad hoc » – Profil dutilisateur – Collection ditems qui évolue n Recommander des items pertinents au profil – Exploiter les jugements de pertinence antérieurs n Application populaire en commerce électronique n Recommandation basée sur le contenu (content-based recommendation) – Items semblables à ceux jugés pertinents auparavant n Filtrage collaboratif – Exploiter patrons dutilisation de communautés dutilisateurs – Recommander les items jugés pertinents par les utilisateurs semblables n Recommandation hybride – Contenu + collaboratif 16/06/2014© Robert Godin. Tous droits réservés.27

28 Fouille de textes (text mining) n Extraction dune représentation du texte – E.g. indexation automatique n Fouille de données sur la représentation – regroupement – classification automatique n Détection de pourriel 16/06/2014© Robert Godin. Tous droits réservés.28

29 16/06/2014© Robert Godin. Tous droits réservés.29 Exploiter les liens entre documents n Exploiter les termes des documents reliés n Exploiter les étiquettes des liens hypertextes – Forme dindexation sociale n Plus de liens = plus de pertinence ? - HITS : page dautorité, page hub - Page Rank (Google)

30 16/06/2014© Robert Godin. Tous droits réservés.30 Analyse du graphe du Web n Hyperlink-Induced Topic Search (HITS) de Kleinberg – a p : poids dautorité de la page p – h p : poids hub de la page p n initialisés à 1/n (n : nombre de pages) – Répéter jusquà convergence : – I(p) : pages qui pointent vers p – O(p) : pages pointées par p n Normaliser :

31 16/06/2014© Robert Godin. Tous droits réservés.31 PageRank de Google n Ne distingue pas entre autorité et hub n r p : PageRank dune page n Principe de base – Importance dune page est fonction de limportance des pages qui lui font référence n r = r T M – M pq = 1/||O(p)|| si la page p pointe vers la page q – M pq = 0 autrement n Page p sans hyperlien – M pq = (1/n) si ||O(p)|| = 0 n M = M+ (1- ) E où E ij = 1/n – Probabilité (1- ) de sauter à une page quelconque – Pour convergence (chaîne de Markov irréductible)

32 16/06/2014© Robert Godin. Tous droits réservés.32 Ordonnancement Google n PageRank global + n Indexation automatique du contenu – Pondération basée sur n fréquence, fonte, position dans la page, …

33 16/06/2014© Robert Godin. Tous droits réservés.33 Repérage dimages n Texte daccompagnement n Analyse automatique du contenu – Indexation par propriétés visuelles génériques n couleur, patrons de texture, de forme... – Extraction de patrons + dépendants du domaine n ex: visages, empreintes digitales n Métadonnées spécifiques aux images – dimensions – type dencodage, de compression (TIFF, GIF,...) – encodage de la couleur (CMYK, RGB,...) – processus dimagerie (type de scanner, date,...) – surtout pour experts – authenticité (signatures digitales,...)

34 16/06/2014© Robert Godin. Tous droits réservés.34 Oracle interMedia n UDT pour image, son, vidéo – ORDImage, ORDAudio, ORDVideo n Support de formats normalisés n Stockage – BLOB – Externe : BFILE, URL, serveurs spécialisés, … n Extraction et stockage de métadonnées n Serveurs spécialisés pour contrôle de flux

35 16/06/2014© Robert Godin. Tous droits réservés.35 Architectures de services bibliographiques n Protocole client/serveur : service Z39.5 n Normes de méta-données bibliographiques – MARC, USMARC n Comment choisir la bonne source ? – projets de Bibiothèques Électroniques n métadonnées sur collections et service

36 16/06/2014© Robert Godin. Tous droits réservés.36 Architectures Web n Moteurs de recherche – ne voient pas le Web profond (deep Web : contenu dynamique provenant de BD) n 100 fois plus de données que le Web de surface ! – World Wide Database (WWD) – indexation limitée n Méta-données Web – Dublin Core Metadata Element Set – RDF – Web sémantique n Architectures de courtiers – COIN, InfoSleuth, Information Manifold, TSIMMIS (Stanford-IBM),… – Traduction entre sources hétérogènes – Médiateurs : vue virtuelle intégrée (modèle commun) de sources hétérogènes – Ontologies n Repérage de Pair à Pair (P2P, Peer to Peer) – Projet JuXTApose (JXTA : n Accès au Web profond n Méta-données en XML – Processus denregistrement auprès de HUB JXTA n Espace de requête (~namespace) – Agents mobiles

37 Étiquetage n Retour de lindexation manuelle ! n Étiquette (tag) – mot clé donné par un utilisateur pour représenter une ressource – vocabulaire libre n Étiquetage social (folksonomy) – dans un contexte collaboratif – combinaison des étiquettes des différents utilisateurs 16/06/2014© Robert Godin. Tous droits réservés.37

38 Nuage détiquettes (tag cloud) n Ensemble détiquettes pondérées n Taille de la fonte dune étiquette en fonction de son poids – fréquence du terme n Représentation dune collection de ressources – pages dun site Web, résultat dune requête, … n Mécanisme de navigation – cliquer sur étiquette 16/06/2014© Robert Godin. Tous droits réservés.38

39 16/06/2014© Robert Godin. Tous droits réservés.39 Évaluation n Rappel : (Extraits Pertinents) / Pertinents n Précision : (Extraits Pertinents) / Extraits

40 16/06/2014© Robert Godin. Tous droits réservés.40 Oracle : Indexation de colonnes textuelles Paramétrage de lindexation: (sections, langue, stemmer, anti- dictionnaire,…)

41 16/06/2014© Robert Godin. Tous droits réservés.41 CONTAINS et SCORE

42 16/06/2014© Robert Godin. Tous droits réservés.42 Oracle : Indexation textuelle de XML

43 16/06/2014© Robert Godin. Tous droits réservés.43 Requête approximative textuelle sur chemin

44 16/06/2014© Robert Godin. Tous droits réservés.44 Combinaison structuré/semi- structuré/indexation automatique


Télécharger ppt "16/06/2014© Robert Godin. Tous droits réservés.1 21Repérage de linformation."

Présentations similaires


Annonces Google