La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Approfondissement des moteurs de recherche : SORTIR DE GOOGLE... Stage URFIST de Rennes 10 mars 2009 Marie-Laure Malingre Alexandre Serres.

Présentations similaires


Présentation au sujet: "Approfondissement des moteurs de recherche : SORTIR DE GOOGLE... Stage URFIST de Rennes 10 mars 2009 Marie-Laure Malingre Alexandre Serres."— Transcription de la présentation:

1 Approfondissement des moteurs de recherche : SORTIR DE GOOGLE... Stage URFIST de Rennes 10 mars 2009 Marie-Laure Malingre Alexandre Serres

2 URFIST de Rennes, PRESENTATION du stage Intro. : pourquoi sortir de Google ? 1/ Des ressources pour se former et sinformer 2/ Fonctionnement et typologies des moteurs de recherche 3/ Explorations de différents types de moteurs

3 URFIST de Rennes, En introduction 4 raisons (au moins !) de sortir de Google : Briser le monopole « googléen » : Cf le Baromètre de S2MBaromètre de S2M Résister à la « googlisation » des usages : Nécessaire diversification des usages, des pratiques, des outils… Adapter les outils aux besoins : Intérêt des outils spécialisés Suivre linnovation technique des moteurs : Nombreux outils très innovants Google parfois surpassé par dautres outils…

4 URFIST de Rennes, / Des ressources pour se former et sinformer Difficultés de la veille sur les outils de recherche : Rapidité des innovations Surabondance des sources Mais remèdes dans les outils eux-mêmes : Fils RSS, portail Netvibes, blogs… Deux ressources de lURFIST de Rennes : Sélection de ressources sur les outils de recherche Le portail Netvibes de lURFIST de Rennesportail Netvibes de lURFIST de Rennes

5 URFIST de Rennes, Fonctionnement des moteurs de recherche Source : R. Viseur, CETICR. Viseur, CETIC

6 URFIST de Rennes, Fonctionnement… : la collecte des données Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites Plusieurs modalités dexploration du web : soumission manuelle par les webmestres, référencement payant sélection des meilleurs sites explorations aléatoires Etendue, profondeur de la collecte : Parcours des liens (horizontaux/ verticaux) différences entre les moteurs dans lexploration des sites importance de la taille des fichiers : nbre doctets pris en compte Paramétrages du robot : Nature des fichiers collectés : recul du « web invisible » Délai de prise en charge (soumission manuelle) : de 1 jour à 6 semaines Rythme de surveillance : « rafraîchissement » de lindex (de 2 à 8 semaines) Variable en fonction du type dinformation Evolution : du batch crawling au crawler incrémental

7 URFIST de Rennes, Fonctionnement… : lindexation des données Deux grandes méthodes d'analyse (combinées) dans l'indexation automatisée : analyse linguistique : fondée sur la reconnaissance des mots analyse statistique : fondée sur la fréquence des mots 4 niveaux d'analyse linguistique du texte intégral: niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts

8 URFIST de Rennes, Fonctionnement… : lindexation des données Principale méthode dindexation automatisée : traitement statistique des mots Indexation fondée sur calcul de fréquence dapparition des mots dans un texte : les occurrences Postulat : si l'indice de fréquence d'un mot est supérieur à son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte. Principale méthode dindexation sur le web

9 URFIST de Rennes, L indexation sémantique Niveau d analyse : reconnaissance des concepts, identification du sens des mots Principes : sémantique lexicale : analyse du sens des mots, reconnaissance des synonymes... sémantique grammaticale : identification et analyse des relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)… utilisation des co-occurrences pour représentation des concepts Assez rare sur le web, présente surtout sur des corpus limités : Développement des classifications automatiques Indexation automatique des matériaux de presse Moteur sémantique : Portail Culture.fr, Collections Portail Culture.fr, Collections

10 URFIST de Rennes, Fonctionnement… : la gestion des requêtes et des résultats Partie visible du moteur de recherche ; trois grandes fonctions : gestion des requêtes : fonctions de recherche en mode simple et avancé, différentes options de filtrage, affinement... gestion des résultats : quels critères de classement ? question des critères de pertinence gestion de la présentation des résultats : Listes, cartographie, aperçu graphique…

11 URFIST de Rennes, Fonctionnement… : la gestion des requêtes Fonction la plus répandue : nombreuses possibilités de filtrage géographique du web : mondial, francophone linguistique : choix de la langue des ressources des types de ressources : images, audio… des ressources internet : web, forum, messagerie, weblogs des formats : HTML, PDF, DOC, PPT, XLS, RTF… des dates : nombreuses options des champs : titre, URL, host, domaine… thématique : choix du domaine de recherche

12 URFIST de Rennes, Fonctionnement… : la gestion des résultats Enjeux du « relevance ranking », du classement des résultats selon leur pertinence Deux grandes méthodes, imbriquées, de classement : tri par indice de pertinence : calculs statistiques sur la fréquence des termes… tri par popularité : indice de popularité Troisième voie : tri par catégorisation : calcul dynamique de catégories, ou clusters

13 URFIST de Rennes, Fonctionnement… la gestion des résultats : lindice de pertinence Principes : classement des résultats fondé sur la fréquence dapparition et la localisation des termes de la requête dans une page web affichage des résultats à partir du calcul dun score pour chaque réponse : Ex. : Requête sur le marché des DVD en France : +marché +DVD +France > retourne les documents contenant tous les mots de la requête >> documents contenant le plus de fois les mots de la requête classés en premier Utilisation : première méthode de classement utilisée sur le web, la plus répandue ; Problèmes : détournement par le spamdexing

14 URFIST de Rennes, Fonctionnement… la gestion des résultats : lindice de popularité Principes, origines : Utilisation de la nature hypertextuelle du web : prise en compte des liens entre sites, considérés comme des liens de parenté sémantique calcul de la notoriété dun site en fonction du nombre de liens pointant vers le site Utilisation : indice de popularité lancé par Google en 98 originalité et succès de Google et de son PageRankGoogle Avantages de lindice de popularité : renforcement de la pertinence réduction du spamdexing

15 URFIST de Rennes, Fonctionnement… la gestion des résultats : la catégorisation automatique Technologies plus complexes ; domaine dinnovations avancées des moteurs et métamoteurs : cf Exalead, Grokker, certains métamoteurs (Clusty) ExaleadGrokkerClusty Principes : organisation en temps réel dun lot de résultats pour donner possibilité daffiner ou étendre la requête répartition des documents dans des catégories Intérêt pour la recherche : aide à la sélection dun mot-résultat aide à lélimination des corrélations inintéressantes, suggestion didées et de pistes nouvelles enjeu essentiel : mise en ordre du « chaos informationnel

16 URFIST de Rennes, Typologies des moteurs de recherche Difficultés des typologies Trois grandes catégories de critères : Loffre des ressources : Moteurs généralistes / spécialisés Diversité des spécialisations Limplication des internautes : Moteurs participatifs : collaboratifs, personnalisables… La présentation des résultats : Moteurs linéaires, visuels, cartographiques… Imbrication des critères Difficultés du critère de lindexation

17 URFIST de Rennes, Typologies des moteurs de recherche : loffre des ressources Critère : type de ressources collectées Distinction principale : Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search… caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources Moteurs spécialisés : Tendance lourde des moteurs : Modules spécialisés à lintérieur des moteurs généralistes Infinité des types de spécialisations Explosion du nombre doutils

18 URFIST de Rennes, Typologies… Loffre des ressources : diversité des spécialisations Choix retenu pour lexploration : 3 critères de spécialisations : Selon les ressources internet : Moteurs de blogs, de forums, de listes de diffusion, de FAQ, de wikis, de fils RSS… Selon la nature du contenu : Moteurs scientifiques, dactualité, de personnes, de produits… Selon la nature du média : Moteurs dimages, de vidéos, de podcasts, de photos.. Autres critères possibles : langue, géographie, domaine thématique…

19 URFIST de Rennes, Typologies… : limplication des internautes Difficultés de caractérisation du critère, très récent : Intégration des aspects « web 2.0 » dans les moteurs Critère principal : aspect « social » des moteurs de recherche Degré, nature, modalités… dimplication des internautes dans le moteur de recherche Deux types de moteurs présentés : Moteurs collaboratifs : Wikia Moteurs personnalisables : Rollyo Tendance de développement des moteurs importante : enjeux économiques, image des outils…

20 URFIST de Rennes, Typologies… : la présentation des résultats Innovations les plus spectaculaires à venir : les interfaces, la présentation des données Distinctions possibles : Moteurs linéaires, classiques Moteurs cartographiques, à clusters Moteurs visuels Moteurs parlants ? …

21 URFIST de Rennes, Typologies… : lindexation des données ? Critère : mode dindexation des données Typologie possible selon les différents niveaux dindexation linguistique : Moteurs dindexation : Morphologique Lexicale Syntaxique Sémantique Typologie difficile à utiliser en pratique Imbrication des modalités dindexation Enjeux des moteurs sémantiques

22 URFIST de Rennes, / Explorations des différentes catégories de moteurs Des moteurs pour trouver dautres moteurs 3.1 Moteurs généralistes : Exalead, Yahoo 3.2 Moteurs « participatifs » : Wikia 3.3 Moteurs spécialisés : Selon différents types de ressources 3.4 Moteurs sémantiques 3.5 Moteurs visuels, cartographiques…

23 URFIST de Rennes, Exploration des moteurs : Les moteurs généralistes : ExaleadExalead Créé par François Bourdoncle (ingénieur de lEcole des Mines) en Moteur très innovant Entreprise française en plein développement Plateforme technologique et de services pour entreprises : 2ème place en France Moteur grand public, mais audience limitée : 1 million de visiteurs uniques / mois Orientation technique : aider l'usager dans la recherche d'information Intégration de la serendipité Exalead partie prenante du projet Quaero

24 URFIST de Rennes, Exploration des moteurs : Les moteurs généralistes : ExaleadExalead Un moteur innovant dans le traitement et la présentation des résultats : Processus de catégorisation (a posteriori) Analyse statistico-sémantique des pages de résultats, conduisant à lidentification des mots et expressions les plus fréquents Aperçu graphique du contenu de la page / prévisualisation Nombreuses possibilités d'affinement de la requête : Rubriques associées Limitation par zones géographiques Différents types de fichiers Recherches spécialisées : actualité, RSS...

25 URFIST de Rennes, Exploration des moteurs : Les moteurs généralistes : ExaleadExalead Principales innovations et applications : Affinement de la recherche dans les blogs et forums..blogs Filtre visages (module Images) : partenariat avec LTU Technologies ; exempleexemple Partenariat avec lINIST Nouveau module de recherche sur WikipediaWikipedia Module de recherche de vidéosvidéos Intégration des tags dans la recherche Création d'un blog (ExaBlog) de l'entrepriseblog Création de Baagz, plate-forme communautaireBaagz Offre gratuite du moteur de bureau Exalead DesktopExalead Desktop Offre payante de CloudView (nuage informationnel)CloudView

26 URFIST de Rennes, Exploration des moteurs : Les moteurs généralistes Yahoo SearchYahoo Search Moteur né en février 2004, après lannuaire et le portail Fait partie du trio de tête des moteurs de recherche 15 à 20 milliards de pages indexées (cf. O. Andrieu) Concurrence permanente avec Google et Microsoft Politique de développement de niches de recherche Yahoo Search et le web 2.0 > Comblement du retard sur le secteur du web 2 personnalisation et partage avec Mon Web 2.0 recherche sur les flux RSS, etc. Double orientation stratégique de Yahoo : Intégrer à ses services des fonctions de réseau social Favoriser le développement dapplications tierces pour ses produits = open strategy

27 URFIST de Rennes, Exploration des moteurs : Les moteurs généralistes Yahoo SearchYahoo Search Quelques développements récents de Yahoo et projets en cours BOSS : Build your Own Search Engine / Moteurs thématiques avec « Vertical Lens » Nouvelle page daccueil Possibilité de créer de petits réseaux sociaux dans les services Yahoo et mise à jour des services Lancement de Yahoo BuzzYahoo Buzz Barre doutils Yahoo : suggestion de mots pour la requête Yahoo! Search Assist : mots clés et images (Yahoo Images) dans les suggestions Yahoo! Search Assist Paramétrage de Modules de résultats Version américaine de Yahoo! Glue en test > Recherche universelleYahoo! Glue Sécurisation de la recherche avec Search Scan Projet Bloc-note Search Pad : historicisation des recherches + commentairesSearch Pad Projet OneConnect/OneSearchOneConnectOneSearch

28 URFIST de Rennes, Moteurs «participatifs » : moteurs personnalisables Des moteurs sur mesure / recherche verticale Choix par linternaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type dinformations Compte gratuit Système de veille Des plateformes ouvertes / API de recherche Création de moteurs à la demande Personnalisation dans la page de résultats (ajouts, tri, présentation)

29 URFIST de Rennes, Moteurs «participatifs » : moteurs personnalisables Concurrence des 3 grands: Google CSE : Google Custom Search EngineGoogle Custom Search Engine Live Search : Live Search macrosLive Search macros Yahoo : Interface utilisateurs AlphaInterface utilisateurs Alpha Pour les développeurs : Yahoo : Yahoo! Search BossYahoo! Search Boss Mais aussi dautres acteurs : Rollyo : Buildasearch : Les Swickis dEurekster :

30 URFIST de Rennes, Moteurs «participatifs » : moteurs « contributifs » Principes : Enrichissement de la recherche par les internautes Exemples : Wikia Search : Wikia Search lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.) Alternative communautaire aux moteurs généralistes Sur le modèle de Wikipédia Introduit la pondération des documents web par des internautes qualifiés et la méthode dindexation ouverte (par le biais de mini-articles) Yoono Basé sur les recommandations des internautes

31 URFIST de Rennes, Moteurs spécialisés : selon les ressources internet Pour trouver ou chercher dans : Des listes de diffusion : FrancopholistesFrancopholistes Des forums : Yahoo GroupsYahoo Groups Des FAQ : QueryCatQueryCat Des blogs : Technorati, SphereTechnorati, Sphere Des wikis : Qwika Qwika Des fils RSS : RSSfeedsRSSfeeds Des réseaux sociaux : YoNameYoName Des plates-formes de partage de signets :Thagoo Thagoo Pour chercher dans les ressources web 2.0 : Un métamoteur de fils RSS : MetaRSSMetaRSS

32 URFIST de Rennes, Moteurs spécialisés selon la nature du contenu : moteurs dactualités Modules ou services proposés par les outils de recherche Agrégation de multiples sources dactualité : Presse, blogs, sites web… Revues de presse automatisées Services gratuits : alertes… Nombreux moteurs dactualité : Précurseur : Google News Modules spécialisés : Yahoo News, Concurrence aiguë, enjeux économiques importants Problèmes et conflits juridiques

33 URFIST de Rennes, Moteurs spécialisés selon la nature du contenu : moteurs dactualités Anglophones : Yahoo News Alltheweb News Rocket News Digg Topix : 2004 Topix Agrégateur dactualités localisées Voir BasesBases Francophones : Yahoo France Actualités Yahoo France Actualités DeepIndex News Widepress Voir ArchimagArchimag

34 URFIST de Rennes, Moteurs spécialisés selon la nature du contenu : moteurs dactualités Un exemple : WikioWikio indexe sources de presse et blogs ; annonce blogs et sites dactualités indexés (dont plus de blogs) modules spécialisés sur les Actualités, les blogs, le shopping, et « Live » : suivi de lactualité en temps réel (de lindexation…) agrégation des billets et nouvelles, selon plus de catégories Technologie dindexation sémantique classement des blogs « influents » par catégories, selon le nombre de rétroliens ; voir Nombreuses innovations technologiques : cf les Wikio Labs Wikio Labs voir notamment Backlink Factory Backlink Factory

35 URFIST de Rennes, Moteurs spécialisés selon la nature du contenu : moteurs scientifiques Moteurs spécialisés sur les ressources scientifiques Plusieurs types, plusieurs statuts… Moteurs de recherche scientifiques : Google Scholar : toutes disciplines Scirus : sciences exactes Scirus Academic Index : toutes disciplines Academic Index CiteSeer.IST : sciences physiques et de lingénieur CiteSeer.IST In-extenso.org : SHS In-extenso.org Moissonneurs OAI : OAIster : toutes disciplines OAIster Michael : culture, arts, patrimoine Michael

36 URFIST de Rennes, Autres moteurs spécialisés selon la nature du contenu Pour trouver : Des informations sur les entreprises : Accoona Des informations sur les produits : Kelkoo Des informations sur des personnes : Spock, 123People Spock123People Des offres demploi : Moovement.fr Des sites, des villes, des organisations géolocalisées : Geolocalisation

37 URFIST de Rennes, Moteurs spécialisés : selon la nature du « média » Pour trouver : Des images : Les modules images des moteurs : Exalead Images, Yahoo Images …Exalead ImagesYahoo Images Picsearch Des vidéos : Modules vidéos des moteurs généralistes : Exalead VidéosExalead Vidéos Blinkx Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale Des podcasts : Casteropod : Casteropod Exemple de podcast de formationpodcast Des musiques : Seeqpod

38 URFIST de Rennes, L es moteurs de recherche sémantique Emergence de nouvelles catégories de moteurs : Hakia : Hakia Lancé en 2006 moteur de requêtes en langage naturel mélange d'analyse sémantique, d'ontologie, de logique floue et d'intelligence artificielle Powerset : Powerset Mai 2008 ; racheté par Microsoft en juillet 08 Recherche sémantique sur Wikipedia Analyse des phrases contenant les mots dune requête Propositions de nombreux mots-clés

39 URFIST de Rennes, Présentation des résultats : moteurs visuels, cartographiques Moteurs visuels : SearchMe Version de test dun moteur de recherche visuel reposant sur la technologie flash Visualisation directe par feuilletage des sites répondant à la requête (captures décran) Aperçus graphiques sur Exalead Vignettes et aperçus des sites en parallèle à la liste des résultats Moteurs cartographiques : Grokker Regroupement visuel des résultats en un seul plan graphique Catégories contextuelles Liens entre les sites


Télécharger ppt "Approfondissement des moteurs de recherche : SORTIR DE GOOGLE... Stage URFIST de Rennes 10 mars 2009 Marie-Laure Malingre Alexandre Serres."

Présentations similaires


Annonces Google