La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric.

Présentations similaires


Présentation au sujet: "Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric."— Transcription de la présentation:

1 Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

2 Plan I - Le fonctionnement des moteurs de recherche II – Un mode de recherche booléen basé sur le contenu des documents indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents III – Application des traitements linguistiques pour une recherche plus efficace utilisation d index de lemmes et technique dexpansion de requête utilisation d index de groupes nominaux indexation sémantique à laide des ontologies IV – Des techniques pour améliorer le classement des résultats tri par popularité et tri par clustering outils daide à la reformulation des requêtes Plan

3 téléchargement des pages 1 Crawler Serveur dindex 2 indexation Serveur Web FONCTIONNEMENT DES MOTEURS DE RECHERCHES 3 interrogation de lindex et mis en forme des résultats Base de données de documents indexés Internet INTRANET requête requin AND blanc Fonctionnement des moteurs

4 Indexation en texte intégral Page Web N°2 url : Texte : … un homme mange le blanc dœuf … INDEX page 2 F E U T I M Poids Homme : Blanc : Recherche : INDEX page 1 F E U T I M Poids Requin : Blanc : Homme : … Page Web N°1 url : Titre : Le grand requin blanc. Texte :... le film où le requin attaquait lhomme … Image : INDEX inversé des mots PagePoids Blanc :www.dents_de_la_mer.fr2www.dents_de_la_mer.fr 1 Homme : Requin :www.dents_de_la_mer.fr4www.dents_de_la_mer.fr Mange :www.dietetique.fr1www.dietetique.fr … à la de d dans les par des le nos Liste mots-vides

5 Bruit et Silence Ensemble des documents trouvés Ensemble des documents de la base BRUIT = ensemble des documents non pertinents trouvés Rappel Précision SILENCE = ensemble des documents pertinents non trouvés Documents pertinents trouvés Ensemble des documents pertinents dans la base

6 Source de silence REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME» … ont attaqué … … attaquera … … attaquait… … attaque … Non trouvé et pertinent = SILENCE Trouvé et pertinent Rappel

7 Extraction des mots bruts attaquera attaquait ont attaqué Dico de lemmes INDEXATION Analyse Syntaxique attaquer : Doc1 Doc2 Doc3 REQUETE UTILISATEUR : « … attaque … » ANALYSE DE LA REQUETE Analyse Syntaxique Dico de lemmes Indexation libre par fichier inverse de lemmes Doc1 Doc2 Doc3 Index de lemmes

8 Doc1Doc2Doc3 Extraction des mots bruts attaquera attaquaitont attaqué INDEXATION EN TEXTE INTEGRAL attaquera : Doc1 attaquait : Doc2 ont attaqué : Doc3 REQUETE UTILISATEUR : « … attaque … » ANALYSE DE LA REQUETE Analyse Syntaxique Dico de lemmes Technique dexpansion de requête attaquera attaquait ont attaqué Expansion de requête

9 Source de bruit REQUETE UTILISATEUR : « GRAND REQUIN BLANC» … blanc doeuf … … requin blanc … Trouvé et non pertinent = BRUIT Trouvé et pertinent … requin baleine … Précision

10 Index de groupes nominaux Doc1 Extraction de groupes nominaux Le requin blanc a attaqué Dico INDEXATION Attaque de requin blanc : Doc1 Doc2 Index inversé de groupes nominaux Analyse Syntaxique du texte Nominalisation Doc2 Des requins blancs ont attaqué REQUETE UTILISATEUR : « Une attaque de requin blanc » Dico ANALYSE DE LA REQUETE Analyse Syntaxique Nominalisation Indexation libre par fichier inverse de groupes nominaux (ou syntagme)

11 requin REQUETE UTILISATEUR : « Les attaques de requin blanc sur lhomme » Extraction de mots, groupes nominaux Analyse statistique pour le choix des concepts qui serviront à indexer le document INDEXATION AGRESSION : Doc1 Index des concepts extraits des documents Analyse Morpho Syntaxique du texte ANALYSE DE LA REQUETE Analyse statistique Ontologie AGRESSION victime Analyse Morpho Syntaxique de la question Doc1 « … lhomme a été victime dun grand requin blanc … » Indexation sémantique à laide des ontologies attaque requin Ontologie AGRESSION victime attaque Indexation sémantique

12 Méthode basée sur la co-citation Techniques de classement 2) Tri par clustering Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers Autres techniques de classement Sujets Type Source Langue

13 Techniques daffinage : lexemple de Kartoo Kartoo

14 CONCLUSION Linterrogation en mode booléen des index en texte intégral génère du bruit et du silence. Les techniques linguistiques permettent de limiter ces problèmes. Il existe des méthodes pour améliorer le classement des résultats. Une autre piste : le Web Sémantique


Télécharger ppt "Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric."

Présentations similaires


Annonces Google