La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les techniques des moteurs de recherche

Présentations similaires


Présentation au sujet: "Les techniques des moteurs de recherche"— Transcription de la présentation:

1 Les techniques des moteurs de recherche
Comment ça marche ? Est ce que ça marche ? Qu’est-ce qui marche le mieux ? BOUTTES Cédric

2 Plan Plan I - Le fonctionnement des moteurs de recherche II – Un mode de recherche booléen basé sur le contenu des documents  indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents III – Application des traitements linguistiques pour une recherche plus efficace  utilisation d’ index de lemmes et technique d’expansion de requête  utilisation d’ index de groupes nominaux  indexation sémantique à l’aide des ontologies IV – Des techniques pour améliorer le classement des résultats  tri par popularité et tri par clustering  outils d’aide à la reformulation des requêtes

3 Fonctionnement des moteurs
FONCTIONNEMENT DES MOTEURS DE RECHERCHES Fonctionnement des moteurs Base de données de documents indexés 1 téléchargement des pages Serveur d’index Crawler indexation 2 3 interrogation de l’index et mis en forme des résultats Serveur Web INTRANET Internet requête requin AND blanc 

4 Indexation en texte intégral
INDEX page 2 F E U T I M Poids Homme : Blanc : Recherche : Page Web N°2 url : Texte : … un homme mange le blanc d’œuf … Indexation en texte intégral Page Web N°1 url : Titre : Le grand requin blanc. Texte : ... le film où le requin attaquait l’homme … Image : INDEX page 1 F E U T I M Poids Requin : Blanc : Homme : INDEX inversé des mots Page Poids Blanc : 2 Homme : 1 Requin : 4 Mange : 1 à la de d’ dans les par des le nos Liste mots-vides

5 Ensemble des documents de la base
Bruit et Silence Documents pertinents trouvés Ensemble des documents trouvés Ensemble des documents pertinents dans la base Rappel Précision SILENCE = ensemble des documents pertinents non trouvés BRUIT = ensemble des documents non pertinents trouvés

6 Non trouvé et pertinent Trouvé et = SILENCE pertinent
Source de silence … ont attaqué … … attaquera … Rappel … attaque … … attaquait… REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME»

7 Indexation libre par fichier inverse de lemmes
Doc1 Doc2 Doc3 Index de lemmes Extraction des mots bruts attaquera attaquait ont attaqué Dico de lemmes Analyse Syntaxique INDEXATION attaquer : Doc1 Doc2 Doc3 Dico de lemmes Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Indexation libre par fichier inverse de lemmes

8 INDEXATION EN TEXTE INTEGRAL
Doc1 Doc2 Doc3 Expansion de requête Extraction des mots bruts attaquera attaquait ont attaqué INDEXATION EN TEXTE INTEGRAL attaquera : Doc1 attaquait : Doc2 ont attaqué : Doc3 attaquera attaquait Dico de lemmes ont attaqué Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Technique d’expansion de requête

9 Trouvé et non pertinent = BRUIT Trouvé et pertinent
Source de bruit … blanc d’oeuf … Précision … requin blanc … … requin baleine … REQUETE UTILISATEUR : « GRAND REQUIN BLANC»

10 Index de groupes nominaux
Doc1 Doc2 Index de groupes nominaux Extraction de groupes nominaux Analyse Syntaxique du texte Dico Le requin blanc a attaqué Des requins blancs ont attaqué INDEXATION Nominalisation Attaque de requin blanc : Doc1 Doc2 Index inversé de groupes nominaux Dico Nominalisation Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « Une attaque de requin blanc » Indexation libre par fichier inverse de groupes nominaux (ou syntagme)

11 Indexation sémantique
Doc1 « … l’homme a été victime d’un grand requin blanc … » Indexation sémantique Analyse Morpho Syntaxique du texte Extraction de mots, groupes nominaux Ontologie Analyse statistique pour le choix des concepts qui serviront à indexer le document INDEXATION AGRESSION requin victime attaque AGRESSION : Doc1 Index des concepts extraits des documents Ontologie AGRESSION ANALYSE DE LA REQUETE Analyse statistique requin victime attaque Analyse Morpho Syntaxique de la question REQUETE UTILISATEUR : « Les attaques de requin blanc sur l’homme » Indexation sémantique à l’aide des ontologies

12 Techniques de classement
Autres techniques de classement Techniques de classement 100 45.1 45.1 10 Méthode basée sur la co-citation 58 25.8 52.8 52.8 7.74 2) Tri par clustering Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers Sujets Type Source Langue

13 Techniques d’affinage : l’exemple de Kartoo

14 CONCLUSION L’interrogation en mode booléen des index en texte intégral génère du bruit et du silence. Les techniques linguistiques permettent de limiter ces problèmes. Il existe des méthodes pour améliorer le classement des résultats. Une autre piste : le Web Sémantique


Télécharger ppt "Les techniques des moteurs de recherche"

Présentations similaires


Annonces Google