Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Qu’est-ce qui marche le mieux ? BOUTTES Cédric
Plan Plan I - Le fonctionnement des moteurs de recherche II – Un mode de recherche booléen basé sur le contenu des documents indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents III – Application des traitements linguistiques pour une recherche plus efficace utilisation d’ index de lemmes et technique d’expansion de requête utilisation d’ index de groupes nominaux indexation sémantique à l’aide des ontologies IV – Des techniques pour améliorer le classement des résultats tri par popularité et tri par clustering outils d’aide à la reformulation des requêtes
Fonctionnement des moteurs FONCTIONNEMENT DES MOTEURS DE RECHERCHES Fonctionnement des moteurs Base de données de documents indexés 1 téléchargement des pages Serveur d’index Crawler indexation 2 3 interrogation de l’index et mis en forme des résultats Serveur Web INTRANET Internet requête requin AND blanc
Indexation en texte intégral INDEX page 2 www.dietetique.fr F E U T I M Poids Homme : 1 0 0 0 0 0 1 Blanc : 1 0 0 0 0 0 1 Recherche : 1 0 0 0 0 0 1 Page Web N°2 url : www.dietetique.fr Texte : … un homme mange le blanc d’œuf … Indexation en texte intégral Page Web N°1 url : www.dents_de_la_mer.fr Titre : Le grand requin blanc. Texte : ... le film où le requin attaquait l’homme … Image : INDEX page 1 www.dents_de_la_mer.fr F E U T I M Poids Requin : 2 0 0 1 1 0 4 Blanc : 1 0 0 1 0 0 2 Homme : 1 0 0 0 0 0 1 … INDEX inversé des mots Page Poids Blanc :www.dents_de_la_mer.fr 2 www.dietetique.fr 1 Homme : www.dietetique.fr 1 www.dents_de_la_mer.fr 1 Requin : www.dents_de_la_mer.fr 4 Mange : www.dietetique.fr 1 … à la de d’ dans les par des le nos Liste mots-vides
Ensemble des documents de la base Bruit et Silence Documents pertinents trouvés Ensemble des documents trouvés Ensemble des documents pertinents dans la base Rappel Précision SILENCE = ensemble des documents pertinents non trouvés BRUIT = ensemble des documents non pertinents trouvés
Non trouvé et pertinent Trouvé et = SILENCE pertinent Source de silence … ont attaqué … … attaquera … Rappel … attaque … … attaquait… REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME»
Indexation libre par fichier inverse de lemmes Doc1 Doc2 Doc3 Index de lemmes Extraction des mots bruts attaquera attaquait ont attaqué Dico de lemmes Analyse Syntaxique INDEXATION attaquer : Doc1 Doc2 Doc3 Dico de lemmes Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Indexation libre par fichier inverse de lemmes
INDEXATION EN TEXTE INTEGRAL Doc1 Doc2 Doc3 Expansion de requête Extraction des mots bruts attaquera attaquait ont attaqué INDEXATION EN TEXTE INTEGRAL attaquera : Doc1 attaquait : Doc2 ont attaqué : Doc3 attaquera attaquait Dico de lemmes ont attaqué Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « … attaque … » Technique d’expansion de requête
Trouvé et non pertinent = BRUIT Trouvé et pertinent Source de bruit … blanc d’oeuf … Précision … requin blanc … … requin baleine … REQUETE UTILISATEUR : « GRAND REQUIN BLANC»
Index de groupes nominaux Doc1 Doc2 Index de groupes nominaux Extraction de groupes nominaux Analyse Syntaxique du texte Dico Le requin blanc a attaqué Des requins blancs ont attaqué INDEXATION Nominalisation Attaque de requin blanc : Doc1 Doc2 Index inversé de groupes nominaux Dico Nominalisation Analyse Syntaxique ANALYSE DE LA REQUETE REQUETE UTILISATEUR : « Une attaque de requin blanc » Indexation libre par fichier inverse de groupes nominaux (ou syntagme)
Indexation sémantique Doc1 « … l’homme a été victime d’un grand requin blanc … » Indexation sémantique Analyse Morpho Syntaxique du texte Extraction de mots, groupes nominaux Ontologie Analyse statistique pour le choix des concepts qui serviront à indexer le document INDEXATION AGRESSION requin victime attaque AGRESSION : Doc1 Index des concepts extraits des documents Ontologie AGRESSION ANALYSE DE LA REQUETE Analyse statistique requin victime attaque Analyse Morpho Syntaxique de la question REQUETE UTILISATEUR : « Les attaques de requin blanc sur l’homme » Indexation sémantique à l’aide des ontologies
Techniques de classement Autres techniques de classement Techniques de classement 100 45.1 45.1 10 Méthode basée sur la co-citation 58 25.8 52.8 52.8 7.74 2) Tri par clustering Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers Sujets Type Source Langue
Techniques d’affinage : l’exemple de Kartoo
CONCLUSION L’interrogation en mode booléen des index en texte intégral génère du bruit et du silence. Les techniques linguistiques permettent de limiter ces problèmes. Il existe des méthodes pour améliorer le classement des résultats. Une autre piste : le Web Sémantique