24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex
Introduction Evolution dans le format des documents électroniques Passage document « plat » document « structuré » Ces documents sont définis par une structure logique (chapitres, sections, paragraphes, …) Incapacité des moteurs de recherche traditionnels face à ces nouveaux formats Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents Nécessité délaborer de nouveaux concepts pour lindexation, le traitement, … 1 Laboratoire dInformatique de Paris 6
Initiative internationale INEX Corpus: Mo de documents XML + requêtes + jugements de pertinence, documents (IEEE journals), 10 millions de doxels, 2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains nœuds XML par article, profondeur moyenne dun élément 6.72.
Résultats INEX 2006
Travail effectué par le LIP6 Développement de moteurs de recherche XML Réseaux Bayesiens Algorithmes dapprentissage (ordonnancement) Implémenation dun modèle simple dans la plateforme Outilex Développement dun module python permettant dutiliser des fonctionnalités dOutilex Cas de figure : Détection de mots composés. Les fonctionnalités ajoutées: Indexation de la structure des documents XML, Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et Outilex), Constitution dindex pour une recherche rapide, Serveur permettant de répondre à des requêtes composées de mots- clés. Laboratoire dInformatique de Paris 6 2
Architecture Base de données Documents XML Outilex TreeTagger Detection de mots composés (français et anglais) Lemmatisation (français et anglais) Serveur (Python/XMLRPC) Modules Python d'interface Navigateur 3 Laboratoire dInformatique de Paris 6
Laboratoire d'Informatiqe de Paris 67 Recherche structurée Développé en python dans le cadre de la platerforme SIRXQL Basé sur Okapi, adapté à la RI structurée Importance du terme dans la collection constante dépendant de la longueur moyenne des éléments X du même type (i.e. section, paragraphe,...) Fréquence du terme dans l'élément / la requête
Moteur de Recherche XML Démo sur 6
Laboratoire d'Informatiqe de Paris 69 Requête: « grèce antique », base wikipédia
Laboratoire d'Informatiqe de Paris 610 Résultat sur le premier document retourné pour la requête Grèce Antique Profondeur dans larbre de la collection Structure et contenu du document Titre du document Nœuds fils niveau 1
Laboratoire d'Informatiqe de Paris 611 Résultat de "(une) station spatiale"
Laboratoire d'Informatiqe de Paris 612 Conclusion Une plateforme ouverte pour l'implémentation d'autres algorithmes de recherche structurée pour une utilisation plus poussée d'outilex (au delà de la détection de mots composés) Implémentation en Python + MySQL Des tests sur INEX 2005 (collection de documents en anglais) ont donné de bons résultats (précision accrue)