24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.

Slides:



Advertisements
Présentations similaires
Le web 2.0 L'Internet deuxième génération ? Moussay Jérôme - Master 2LCE1/16.
Advertisements

1Er Partie Intervenants : Nuno Barata Alain Joly Thierry Belvigne
Metatag Objectifs et rédaction du rapport Présentation du rapport
Karima Boudaoud, Charles McCathieNevile
La sécurité des systèmes informatiques
CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
Synthèses de la législation européenne: une introduction 2009.
Julien HERON.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
COMMENT FONCTIONNE GOOGLE. QUE FAIT UN MOTEUR DE RECHERCHE? Contrairement à une base de données structurée dont on peut facilement extraire des informations,
Indexation textuelle : Systèmes de recherche d’informations
IronWEB : Une architecture distribuée
Les moteurs de recherche Par Pauline RAUDET
CREATION DE FEUILLE DE STYLE pour structuré le document XML
FACTIVA Présentation et guide d’utilisation
Chapitre 4 : la gestion électronique des documents
THERESIEN Didier SEBASTIEN 15 septembre 2005
Introduction à DOM Maroua Bouzid
CAS DE RECHERCHE SUR LES BASES - Mme Nafissa BELCAID (OMPIC) -
Projet 29 Product Tagger Tuteur : Michel Benoît Groupe : - Simon Giron - Vincent Reuss - Jérémie Simian Annee :
Annotations sémantiques pour le domaine des biopuces
Centre d’Excellence en Technologies de l’Information et de la Communication Moteurs de recherche Aspects techniques et retours d’expérience Christophe.
Université Mouloud Mammeri de Tizi-Ouzou
Ordre du jour Copernic, portrait de lentreprise Copernic Enterprise Search Description du produit Fonctionnement Spécificités techniques Options offertes.
Recherche Documentaire et traitement de l’information
Servist Plateforme dexploration, de recherche et de visualisation de données multimédias VSST 2007 – Marrakech – 23/10/2007 Philippe HOUDRY.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Réseau BD 11/12/08 Hibernate Search Réunion dunité – 23/10/2008 Erik Kimmel.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
Vers des composants TAL réutilisables
Moteur de recherche d’information
Moteur de recherche d’information
Projet Lucene 22 avril 2011 Acquisition de Connaissances 2
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
OUTILEX Présentation des résultats
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
DOCUMENT VALIDE 4 Obéir à une structure type prédéfini 4 Document valide = bien formé + obéir à une structure type définie dans une DTD 16 novembre 1999.
Thésaurus de lactivité gouvernementale Richard Parent 17 novembre 2006 Ressource de soutien à linteropérabilité sémantique.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Recherche par mots-clés vs recherche en langue naturelle.
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
Projet de Master première année 2007 / 2008
Les techniques des moteurs de recherche
Les feuilles de style CSS
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
La plateforme ETHNOSIRIS Une plateforme web sémantique de social tagging multilingue, multi- dialecte et polygraphe dédiée à la préservation participative.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Présentation RFIA janvier 2002
PLAN 1. Introduction 1.1. Sites de presse actuels 1.2. Objectif de notre site 2. Description du modèle 3. Outils utilisés 3.1. SVG 3.2. PHP et MySQL 4.
Visualisation d’un entrepôt de données Pré soutenance technique
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
G.KEMBELLEC - UP81 Master 2 THYP Cas pratique d’utilisation De simpleXML Un lecteur de RSS Novembre 2009.
Modélisation N-morphes en classification des textes de Wikipedia
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Module 1 : Vue d'ensemble de Microsoft SQL Server
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Apports des clients riches dans le monde du WEB 2.0
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
SOAP et les RPC XML SOAP WSDL RPC. Rappels sur le XML Langage avec des balises Très lisible Pour stocker des données Séparation entre contenu et présentation.
Introduction à la Recherche
L’infrastructure d’entreprise
1 Stage Master 2 THYP Wiki Informatique Approches sémantique et ontologique à l’Université Paris 8 14 Septembre 2006.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Introduction Evolution dans le format des documents électroniques Passage document « plat » document « structuré » Ces documents sont définis par une structure logique (chapitres, sections, paragraphes, …) Incapacité des moteurs de recherche traditionnels face à ces nouveaux formats Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents Nécessité délaborer de nouveaux concepts pour lindexation, le traitement, … 1 Laboratoire dInformatique de Paris 6

Initiative internationale INEX Corpus: Mo de documents XML + requêtes + jugements de pertinence, documents (IEEE journals), 10 millions de doxels, 2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains nœuds XML par article, profondeur moyenne dun élément 6.72.

Résultats INEX 2006

Travail effectué par le LIP6 Développement de moteurs de recherche XML Réseaux Bayesiens Algorithmes dapprentissage (ordonnancement) Implémenation dun modèle simple dans la plateforme Outilex Développement dun module python permettant dutiliser des fonctionnalités dOutilex Cas de figure : Détection de mots composés. Les fonctionnalités ajoutées: Indexation de la structure des documents XML, Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et Outilex), Constitution dindex pour une recherche rapide, Serveur permettant de répondre à des requêtes composées de mots- clés. Laboratoire dInformatique de Paris 6 2

Architecture Base de données Documents XML Outilex TreeTagger Detection de mots composés (français et anglais) Lemmatisation (français et anglais) Serveur (Python/XMLRPC) Modules Python d'interface Navigateur 3 Laboratoire dInformatique de Paris 6

Laboratoire d'Informatiqe de Paris 67 Recherche structurée Développé en python dans le cadre de la platerforme SIRXQL Basé sur Okapi, adapté à la RI structurée Importance du terme dans la collection constante dépendant de la longueur moyenne des éléments X du même type (i.e. section, paragraphe,...) Fréquence du terme dans l'élément / la requête

Moteur de Recherche XML Démo sur 6

Laboratoire d'Informatiqe de Paris 69 Requête: « grèce antique », base wikipédia

Laboratoire d'Informatiqe de Paris 610 Résultat sur le premier document retourné pour la requête Grèce Antique Profondeur dans larbre de la collection Structure et contenu du document Titre du document Nœuds fils niveau 1

Laboratoire d'Informatiqe de Paris 611 Résultat de "(une) station spatiale"

Laboratoire d'Informatiqe de Paris 612 Conclusion Une plateforme ouverte pour l'implémentation d'autres algorithmes de recherche structurée pour une utilisation plus poussée d'outilex (au delà de la détection de mots composés) Implémentation en Python + MySQL Des tests sur INEX 2005 (collection de documents en anglais) ont donné de bons résultats (précision accrue)