Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université

Slides:



Advertisements
Présentations similaires
REFERENTIEL DE LA SERIE STG
Advertisements

Atelier surOrganisation et management des systèmes statistiques Addis-Abeba, 21 –25 novembre Base de données de la CEA par Molla Hunegnaw.
La recherche documentaire
Apprentissage spectral
Clément Massé – Université Charles de Gaulle Lille3.
Classification et prédiction
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Corese Moteur de recherche sémantique pour RDF
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Image et apprentissage
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Yann Chevaleyre et Jean-Daniel Zucker
Master Génie Biologique et Informatique, première année
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Projet VISU Proposition d'interface & avancées personnelles.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Règles significatives
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Sélection automatique d’index et de vues matérialisées
Caroline Patenaude Bibliothécaire – responsable informatique et Web Bibliothèque des lettres et sciences humaines, Université de Montréal 4 novembre 2010.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Un système de médiation basé sur les ontologies
Initiation au système d’information et aux bases de données
Développement d’applications web
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Application des algorithmes génétiques
Karin Lundgren-Cayrol
Classification Multi Source En Intégrant La Texture
Web Sémantique: Le Relief Actuel
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Projet Lucene 22 avril 2011 Acquisition de Connaissances 2
Présentation du mémoire
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Ecaterina Giacomini Pacurar
Apprentissage semi-supervisé
Web sémantique : Web de demain
Thésaurus de lactivité gouvernementale Richard Parent 17 novembre 2006 Ressource de soutien à linteropérabilité sémantique.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Projet de Master première année 2007 / 2008
IFT6255 – Recherche d’information Jian-Yun Nie
Les techniques des moteurs de recherche
Patrons de conceptions de créations
Vers une génération automatique du mapping de sources biomédicales
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
1. 1.Présentation 2. 2.Recherche 3. 3.Création 4. 4.Elaboration 5. 5.Démonstration 6. 6.Conclusion Réalisation d’un site web pour l’association « Les passeurs.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Intégration de schémas
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
1 e.dot – septembre e.dot Entrepôts de Données Ouverts sur la Toile RNTL.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Soutenance du mémoire de synthèse
Edot Groupe de travail sur l’intégration. Le problème Intégration de nouvelles données avec les données existantes dans l’entrepôt Les données existantes:
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Évaluer un site internet Verifiez la source  L'auteur bien identifié? Il peut y avoir plus d'un auteur.  Quelles sont la profession, l'expérience,
Transcription de la présentation:

Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université de Paris Sud - Orsay

2 XML Données semi-structurées Modèle darbres (XML) Langages de requêtes: Lorel, XQL, XSL… select from where Picasso Guernica the bombing of the town... The Prado museum....

3 Un scénario possible > art, peinture - Guernica Prado - La Fenêtre Antibes - Guitare... Picasso 1937 Art Peinture Oeuvre Titre Artiste Date Musée

4 Xylème But du projet : stocker et permettre des recherches sur TOUS les documents XML du Web (~800 millions dans 2 ans) Projet ambitieux –INRIA Verso –Université de Manheim –LRI groupes IASI et IHM Regroupement des documents en domaines, stockés sur la même unité physique (Logical Clusters) –recherche plus rapide –recherche plus précise

5 Architecture de Xylème Repository and Index Manager Change Control Query Processor Semantics User Interface Xyleme Interface Acquisition & Crawler I N T E R N E T Web Interface Loader

6 Buts de lapproche A partir dun ensemble de documents XML (ou autres), trouver automatiquement les classes permettant de les regrouper en domaines Donner automatiquement un label aux domaines obtenus, permettant didentifier ces domaines

7 Plan Les algorithmes existants et leurs limites Notre approche Résultats expérimentaux Conclusion et perspectives

8 Lexistant Classification non supervisée : nombreux algorithmes Principe : comparer les données pour regrouper ensemble les plus similaires dans leur contenu En général pas de labels Problèmes à résoudre : –gestion du bruit –gestion de la quantité de données

9 Limites de lexistant (1/2) Documents = vecteurs de mots mots différents sens différents –similarité entre vecteurs = 0 –pourtant les documents nutilisent que des synonymes

10 Limites de lexistant (2/2) Tous les mots relatifs à un sujet ne sont pas en même temps dans un document, mais en général un mot fait le lien (transitivité) Documents : données particulières, plusieurs problèmes à régler –comment voir que Doc 3 est plus proche de Doc 1 et 2 que Doc 4 ?

11 Notre approche (1/2) Combiner plusieurs outils et techniques WordNet : thésaurus informatisé, fournit les synonymes (synsets) Latent Semantic Analysis (LSA) : analyse statistique, trouve "transitivités" (similarités entre mots) Classification Hiérarchique Ascendante (CHA) : regroupe les données grâce à une mesure de similarité

12 Notre approche (2/2) Regrouper ensemble des mots en Unités de Sens (US) –ex : auteur, écrivain, compositeur, titre, date Reformuler les documents en fonction de ces unités de sens, et appliquer un algorithme de classification sur les documents reformulés –#US << #mots : passage à léchelle –réduction du bruit –rapprochement des documents similaires

13 Regroupement à laide des unités de sens (1/2) Algorithme à 2 étapes : –création unités de sens –regroupement des documents

14 Regroupement à laide des unités de sens (2/2) Regroupement des documents –Créer une matrice documents x unités de sens (plusieurs méthodes) –En déduire une matrice de similarité entre documents (cosinus) –Faire une classification hiérarchique sur cette matrice

15 Classification Hiérarchique Ascendante D1 D2 D3 D4 D5 D6 D7 Seuil fixé pour larrêt de la classification

16 Création des unités de sens (1/3) Filtrer les mots des documents : Zipf Law Déterminer la liste des synsets WordNet (désambiguation du sens) –chaque mot fournit un ou plusieurs synsets –ne sont gardés que ceux contenant au moins un autre mot apparaissant dans les documents Calculer une matrice de similarité entre synsets avec LSA Fmax Fmin

17 Création de la matrice de similarités entre synsets (2/3) Couple de mots (i, j) { Synsets de i Synsets de j Similarité LSA de (i,j) #synsets(i) #synsets(j) Ajouter :

18 Création des unités de sens (3/3) Avec la matrice de similarité : regroupement des synsets par Classification Hiérarchique Ascendante (CHA) Quand arrêter de regrouper des clusters ? soit cover(C) = #docs contenant mots des synsets du cluster C on ne regroupe plus C1 et C2 si : cover(C1 C2) cover(C1) seuil cover(C1 C2) cover(C2) seuil ou

19 Protocole de test Programmes implémentés en C++ 2 corpus –Documents XML trouvés par le crawler de Xylème, nombre : environ 2000 –Corpus Reuters-21578, dépêches de lagence Reuters, nombre : Mesures –sur les données de Xylème, difficile de faire des mesures de qualité : évaluation subjective –sur Reuters : corpus de classification, donc mesure de la qualité de la mesure de "distance" entre documents fournie par notre système

20 Données de Xylème XML : documents spéciaux = Document Type Definitions (DTD), grammaires des autres documents <!ATTLIST Étoile classe CDATA rayon CDATA > <!ATTLIST Planète habitée CDATA rayon CDATA > Regroupement effectué sur DTDs, classes finales contiennent en plus les documents XML les instanciant Cest sur les attributs et les éléments de ces DTDs que nous allons travailler

21 Résultats sur Xylème Système trouve 200 clusters grain des clusters assez fin Evaluation difficile, observation indique que les clusters semblent bons (retrouve doublons, docs dun même site) Récemment, classification humaine : 4 clusters, mais très généraux (business, people,...) à utiliser pour des évaluations ultérieures

22 Résultats sur Reuters Semistix (4000 mots, 634 US) –1-NN : 77,8 % –20-NN : 83,1 % Semistix avec US étendues (800 US) –1-NN : 81,1 % –20-NN : 86 % LSA (sur les mots) –1-NN : 97,8 % –20-NN : 97 % cosinus sur les vecteurs doccurrence –1-NN : 96 % –20-NN : 95,6 %

23 Labels et US.US obtenues : certaines sont très pertinentes –{dna, aa} –{chromosome, gene, clone, plasmid, journal, organism} –ensembles de tags HTML Dautres le sont moins, mais certains tests nous permettent de croire quavec une intervention humaine cela peut saméliorer.

24 Problèmes à résoudre Réglages délicats –programme conçu pour pouvoir changer facilement les réglages Bonne qualité des US importante, processus de création à perfectionner –tenir compte des forces des liens des synsets au sein de lUS, pour avoir une réecriture plus fine –partir des vecteurs propres de LSA –saider du Web pour valider les US

25 Conclusion Système présenté = combinaison de techniques orthogonales Résultats encore un peu justes, mais plusieurs pistes possibles pour les améliorer Valeur ajoutée des US : réutilisables –labels, DTD abstraite –mise à jour –mappings Améliorations possibles –parallélisable –techniques dapprentissage pour les réglages