La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université

Présentations similaires


Présentation au sujet: "Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université"— Transcription de la présentation:

1 Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université de Paris Sud - Orsay

2 2 XML Données semi-structurées Modèle darbres (XML) Langages de requêtes: Lorel, XQL, XSL… select from where Picasso Guernica the bombing of the town... The Prado museum....

3 3 Un scénario possible > art, peinture - Guernica Prado - La Fenêtre Antibes - Guitare... Picasso 1937 Art Peinture Oeuvre Titre Artiste Date Musée

4 4 Xylème But du projet : stocker et permettre des recherches sur TOUS les documents XML du Web (~800 millions dans 2 ans) Projet ambitieux –INRIA Verso –Université de Manheim –LRI groupes IASI et IHM Regroupement des documents en domaines, stockés sur la même unité physique (Logical Clusters) –recherche plus rapide –recherche plus précise

5 5 Architecture de Xylème Repository and Index Manager Change Control Query Processor Semantics User Interface Xyleme Interface Acquisition & Crawler -------------------- I N T E R N E T ----------------- Web Interface Loader

6 6 Buts de lapproche A partir dun ensemble de documents XML (ou autres), trouver automatiquement les classes permettant de les regrouper en domaines Donner automatiquement un label aux domaines obtenus, permettant didentifier ces domaines

7 7 Plan Les algorithmes existants et leurs limites Notre approche Résultats expérimentaux Conclusion et perspectives

8 8 Lexistant Classification non supervisée : nombreux algorithmes Principe : comparer les données pour regrouper ensemble les plus similaires dans leur contenu En général pas de labels Problèmes à résoudre : –gestion du bruit –gestion de la quantité de données

9 9 Limites de lexistant (1/2) Documents = vecteurs de mots mots différents sens différents –similarité entre vecteurs = 0 –pourtant les documents nutilisent que des synonymes

10 10 Limites de lexistant (2/2) Tous les mots relatifs à un sujet ne sont pas en même temps dans un document, mais en général un mot fait le lien (transitivité) Documents : données particulières, plusieurs problèmes à régler –comment voir que Doc 3 est plus proche de Doc 1 et 2 que Doc 4 ?

11 11 Notre approche (1/2) Combiner plusieurs outils et techniques WordNet : thésaurus informatisé, fournit les synonymes (synsets) Latent Semantic Analysis (LSA) : analyse statistique, trouve "transitivités" (similarités entre mots) Classification Hiérarchique Ascendante (CHA) : regroupe les données grâce à une mesure de similarité

12 12 Notre approche (2/2) Regrouper ensemble des mots en Unités de Sens (US) –ex : auteur, écrivain, compositeur, titre, date Reformuler les documents en fonction de ces unités de sens, et appliquer un algorithme de classification sur les documents reformulés –#US << #mots : passage à léchelle –réduction du bruit –rapprochement des documents similaires

13 13 Regroupement à laide des unités de sens (1/2) Algorithme à 2 étapes : –création unités de sens –regroupement des documents

14 14 Regroupement à laide des unités de sens (2/2) Regroupement des documents –Créer une matrice documents x unités de sens (plusieurs méthodes) –En déduire une matrice de similarité entre documents (cosinus) –Faire une classification hiérarchique sur cette matrice

15 15 Classification Hiérarchique Ascendante D1 D2 D3 D4 D5 D6 D7 Seuil fixé pour larrêt de la classification

16 16 Création des unités de sens (1/3) Filtrer les mots des documents : Zipf Law Déterminer la liste des synsets WordNet (désambiguation du sens) –chaque mot fournit un ou plusieurs synsets –ne sont gardés que ceux contenant au moins un autre mot apparaissant dans les documents Calculer une matrice de similarité entre synsets avec LSA Fmax Fmin

17 17 Création de la matrice de similarités entre synsets (2/3) Couple de mots (i, j) { Synsets de i Synsets de j Similarité LSA de (i,j) #synsets(i) #synsets(j) Ajouter :

18 18 Création des unités de sens (3/3) Avec la matrice de similarité : regroupement des synsets par Classification Hiérarchique Ascendante (CHA) Quand arrêter de regrouper des clusters ? soit cover(C) = #docs contenant mots des synsets du cluster C on ne regroupe plus C1 et C2 si : cover(C1 C2) cover(C1) seuil cover(C1 C2) cover(C2) seuil ou

19 19 Protocole de test Programmes implémentés en C++ 2 corpus –Documents XML trouvés par le crawler de Xylème, nombre : environ 2000 –Corpus Reuters-21578, dépêches de lagence Reuters, nombre : 21578 Mesures –sur les données de Xylème, difficile de faire des mesures de qualité : évaluation subjective –sur Reuters : corpus de classification, donc mesure de la qualité de la mesure de "distance" entre documents fournie par notre système

20 20 Données de Xylème XML : documents spéciaux = Document Type Definitions (DTD), grammaires des autres documents <!ATTLIST Étoile classe CDATA rayon CDATA > <!ATTLIST Planète habitée CDATA rayon CDATA > Regroupement effectué sur DTDs, classes finales contiennent en plus les documents XML les instanciant Cest sur les attributs et les éléments de ces DTDs que nous allons travailler

21 21 Résultats sur Xylème Système trouve 200 clusters grain des clusters assez fin Evaluation difficile, observation indique que les clusters semblent bons (retrouve doublons, docs dun même site) Récemment, classification humaine : 4 clusters, mais très généraux (business, people,...) à utiliser pour des évaluations ultérieures

22 22 Résultats sur Reuters Semistix (4000 mots, 634 US) –1-NN : 77,8 % –20-NN : 83,1 % Semistix avec US étendues (800 US) –1-NN : 81,1 % –20-NN : 86 % LSA (sur les 44000 mots) –1-NN : 97,8 % –20-NN : 97 % cosinus sur les vecteurs doccurrence –1-NN : 96 % –20-NN : 95,6 %

23 23 Labels et US.US obtenues : certaines sont très pertinentes –{dna, aa} –{chromosome, gene, clone, plasmid, journal, organism} –ensembles de tags HTML Dautres le sont moins, mais certains tests nous permettent de croire quavec une intervention humaine cela peut saméliorer.

24 24 Problèmes à résoudre Réglages délicats –programme conçu pour pouvoir changer facilement les réglages Bonne qualité des US importante, processus de création à perfectionner –tenir compte des forces des liens des synsets au sein de lUS, pour avoir une réecriture plus fine –partir des vecteurs propres de LSA –saider du Web pour valider les US

25 25 Conclusion Système présenté = combinaison de techniques orthogonales Résultats encore un peu justes, mais plusieurs pistes possibles pour les améliorer Valeur ajoutée des US : réutilisables –labels, DTD abstraite –mise à jour –mappings Améliorations possibles –parallélisable –techniques dapprentissage pour les réglages


Télécharger ppt "Classification automatique de documents XML : le système Semistix Alexandre Termier Marie-Christine Rousset Michèle Sebag Séminaire du 23/01/2001 Université"

Présentations similaires


Annonces Google