Thierry Despeyroux Yves Lechevallier Brigitte Trousse

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

Apprentissage spectral
Regroupement (clustering)
Première expérience d’utilisation des Web Services dans SmartTools Didier Parigot Projet OASIS INRIA Sophia www-sop.inria.fr/oasis/SmartTools Journée.
Regroupement (clustering)
De linformation à la gestion des connaissances Introduction J. LINK-PEZET Dess SIAD Janvier 2001.
Animation pédagogique cycle 1 Sciences et Albums
Évaluation de la qualité d'une clusterisation
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Dr DEVILLE Emmanuelle J D V 12/07/2006
Analyse et structuration thématiques
E-Motion Group © Olivier Aycard (E. Gaussier) Université Joseph Fourier Méthodes de classification.
Indexation textuelle : Systèmes de recherche d’informations
Framework Avancement au Plan Principales avancées pour les parties Ligand, Sites Actifs et Docking Processus dinstallation de.
Modélisation des systèmes non linéaires par des SIFs
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Exports à la demande Principes Méthodes Évolutions.
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
Procédure de commande des ressources
Traitement de texte ++.
LEA : Learning Agents Sociétés dagents pour la visualisation dinformations dynamiques Valérie Renault (doctorant, LIP6 et France Telecom R&D) –
Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining
La veille informationnelle : principes et pratique
Le Travail Collaboratif ...
La segmentation
Nouveaux programmes Éducation Musicale BO spécial août 2008
Méthode des Ensembles de Niveaux par Eléments Finis P1
Algorithme pour le web Géraldine Schneider
Présentation du mémoire
Oasif et Scenari TECFA Dpt of Psychology and Education CoFor 2
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,
De la scénarisation pédagogique à la scénarisation documentaire
Netscape Présentation par : Aleksandra Krul et Aurélia Marcus Jeudi 31/
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
Gestion Electronique des Documents et de l’Information
Les techniques des moteurs de recherche
CRDP de Poitou-Charentes
Travaux Pratiques Représentation des connaissances
L ’application se divise en trois parties principales : - la partie Menu qui permet d’effectuer diverses actions - la partie Arborescence qui permet de.
Bordeaux - Juin HAL – Le contenu / Les acteurs
1 F o r m a t i o n A R S FTP anonyme, Archie 2 F o r m a t i o n A R S FTP ANONYMOUS m Premier service d'accès à des documents publics. m Repose très.
Programmation Web : Introduction à XML
Arbres binaires et tables de hachage
Contrôle d’accès sur le client pour des documents XML Luc Bouganim, François Dang-Ngoc, Philippe Pucheral INRIA Rocquencourt & Université de Versailles.
Intégration de schémas
HIERARCHISATION AU NIVEAU REGIONAL DES ENJEUX DE CONSERVATION DES ESPECES ANIMALES D’INTERET COMMUNAUTAIRE ET MENACEES Mars 2010.
Présentation générale du projet
Bureautique M1 Mise en forme évoluée 2.
L’étude : I) Présentation
MJ. Blin et M. CsernelPoleInfo31 XML et ses environnements Documents XML bien formés Prologue Arbre d'éléments Attributs Commentaires Entités internes.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Utilisation du logiciel phylogène
Sujets spéciaux en informatique I
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Recherche Bibliographique Master 1 Sciences de la Vie
Soutenance du mémoire de synthèse
Modélisation des documents: DTD et Schéma
eXtensible Markup Language. Généralités sur le XML.
Knowledge discovery in Databases (KDD)
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
1 INRIA 29 Novembrei 2010 AxIS - Living Labs Conception, Analyse et Amélioration de Systèmes d’information dirigées par les usages Brigitte Trousse INRIA.
Le Traitement Automatique des Langues (TAL)
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
E-lyco à la découverte de l’interface. L’environnement numérique de travail e-lyco est un ensemble de services en ligne, personnalisés et sécurisés, accessibles.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Grilles de recherche Veronique Donzeau-Gouge. 2 objectifs Renforcer la présence du CNRS dans ce domaine en liaison avec : L’Institut ST2I L’INRIA, Les.
KOSMOS 1 Les activités de l’enseignant Module 6 1.Le cahier de textes des classes 2.Le travail à faire et les corrections 3.Le classeur pédagogique 4.Les.
Transcription de la présentation:

Expériences de classification d’une collection de documents XML de structure homogène Thierry Despeyroux Yves Lechevallier Brigitte Trousse Anne-Marie Vercoustre Projet Axis Inria, Rocquencourt et Sophia Antipolis E_mail: prénom.nom@inria.fr EGC 2005

Le Rapport d’Activité Scientifique de l’Inria EGC 2005

Une présentation homogène EGC 2005

Le RA en chiffres 146 fichiers 229 000 lignes 14,8 M octets de données Une DTD unique Des sections optionnelles Le style et le contenu sont libres EGC 2005

Classement en Thèmes (2003) EGC 2005

Classement en Thèmes (2004) EGC 2005

Le Problème Une présentation sous forme de thèmes de recherche Qui peut varier dans le temps Qui n’est pas neutre politiquement Existe-t-il des regroupements naturels ? Quel est le rôle des différentes parties ? EGC 2005

Méthodologie Sélectionner des parties pertinentes en utilisant la structure XML Sélectionner des mots en utilisant un outils de typage syntaxique (TreeTagger) et en les lemmatisant Regrouper les documents en un ensemble de classes disjointes Evaluer ces regroupements EGC 2005

Les diverses expériences K-F: mots-clefs de la section fondations K-all: tous les mots-clefs T-P: texte de la section présentation T-PF: texte des sections présentation et fondations T-C: noms de conférences, workshops, congrès etc. dans la bibliographie EGC 2005

TreeTagger XML Tree Tagger A3 presentation a3 JJ <unknown> A3 presentation designs NNS design A3 presentation methods NNS method A3 presentation and CC and A3 presentation tools NNS tool A3 presentation used VVN use A3 presentation by IN by A3 presentation compilers NNS compiler A3 presentation or CC or A3 presentation users NNS user A3 presentation for IN for A3 presentation code NN code A3 presentation analysis NN analysis EGC 2005

Méthode de Classification L'objectif de cette troisième étape est de regrouper les documents en un ensemble de classes disjointes à partir des vocabulaires issus des cinq expériences. Pour réaliser ce classement nous utilisons une méthode de partitionnement de type Nuées Dynamiques où la distance est basée sur les fréquences des mots du vocabulaire choisi. Le principe de l'algorithme est proche de l'algorithme des k-means. EGC 2005

Experience K-F-a: liste des mots-clefs représentatifs des classes Classe 1: 3d approximation, computer, differential, environment , modeling, processing , programming , vision Classe 2 : computing, equation, grid, problem, transformation Classe 3 : code, design, event, network, processor, time, traffic Classe 4 : calculus, database, datum, image, indexing, information, integration, knowledge, logic, mining, pattern, recognition, user, web A chaque classe est associé les mots les plus représentatifs de cette classe. Ces mots peuvent être interprétés comme des résumés de ces classes. EGC 2005

Répartition des classes en fonction des thèmes de 2003 EGC 2005

Répartition des thèmes de 2003 en fonction des classes EGC 2005

Partition des projets 1a 1b 1c 2a 2b Thèmes Cluster_1 Cluster_2 Apache Runtime Tropics Regal R2D2 Arles Caps POPS 1b AlGorille Gyroweb Reso armor Mascotte aces 1c ADEPT DaRT Ostre Pop Art Triskell VerTeCs 2a Lande PROTHEO SECSI calligramme COMPOSE LogiCal 2b Cafe LEMME Adage Algo EGC 2005

Partition des projets 3a 3b 4a 4b Thèmes Cluster_1 Cluster_2 Cluster_3 i3D DREAM METISS Parole PRIMA SIGNES Atoll MOSTRARE WAM cordial TEXMEX ACACIA Cortex Symbiose AXIS Orpailleur Gemo Orion ATLAS Smis 3b Mirages ALCOVE REVES siames VISTA artis TEMICS macsi Air2 Imedia 4a icare BIPOP Miaou Imara COMORE Fractales NUMOPT IS2 corida sigma2 4b Caiman Calvi Smash Opale ALADIN sagep EGC 2005

Méthode d ’évaluation externe L'évaluation de la qualité des classes générées par la méthode de classification est basée sur sa comparaison des classes ainsi obtenues avec les deux listes de thèmes utilisés par l'Inria. nij est le nombre de projets de recherche INRIA ayant leurs rapports de recherche classés dans la classe Ui et ayant été affectés au groupe Ck du thème k. ni. est le nombre de rapports de recherche mis dans la classe Ui , n.k est le nombre de projets affectés au groupe Ck du thème k, n est le nombre de projets analysés. EGC 2005

Deux mesures La F-measure proposée par (Larsen and Aone, 1999) combine les mesures de précision et de rappel entre Ui et Ck. La mesure de rappel est définie par R(i,k)=nik /ni. La mesure de précision est définie par P(i,k)= nik /n.k La F-measure entre la partition a priori U en K groupes et la partition P des projets INRIA obtenue par la méthode de classification est : L'index corrected Rand (CR) proposé par (Hubert and Arabie (1985)) pour comparer deux partitions. EGC 2005

Mesure de validité externe résultats Thèmes2003 Sous themes 2003 Thèmes2004 Exp. K F Rand K-F-a 4 0.53 0.14 0.38 0.09 0.46 0.11 K-F-b 5 0.44 0.05 0.35 0.06 0.37 0.03 K-F-c 9 0.42 0.10 0.08 0.43 0.12 K-all-a 0.52 0.17 0.36 0.47 0.15 K-all-b 0.54 0.22 K-all-c 0.13 0.40 T-P-a 0.55 0.19 0.50 T-P-b 0.45 T-P-c 0.16 T-PF-a 0.66 0.32 0.49 0.27 0.21 T-PF-b 0.56 0.18 0.51 0.20 T-PF-c 0.48 0.29 T-C-a 0.39 T-C-b 0.24 T-C-c EGC 2005

Conclusion Combinaison d’une sélection par la structure et par le contenu linguistique Évaluation de la classification par rapport à une typologie existante La qualité de la classification dépend fortement du choix des parties des rapports d’activité prises en compte Futur : Évolution de ces classes dans le temps Expérimentation sur d’autres collections EGC 2005