Modélisation N-morphes en classification des textes de Wikipedia

Slides:



Advertisements
Présentations similaires
UTILISATION DE LAPPLICATION e-SIN La restitution des données.
Advertisements

Algorithme de Lempel-Ziv et Arbre MESH
E-learning Evolutif Albarelli Corinne Behem Patrice Guillot Jérôme
Présentation générale de SPIP Fonctionnalités principales dun CMS La séparation entre contenu et présentation Susciter linteractivité en interne et en.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Classification et prédiction
DTD Sylvain Salvati
TOUQUET Arnaud ▪ GI05 BLONDEEL Igor ▪ GM05
Atelier Wiki 1.Introduction 2.Définition 3.Fonctionnement 4.Ecrire sur un wiki 5.En pratique 6.Glossaire 7.Ressources.
Tutoriel SPIP Rédacteur.
Programmation et projet encadré
Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL.
DUE PAR AUTHENTIFICATION
Symfony i18n. terminologie internationalization = i18n –Un même contenu traduit en plusieurs langue, éventuellement converti en différents formats localization.
Principe de défilement du document dans un traitement de texte
Interface Homme Machine IHM Pro
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
PubMed Trucs et astuces…
Enregistrement d’un document
LMD: Langage de Manipulation de Données
Nouveau blog. WordPress connexion Nommez votre blog.
Vice-rectorat de Mayotte
Rédacteur 1. Sommaire Connexion Interface SPIP Menu SPIP Rédiger un article Interface de création dun article Fonctionnalités de base Statut de larticle.
Projet 29 Product Tagger Tuteur : Michel Benoît Groupe : - Simon Giron - Vincent Reuss - Jérémie Simian Annee :
Publispostage Menu Outils / Lettres et publipostage
Construction de modèles visuels
Mamadou Dieye, Mohamed Rafik Doulache,
Reconnaissance Vocale
Algorithme pour le web Géraldine Schneider
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Laurent Besacier LIG/GETALP Université J. Fourier (Grenoble I)
Typo3 sur Bonjourquebec.com Publier un site dynamique en version statique ou presque…
Projet de Master première année 2007 / 2008
Les feuilles de style CSS
TracenPoche Insérer une figure TepWeb >.  Contenu de l'archive tepweb.zip Contenu de l'archive tepweb.zip  Quelques notions de html Quelques notions.
Hot Potatoes
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
8 - XML Cours XML.
Le langage XML.
Logiciel de présentation
Fast and Furious Decision Tree Induction
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
Traitement de texte +.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
MJ. Blin et M. CsernelPoleInfo31 XML et ses environnements Documents XML bien formés Prologue Arbre d'éléments Attributs Commentaires Entités internes.
Dominique LAURENT Patrick SEGUELA
P.D.F. Qui es-tu?.
Struts.
Suivi rapide d’objet en mouvement
Du discours aux modèles… Une tentative d’articulation
Modélisation des documents: DTD et Schéma
JM Berger – RTE Software Présentation Technique – Copyright 2003 Présentation de
G ROUPE IRIUM ™ N°1 européen des PGI pour Distributeurs, Loueurs & Importateurs de Machines Les Bases de Connaissances Knowledge Base Maxime HILAIRE 07/05/2008.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
1 Tutoriel SPIP Rédacteur. 2 Sommaire Connexion Interface SPIP Menu SPIP Rédiger un article Interface de création d’un article Fonctionnalités de base.
Word Approfondir ses compétences Tous les jeudis du 21 février au 23 mai 2013.
Conception des pages Web avec
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
LES REGLAGES. Pour personnaliser votre PE 1201 Cliquer sur Réglages ou appuyer sur la touche F9. Dans la fenêtre qui s’ouvre, cliquer sur le paramètre.
Projet lif7 : Zelda Armes
Dreamweaver Séance 1.
Elise Pierrot, GSU04 ImageReady, traitement d’image pour le WEB Présentation SI28.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Créer un site avec Wordpress. 1. Principes généraux 2. Installation 3. Paramétrage de Wordpress 4. Les catégories des articles 5. Les articles 6. Les.
Introduction au WIKI Par Marc Chevarie.
ALGORITHME ET PROGRAMMATION RÉVISION Informatique et Sciences du Numérique.
Transcription de la présentation:

Modélisation N-morphes en classification des textes de Wikipedia Encadré par : BOUHAYATI Najat Claude MONTACIE QUINTIN Emmanuel XU Yuanyuan

Plan Objet Extraction des textes à partir de Wikipédia Morphématisation Apprentissage des modèles de langage Conclusion

Des dumps à la thématisation comparer Classification manuelle

Extraction des textes à partir de Wikipédia Environnement de Wikipédia Wikipédia, Wiki et Wikitexte Structure de Wikipédia et catégorisation - Étiquetage des catégories - Structure des catégories Outil d’extraction Constitution des corpus Classification manuelle des articles de Wikipédia D’abord, Je vais vous présenter un environnement de wikipedia, ensuite je vais vous montrer le processus de constitution de corpus d’apprentissage et le corpus de test pour classifier automatique des textes par notre méthide, a la fin nous e

Environnement de Wikipédia Wikipédia, Wiki et Wikitexte Base de donnée téléchargée - une version archivée «  page-articles.xml.bz2» - décompressée en taille 5,26 G0 - datant du 2009-12-11 08:41:55 - 2 167 245 pages et 2 167 245 révisions Un exemple de Wikitexte Catégorisation de Wikipédia Etiquetage des catégories Structure des catégories Outil d’extraction Parse::MediaWikiDump SAX STX Wikipedia est un corpus riche entièrement électronique, nous avons utilisé une version archivée datant du 2009 11 décembre. Elle peut être téléchargée depuis le site de wikipedia qui archive régulièrement la bd. Elle contient le texte complet des versions courantes des articles ainsi que son historique depuis la création de l’article, sans les espaces de noms. Le contenu des pages est en forme Wikitexte. Ensuite je vais vous montrer quelques caractèristiques de wikitexte. Ensuite je vais vous présenter la catégorisation de wikipedia. La base de donnée de wikipedia est trop volumineuse, il existe pluisieurs méthodes pour parser des fichiers XML de wikipedia: Finalement, nous prenons parse::mediawikidump pour parcourir des bd de wikipedia.

Wikitexte Titre Article Paragraphe Lien interne Lien externe Le wikitexte est le texte écrit dans le respect de la syntaxe wiki, on peut y récupérer automatiquement de nombreux objets textuels, comme les titres, les section de l’article, les paragraphe, les liens interne , externe, ect. Lien externe

Etiquetage des catégories Les contributeur peut choisir l’étiquette par laquelle il va indexer un article, ici le choix s’est porté sur l’étiquette, qui peut correpond aux catégorie, il suffi d’insérer dans le corps du wikitexte catégorie avec les crochets. Après nous avons trouvé cette étiquettes spécifié des catégorie, nous proposons d’écrire un script pour extraire des texte par catégories en utilisant ces étiquettes.

Structure des catégories Voici une structure hiérarchique des sous-catégories du portail ‘sciences humaines et sociales’, catégorie qui appartient elle-même à la catégorie mère ‘science de l’information et des bibliothèque’ Nous avons choisi les catégories : linguistique, philosophie, sociologie, géographie et sciences politique pour constituer le corpus d’apprentissage et les catégories: science humaine et sciences cognitive pour constituer le corpus de test.

Constitution du corpus Wikitexte de Wikipédia.fr dump2texte.pl Texte brut nettoyer.pl segmenté Mots segmenté Texte Morfessor Parse:MediaWi kiDump Wikitexte (obtenu par le script dump2texte.pl): Dans l'[[Union européenne]], l''''autorisation d'un [[produit phytopharmaceutique]]''' est définie par la [[directive 91/414/CEE]] du 15 juillet [[1991]], comme suit : Après script nettoyer.pl : Dans l'Union européenne l'autorisation d'un produit phytopharmaceutique est définie par la directive CEE du juillet comme suit Les textes qui ont servi à la classification ont subi plusieurs prétraitement. Pour ce faire, nous avons utilisé des script en perl. Après l’installation d’outil parseur mediawikidump, nous avons extait des texte de bd de wikipedia en fonction de leur categorie à l’aide cet outil et un script d’écrit en perl dump2texte.pl. Enfin, nous avons supprimé automatiquement les balises et conventions du wikitexte présentes dans ces textes en utilisant un script d’écrit en perl, qui s’appelle nettoyer.pl

Classification des articles Wikitexte de Wikipédia.fr classifier.pl Article XML Parseur :MediaWikiDump Par exemple: A présent, notre objectif est de classifier automatiquement un ensemble d’articles en se basant sur leur contenu textuel. Par cette démarche, nous voulons comparer la classification obtenue de notre projet. Donc nous avons écrit un script classifier.pl pour stocker les articles dépendant d’une catégorie données qui les trie par ordre alphabétique, ça peut nous aider de trouver facilement chaque article qu’on veut chercher.

Morphématisation Origine : algorithme de Harris Evolution de l’algorithme orienté vers un objectif précis. Morfessor : algorithme de segmentation multilingue

Morfessor Outil de segmentation probabiliste non supervisée Prise en compte des langues à morphologie riche Résultat souhaité : « Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0 » Creutz M., Lagus K., 2002

Morphématisation Texte brut Texte segmenté

Options utilisées Option -trace integer: permet l’affichage à l’écran de la segmentation Option -load filename : permet de charger un fichier contenant un découpage que l’on souhaite appliquer à un texte Option gamma : c’est cette option qui permet d’affiner la segmentation Instanciation facultative par deux paramètres de type float Instanciation par défaut : 7.0 1.0

Option gamma Gamma par défaut Gamma instancié

De Morfessor à SRILM Reprendre le fichier résultat de Morfessor pour SRILM Adapter le fichier résultat pour SRILM Autre fonctionnalité : fusion

Nettoyage du fichier Fichier de résultat Résultat nettoyé

VERS LA THEMATISATION ? 4 étapes : Extraction d’un lexique à partir d’un corpus ; Extraction des n-grammes en utilisant le .vocab Calcul d’un modèle probabiliste à partir des n- grammes Comparaison avec les articles choisis en test On prend en entrée les résultats issus de morphessor avec leurs ambiguïtés. Outils SRILM : concevoir des modèles de langage mais sert pour tous les éléments discrets : grand succès HTK et le CMU SRILM : Scripts de C++

PROCESSUS CORPUS APPR CORPUSTEST -ppl .txt .txt -lm Corpus.lm LEXIQUE -write-vocab .txt .txt -lm Corpus.lm LEXIQUE ngram-count N-gram ngram-count MODELE DE LANGAGE -write Corpus.count La commande ngram-count compte les n-grammes. La commande optionnelle –order 3 permet de s’intéresser aux trigrammes. On prend en compte le fichier Sociologie_segmente.txt et on crée ensuite à partir de ce fichier le fichier .vocab. Extraction du lexique /cygdrive/c/srilm/bin/cygwin/ngram-count.exe -write-vocab /cygdrive/c/srilm/Sociologie_segmente.vocab -order 3 -text /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.txt Extraction des n-grammes /cygdrive/c/srilm/bin/cygwin/ngram-count.exe -order 3 -text /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.txt -vocab /cygdrive/c/srilm/Sociologie_segmente.vocab –write /cygdrive/c/srilm/Sociologie_segmente.count Calcul d’un modèle de langage -vocab /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.vocab -read /cygdrive/c/srilm/Sociologie_segmente.count -unk –lm /cygdrive/c/srilm/Sociologie_segmente.n3gram.lm -vocab

ILLUSTRATION – RESULTAT.VOCAB PBS : - Mauvaise prise en compte de l’accentuation Prise en compte de certains caractères (&, ‘)

ILLUSTRATION – RESULTAT .COUNT PBS : - Segmentation qui ne prend pas en compte le déterminant (l. 21 & 25) - mots en anglais (THE) unk : conserve les mots inconnus comme des mots normaux, au lieu de les supprimer ;

ILLUSTRATION – RESULTAT .LM Logprob : logprob qui mesure la probabilité totale du corpus. Plus le logprob est proche de O, plus le corpus est bien prédit.

CALCUL DE LA PERPLEXITE Perplexité : le nb de mots pouvant suivre un énoncé : en l’occurrence ici pour les trigrammes

Conclusion Extraction des dumps: Morphématisation: Thématisation: Nettoyer profondément le corpus Traitement des entités nommées - Extraction par la majuscule ex: Mer Rouge - Extraction par les tags spécifiques de Wikipédia ex: [[Emirats arabes unis]] Morphématisation: Outil performant mais la segmentation est perfectible Proposer un affichage en arbre Thématisation: Parcours d’un fichier et chargement du modèle de langage correspondant Outil peu fiable. Automatiser : parcours d’un fichier et chargement du modèle de langage correspondant

Merci de votre attention!