La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modélisation N-morphes en classification des textes de Wikipedia

Présentations similaires


Présentation au sujet: "Modélisation N-morphes en classification des textes de Wikipedia"— Transcription de la présentation:

1 Modélisation N-morphes en classification des textes de Wikipedia
Encadré par : BOUHAYATI Najat Claude MONTACIE QUINTIN Emmanuel XU Yuanyuan

2 Plan Objet Extraction des textes à partir de Wikipédia
Morphématisation Apprentissage des modèles de langage Conclusion

3 Des dumps à la thématisation
comparer Classification manuelle

4 Extraction des textes à partir de Wikipédia
Environnement de Wikipédia Wikipédia, Wiki et Wikitexte Structure de Wikipédia et catégorisation - Étiquetage des catégories - Structure des catégories Outil d’extraction Constitution des corpus Classification manuelle des articles de Wikipédia D’abord, Je vais vous présenter un environnement de wikipedia, ensuite je vais vous montrer le processus de constitution de corpus d’apprentissage et le corpus de test pour classifier automatique des textes par notre méthide, a la fin nous e

5 Environnement de Wikipédia
Wikipédia, Wiki et Wikitexte Base de donnée téléchargée - une version archivée «  page-articles.xml.bz2» - décompressée en taille 5,26 G0 - datant du :41:55 pages et révisions Un exemple de Wikitexte Catégorisation de Wikipédia Etiquetage des catégories Structure des catégories Outil d’extraction Parse::MediaWikiDump SAX STX Wikipedia est un corpus riche entièrement électronique, nous avons utilisé une version archivée datant du décembre. Elle peut être téléchargée depuis le site de wikipedia qui archive régulièrement la bd. Elle contient le texte complet des versions courantes des articles ainsi que son historique depuis la création de l’article, sans les espaces de noms. Le contenu des pages est en forme Wikitexte. Ensuite je vais vous montrer quelques caractèristiques de wikitexte. Ensuite je vais vous présenter la catégorisation de wikipedia. La base de donnée de wikipedia est trop volumineuse, il existe pluisieurs méthodes pour parser des fichiers XML de wikipedia: Finalement, nous prenons parse::mediawikidump pour parcourir des bd de wikipedia.

6 Wikitexte Titre Article Paragraphe Lien interne Lien externe
Le wikitexte est le texte écrit dans le respect de la syntaxe wiki, on peut y récupérer automatiquement de nombreux objets textuels, comme les titres, les section de l’article, les paragraphe, les liens interne , externe, ect. Lien externe

7 Etiquetage des catégories
Les contributeur peut choisir l’étiquette par laquelle il va indexer un article, ici le choix s’est porté sur l’étiquette, qui peut correpond aux catégorie, il suffi d’insérer dans le corps du wikitexte catégorie avec les crochets. Après nous avons trouvé cette étiquettes spécifié des catégorie, nous proposons d’écrire un script pour extraire des texte par catégories en utilisant ces étiquettes.

8 Structure des catégories
Voici une structure hiérarchique des sous-catégories du portail ‘sciences humaines et sociales’, catégorie qui appartient elle-même à la catégorie mère ‘science de l’information et des bibliothèque’ Nous avons choisi les catégories : linguistique, philosophie, sociologie, géographie et sciences politique pour constituer le corpus d’apprentissage et les catégories: science humaine et sciences cognitive pour constituer le corpus de test.

9 Constitution du corpus
Wikitexte de Wikipédia.fr dump2texte.pl Texte brut nettoyer.pl segmenté Mots segmenté Texte Morfessor Parse:MediaWi kiDump Wikitexte (obtenu par le script dump2texte.pl): Dans l'[[Union européenne]], l''''autorisation d'un [[produit phytopharmaceutique]]''' est définie par la [[directive 91/414/CEE]] du 15 juillet [[1991]], comme suit : Après script nettoyer.pl : Dans l'Union européenne l'autorisation d'un produit phytopharmaceutique est définie par la directive CEE du juillet comme suit Les textes qui ont servi à la classification ont subi plusieurs prétraitement. Pour ce faire, nous avons utilisé des script en perl. Après l’installation d’outil parseur mediawikidump, nous avons extait des texte de bd de wikipedia en fonction de leur categorie à l’aide cet outil et un script d’écrit en perl dump2texte.pl. Enfin, nous avons supprimé automatiquement les balises et conventions du wikitexte présentes dans ces textes en utilisant un script d’écrit en perl, qui s’appelle nettoyer.pl

10 Classification des articles
Wikitexte de Wikipédia.fr classifier.pl Article XML Parseur :MediaWikiDump Par exemple: A présent, notre objectif est de classifier automatiquement un ensemble d’articles en se basant sur leur contenu textuel. Par cette démarche, nous voulons comparer la classification obtenue de notre projet. Donc nous avons écrit un script classifier.pl pour stocker les articles dépendant d’une catégorie données qui les trie par ordre alphabétique, ça peut nous aider de trouver facilement chaque article qu’on veut chercher.

11 Morphématisation Origine : algorithme de Harris
Evolution de l’algorithme orienté vers un objectif précis. Morfessor : algorithme de segmentation multilingue

12 Morfessor Outil de segmentation probabiliste non supervisée
Prise en compte des langues à morphologie riche Résultat souhaité : « Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0 » Creutz M., Lagus K., 2002

13 Morphématisation Texte brut Texte segmenté

14 Options utilisées Option -trace integer: permet l’affichage à l’écran de la segmentation Option -load filename : permet de charger un fichier contenant un découpage que l’on souhaite appliquer à un texte Option gamma : c’est cette option qui permet d’affiner la segmentation Instanciation facultative par deux paramètres de type float Instanciation par défaut :

15 Option gamma Gamma par défaut Gamma instancié

16 De Morfessor à SRILM Reprendre le fichier résultat de Morfessor pour SRILM Adapter le fichier résultat pour SRILM Autre fonctionnalité : fusion

17 Nettoyage du fichier Fichier de résultat Résultat nettoyé

18 VERS LA THEMATISATION ? 4 étapes :
Extraction d’un lexique à partir d’un corpus ; Extraction des n-grammes en utilisant le .vocab Calcul d’un modèle probabiliste à partir des n- grammes Comparaison avec les articles choisis en test On prend en entrée les résultats issus de morphessor avec leurs ambiguïtés. Outils SRILM : concevoir des modèles de langage mais sert pour tous les éléments discrets : grand succès HTK et le CMU SRILM : Scripts de C++

19 PROCESSUS CORPUS APPR CORPUSTEST -ppl .txt .txt -lm Corpus.lm LEXIQUE
-write-vocab .txt .txt -lm Corpus.lm LEXIQUE ngram-count N-gram ngram-count MODELE DE LANGAGE -write Corpus.count La commande ngram-count compte les n-grammes. La commande optionnelle –order 3 permet de s’intéresser aux trigrammes. On prend en compte le fichier Sociologie_segmente.txt et on crée ensuite à partir de ce fichier le fichier .vocab. Extraction du lexique /cygdrive/c/srilm/bin/cygwin/ngram-count.exe -write-vocab /cygdrive/c/srilm/Sociologie_segmente.vocab -order 3 -text /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.txt Extraction des n-grammes /cygdrive/c/srilm/bin/cygwin/ngram-count.exe -order 3 -text /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.txt -vocab /cygdrive/c/srilm/Sociologie_segmente.vocab –write /cygdrive/c/srilm/Sociologie_segmente.count Calcul d’un modèle de langage -vocab /cygdrive/c/srilm/emmanuel/Categorisation/Apprentissage/Sociologie_segmente.vocab -read /cygdrive/c/srilm/Sociologie_segmente.count -unk –lm /cygdrive/c/srilm/Sociologie_segmente.n3gram.lm -vocab

20 ILLUSTRATION – RESULTAT.VOCAB
PBS : - Mauvaise prise en compte de l’accentuation Prise en compte de certains caractères (&, ‘)

21 ILLUSTRATION – RESULTAT .COUNT
PBS : - Segmentation qui ne prend pas en compte le déterminant (l. 21 & 25) - mots en anglais (THE) unk : conserve les mots inconnus comme des mots normaux, au lieu de les supprimer ;

22 ILLUSTRATION – RESULTAT .LM
Logprob : logprob qui mesure la probabilité totale du corpus. Plus le logprob est proche de O, plus le corpus est bien prédit.

23 CALCUL DE LA PERPLEXITE
Perplexité : le nb de mots pouvant suivre un énoncé : en l’occurrence ici pour les trigrammes

24 Conclusion Extraction des dumps: Morphématisation: Thématisation:
Nettoyer profondément le corpus Traitement des entités nommées - Extraction par la majuscule ex: Mer Rouge - Extraction par les tags spécifiques de Wikipédia ex: [[Emirats arabes unis]] Morphématisation: Outil performant mais la segmentation est perfectible Proposer un affichage en arbre Thématisation: Parcours d’un fichier et chargement du modèle de langage correspondant Outil peu fiable. Automatiser : parcours d’un fichier et chargement du modèle de langage correspondant

25 Merci de votre attention!


Télécharger ppt "Modélisation N-morphes en classification des textes de Wikipedia"

Présentations similaires


Annonces Google