Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS
Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010 Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information

Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Syllabs: entreprise d’accueil
Laboratoire de Recherche privé et Entreprise Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) Projets R&D et développement de produits Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Problématique Morphologie et syntaxe du chinois
Composition des mots Morphologie dérivationnelle Affixation Réduplication Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (1)
Ambigüité et mots inconnus Segmenteurs existants Syllabs PanGu Stanford TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (2)
Comparaison des outils Stanford CTB ( Chinese TreeBank ) Moins d’erreurs Standard uniforme Exemples tableau: Stanford PKU ( Université de Beijing) TreeTagger /最/坏/ ( le plus / méchant) /采煤/机/ (l’extraction de la houille / machine) /最高/ ( le plus haut) /挖掘机/ ( pelle ) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Segmentation proposée
Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Classe Catégorie Etiquette Mots lexicaux Nom 名词 N Verbe 动词 V Adjectif 形容词 A Mots grammaticaux Adverbe 副词 R Pronom 代词 P Déterminant 限定词 D Préposition 介词 S Coordination 连词 C Interjection 叹词 I Particule 助词 Y Préfixe 前缀 F Suffixe 后缀 H Classificateur 量词 M Onomatopée 象声词 O Numéral 数词 Z Ponctuation 标点 X Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Liste des lemmes Paradigme Variable et Stem Flexions Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Dictionnaire construit
lemmes, formes, 45 patterns et 62 paradigmes CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOIS NOMS 60.01 % 55.53 % 43.29 % 58.61 % 66% ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3% VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27% ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % - MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4% TOTAL 8817 34695 41905 32286 38266 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Développement d’un étiqueteur morphosyntaxique non supervisé
Constitution du corpus d’entrainement non annoté (SylbootCat) Résultat de l’étiqueteur Nom du corpus Nb des phrases Nb des tokens Nb des caractères 中国电子信息产业网中华网新闻 56.141 人民日报 Corpus thématique : Informatique 19.522 Corpus thém : éolienne 31.819 Corpus thém : télé-mobile 60.252 Total : Catégorie Proportion Syllabs CTB Nom LC, NN, NT, JJ, NR 35,24 39,15 Verbe VC, VA, VE, VV 14,83 17,62 Ponctuation PU 13,07 14,11 Adverbe AD 5,49 7,42 Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35 Préposition P, SB, LB, MSP, BA 5,21 4,31 Adjectif JJ, VA, OD 5,33 4,2 Numéral CD 3,94 3,14 Coordination CC, CS 2,08 1,57 Interjection IJ 0,17 0,003 Onomatopée ON 0,02 0,0006 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (1)
LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (2)
Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Evaluation de l’étiqueteur
50 phrases d’un corpus construit par MSRA (Microsoft Research) Chinois Sans règle de correction Avec règle de correction Nb total des tokens 1177 Mots inconnus 3 Tokens mal segmentés 27 Tokens mal taggés 133 60 Proportion de mots mal segmentés 2.3% Rappel 86.2% 92.4% Précision 88.4% 94.8% Mots mal segmentés Nb d’erreurs sur Nom Propre 20 Nb d’erreurs sur Nom commun 7 Nb total d’erreurs de segmentation 27 Proportion d’erreur sur Nom propre 74% Proportion d’erreur sur Nom commun 26% Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (1)
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (2)
Règle d’extraction: Résultat:

Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Conclusion Bilan Perspectives à court terme Perspective à long terme
Proposition de segmentation pour: S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus lemmes, 95% de couverture, corpus crawlé phrases Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Référence Introduction to Chinese Natural Language Processing
Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Merci de votre attention!
Question?

Identification des mots et segmentation
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010

Présentations similaires

Présentation au sujet: "Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010

Présentations similaires

Présentation au sujet: "Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back