DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010 Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Syllabs: entreprise d’accueil Laboratoire de Recherche privé et Entreprise Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) Projets R&D et développement de produits Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Problématique Morphologie et syntaxe du chinois Composition des mots Morphologie dérivationnelle Affixation Réduplication Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (1) Ambigüité et mots inconnus Segmenteurs existants Syllabs PanGu Stanford TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (2) Comparaison des outils Stanford CTB ( Chinese TreeBank ) Moins d’erreurs Standard uniforme Exemples tableau: Stanford PKU ( Université de Beijing) TreeTagger /最/坏/ ( le plus / méchant) /采煤/机/ (l’extraction de la houille / machine) /最高/ ( le plus haut) /挖掘机/ ( pelle ) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Segmentation proposée Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Classe Catégorie Etiquette Mots lexicaux Nom 名词 N Verbe 动词 V Adjectif 形容词 A Mots grammaticaux Adverbe 副词 R Pronom 代词 P Déterminant 限定词 D Préposition 介词 S Coordination 连词 C Interjection 叹词 I Particule 助词 Y Préfixe 前缀 F Suffixe 后缀 H Classificateur 量词 M Onomatopée 象声词 O Numéral 数词 Z Ponctuation 标点 X Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Liste des lemmes Paradigme Variable et Stem Flexions Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Dictionnaire construit 38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOIS NOMS 60.01 % 55.53 % 43.29 % 58.61 % 66% ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3% VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27% ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % - MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4% TOTAL 8817 34695 41905 32286 38266 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Développement d’un étiqueteur morphosyntaxique non supervisé Constitution du corpus d’entrainement non annoté (SylbootCat) Résultat de l’étiqueteur Nom du corpus Nb des phrases Nb des tokens Nb des caractères 中国电子信息产业网 113.743 3.493.243 5.419.722 中华网新闻 56.141 1.529.032 2.164.486 人民日报 114.371 3.386.289 4.882.423 Corpus thématique : Informatique 19.522 419.539 645.546 Corpus thém : éolienne 31.819 768.839 1.227.880 Corpus thém : télé-mobile 60.252 1.153.522 1.791.316 Total : 394.250 10.750.464 16.122.993 Catégorie Proportion Syllabs CTB Nom LC, NN, NT, JJ, NR 35,24 39,15 Verbe VC, VA, VE, VV 14,83 17,62 Ponctuation PU 13,07 14,11 Adverbe AD 5,49 7,42 Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35 Préposition P, SB, LB, MSP, BA 5,21 4,31 Adjectif JJ, VA, OD 5,33 4,2 Numéral CD 3,94 3,14 Coordination CC, CS 2,08 1,57 Interjection IJ 0,17 0,003 Onomatopée ON 0,02 0,0006 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (1) LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (2) Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Evaluation de l’étiqueteur 50 phrases d’un corpus construit par MSRA (Microsoft Research) Chinois Sans règle de correction Avec règle de correction Nb total des tokens 1177 Mots inconnus 3 Tokens mal segmentés 27 Tokens mal taggés 133 60 Proportion de mots mal segmentés 2.3% Rappel 86.2% 92.4% Précision 88.4% 94.8% Mots mal segmentés Nb d’erreurs sur Nom Propre 20 Nb d’erreurs sur Nom commun 7 Nb total d’erreurs de segmentation 27 Proportion d’erreur sur Nom propre 74% Proportion d’erreur sur Nom commun 26% Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (1) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (2) Règle d’extraction: Résultat:
Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Conclusion Bilan Perspectives à court terme Perspective à long terme Proposition de segmentation pour: S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus 38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Référence Introduction to Chinese Natural Language Processing Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Merci de votre attention! Question?
Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois