La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010

Présentations similaires


Présentation au sujet: "Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010"— Transcription de la présentation:

1 DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS
Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010 Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information

2 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

3 Syllabs: entreprise d’accueil
Laboratoire de Recherche privé et Entreprise Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) Projets R&D et développement de produits Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

4 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

5 Problématique Morphologie et syntaxe du chinois
Composition des mots Morphologie dérivationnelle Affixation Réduplication Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

6 Identification des mots et segmentation (1)
Ambigüité et mots inconnus Segmenteurs existants Syllabs PanGu Stanford TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

7 Identification des mots et segmentation (2)
Comparaison des outils Stanford CTB ( Chinese TreeBank ) Moins d’erreurs Standard uniforme Exemples tableau: Stanford PKU ( Université de Beijing) TreeTagger /最/坏/ ( le plus / méchant) /采煤/机/ (l’extraction de la houille / machine) /最高/ ( le plus haut) /挖掘机/ ( pelle ) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

8 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

9 Segmentation proposée
Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

10 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

11 Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Classe Catégorie Etiquette Mots lexicaux Nom 名词 N Verbe 动词 V Adjectif 形容词 A Mots grammaticaux Adverbe 副词 R Pronom 代词 P Déterminant 限定词 D Préposition 介词 S Coordination 连词 C Interjection 叹词 I Particule 助词 Y Préfixe 前缀 F Suffixe 后缀 H Classificateur 量词 M Onomatopée 象声词 O Numéral 数词 Z Ponctuation 标点 X Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

12 Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

13 Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Liste des lemmes Paradigme Variable et Stem Flexions Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

14 Dictionnaire construit
lemmes, formes, 45 patterns et 62 paradigmes CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOIS NOMS 60.01 % 55.53 % 43.29 % 58.61 % 66% ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3% VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27% ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % - MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4% TOTAL 8817 34695 41905 32286 38266 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

15 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

16 Développement d’un étiqueteur morphosyntaxique non supervisé
Constitution du corpus d’entrainement non annoté (SylbootCat) Résultat de l’étiqueteur Nom du corpus Nb des phrases Nb des tokens Nb des caractères 中国电子信息产业网 中华网新闻 56.141 人民日报 Corpus thématique : Informatique 19.522 Corpus thém : éolienne 31.819 Corpus thém : télé-mobile 60.252 Total : Catégorie  Proportion Syllabs CTB Nom LC, NN, NT, JJ, NR 35,24 39,15 Verbe VC, VA, VE, VV 14,83 17,62 Ponctuation PU 13,07 14,11 Adverbe AD 5,49 7,42 Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35 Préposition P, SB, LB, MSP, BA 5,21 4,31 Adjectif JJ, VA, OD 5,33 4,2 Numéral CD 3,94 3,14 Coordination CC, CS 2,08 1,57 Interjection IJ 0,17 0,003 Onomatopée ON 0,02 0,0006 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

17 Règles de correction avec LOL (1)
LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

18 Règles de correction avec LOL (2)
Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

19 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

20 Evaluation de l’étiqueteur
50 phrases d’un corpus construit par MSRA (Microsoft Research) Chinois Sans règle de correction Avec règle de correction Nb total des tokens 1177 Mots inconnus 3 Tokens mal segmentés 27 Tokens mal taggés 133 60 Proportion de mots mal segmentés 2.3% Rappel 86.2% 92.4% Précision 88.4% 94.8% Mots mal segmentés Nb d’erreurs sur Nom Propre 20 Nb d’erreurs sur Nom commun 7 Nb total d’erreurs de segmentation 27 Proportion d’erreur sur Nom propre 74% Proportion d’erreur sur Nom commun 26% Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

21 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

22 Extraction de mots clés (1)
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

23 Extraction de mots clés (2)
Règle d’extraction: Résultat:

24 Plan Problématique et cadre théorique Segmentation proposée
Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

25 Conclusion Bilan Perspectives à court terme Perspective à long terme
Proposition de segmentation pour: S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus lemmes, 95% de couverture, corpus crawlé phrases Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

26 Référence Introduction to Chinese Natural Language Processing
Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

27 Merci de votre attention!
Question?

28 Identification des mots et segmentation
Développement et intégration de ressources linguistiques pour le traitement automatique du chinois


Télécharger ppt "Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010"

Présentations similaires


Annonces Google