Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010

Slides:



Advertisements
Présentations similaires
Qu’est-ce que LingPro ? LingPro est la branche ingénierie linguistique de i-KM La collaboration i-KM / LingPro est le résultat d’un partenariat sous forme.
Advertisements

Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Par Aline Mahot et Charlyne Routier
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
Travaux pratiques sur Nooj
Cours présentielle avec 1er année.
Cordial, le TAL et les aides à la rédaction
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Éric Laporte Université Paris-Est Marne-la-Vallée
Quelques exemples de situations de travail ritualisées brèves...
Olivier CANTIN, Tassadit AMGHAR, Bernard LEVRAT
Tout savoir sur les classes de mots
Project de la langue française
Nature ou fonction d’un mot
Mamadou Dieye, Mohamed Rafik Doulache,
Comment tu apprends une langue? How you learn a language? Français langue seconde -FSL French as second language -FSL.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
OUTILEX Présentation des résultats
CloudView Architecture
Forum des Industries de la Langue, 17 mars 2010
Chapitre 2 La description du langage
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
8èmes Journées INTEX/NooJ
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Révision globale.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Mise en forme efficace d’un document Logiciel Microsoft Word
Les classes grammaticales
Les classes de mots… en bref
Aujourd'hui, nous allons étudier les classes grammaticales des mots.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Dominique LAURENT Patrick SEGUELA
Natures / classes grammaticales INTRODUCTION
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Modélisation N-morphes en classification des textes de Wikipedia
Les classes de mots ou classes grammaticales
Les principales approches d’organisation et D’accès aux ressources électroniques sur le Web Lalthoum Saàdani EBSI - Université de Montréal 32 è congrès.
Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.
TEXT MINING Fouille de textes
徐一新 徐一新 复旦大学图书馆 一、学术图书馆的 EB EC 和 EB EC 和 EB EC( 电子商务 ) --不仅包括利用网络在商业 伙伴之间开展的交易活动,还包括网上发布信 息、信息服务,组织内部的各种活动 EB( 电子业务 ) 是比电子商务更广泛的概念 图书馆电子业务(
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Quand j’écris un texte…
Հայերէն Le module arménien de Nooj : dernières réalisations
Classification automatique des messages électroniques
les compétences des élèves dans le domaine du vocabulaire
Règles d’or à suivre en rédaction
Pierre Malenfant Technologie 9 École du Carrefour
Progression/Programmation – Français (1/3)
I NTERPRÉTATION : E XPRESSION Exprimer les informations clés Sujet: Le patrimoine culturel.
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Consolidation de grands réseaux lexicaux
les mots variables et les mots invariables.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Leçon Huit. [˜>]: on, om bon fond son pont non ombre nom long ton rond conte coton bonbon plomb songe façon tronc nombre fonction Att.: consonne comme.
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
I NTERPRÉTATION : E XPRESSION 2 La simplicité de l’expression Sujet: l’entreprise.
La pédagogie de l’erreur
汉语课 Cours de chinois Débutant Jie LI-DAI 戴捷.
4、64、6 第十课 复习第十课语法概 念( p82-84 ) 1. 形容词。 2. 否定 句中的 de 。 疑问句( 3 )。 学习课文 Texte A À l’office de tourisme Texte B Un Mauvais Ouvrier 用法语聊天形式回忆一些以 前学过的句子及与本课语法.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
UQÀM DDL-8430 didactique de la grammaire Analyse de matériel didactique Nouvelle grammaire pratique : 2ème année du 1 er cycle du secondaire Myriam Laporte.
副代词 en 1.en 作直宾,代替 “ 不定冠词 des 或部分冠词 du,de la, de l’, des + 名词 ” ,或在绝对否定句中作直宾的 “de+ 名词 ” Est-ce qu’il y a des médecins dans le bureau ? Oui, il y a des.
Lingua francese III.
N°du Projet : P002 Nom entreprise: Laboratoire Hubert Curien
Transcription de la présentation:

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010 Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Syllabs: entreprise d’accueil Laboratoire de Recherche privé et Entreprise Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) Projets R&D et développement de produits Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Problématique Morphologie et syntaxe du chinois Composition des mots Morphologie dérivationnelle Affixation Réduplication Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (1) Ambigüité et mots inconnus Segmenteurs existants Syllabs PanGu Stanford TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (2) Comparaison des outils Stanford CTB ( Chinese TreeBank ) Moins d’erreurs Standard uniforme Exemples tableau: Stanford PKU ( Université de Beijing) TreeTagger /最/坏/ ( le plus / méchant) /采煤/机/ (l’extraction de la houille / machine) /最高/ ( le plus haut) /挖掘机/ ( pelle ) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Segmentation proposée Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Classe Catégorie Etiquette Mots lexicaux Nom 名词 N Verbe 动词 V Adjectif 形容词 A Mots grammaticaux Adverbe 副词 R Pronom 代词 P Déterminant 限定词 D Préposition 介词 S Coordination 连词 C Interjection 叹词 I Particule 助词 Y Préfixe 前缀 F Suffixe 后缀 H Classificateur 量词 M Onomatopée 象声词 O Numéral 数词 Z Ponctuation 标点 X Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Liste des lemmes Paradigme Variable et Stem Flexions Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Dictionnaire construit 38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes CLASSE POLONAIS FRANCAIS ITALIEN ANGLAIS CHINOIS NOMS 60.01 % 55.53 % 43.29 % 58.61 % 66% ADJECTIFS 12.54 % 19.67 % 18.41 % 12.08 % 3% VERBES 19.75 % 26.11 % 36.06 % 38.81 % 27% ADVERBES 2.20 % 4.31 % 1.32 % 2.63 % - MOTS OUTILS 4.65 % 1.96 % 0.91 % 1.29 % 4% TOTAL 8817 34695 41905 32286 38266 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Développement d’un étiqueteur morphosyntaxique non supervisé Constitution du corpus d’entrainement non annoté (SylbootCat) Résultat de l’étiqueteur Nom du corpus Nb des phrases Nb des tokens Nb des caractères 中国电子信息产业网 113.743 3.493.243 5.419.722 中华网新闻 56.141 1.529.032 2.164.486 人民日报 114.371 3.386.289 4.882.423 Corpus thématique : Informatique 19.522 419.539 645.546 Corpus thém : éolienne 31.819 768.839 1.227.880 Corpus thém : télé-mobile 60.252 1.153.522 1.791.316 Total : 394.250 10.750.464 16.122.993 Catégorie  Proportion Syllabs CTB Nom LC, NN, NT, JJ, NR 35,24 39,15 Verbe VC, VA, VE, VV 14,83 17,62 Ponctuation PU 13,07 14,11 Adverbe AD 5,49 7,42 Particule DEC, DEG, DER, DEV, SP, AS 5,43 6,35 Préposition P, SB, LB, MSP, BA 5,21 4,31 Adjectif JJ, VA, OD 5,33 4,2 Numéral CD 3,94 3,14 Coordination CC, CS 2,08 1,57 Interjection IJ 0,17 0,003 Onomatopée ON 0,02 0,0006 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (1) LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (2) Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation de l’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Evaluation de l’étiqueteur 50 phrases d’un corpus construit par MSRA (Microsoft Research) Chinois Sans règle de correction Avec règle de correction Nb total des tokens 1177 Mots inconnus 3 Tokens mal segmentés 27 Tokens mal taggés 133 60 Proportion de mots mal segmentés 2.3% Rappel 86.2% 92.4% Précision 88.4% 94.8% Mots mal segmentés Nb d’erreurs sur Nom Propre 20 Nb d’erreurs sur Nom commun 7 Nb total d’erreurs de segmentation 27 Proportion d’erreur sur Nom propre 74% Proportion d’erreur sur Nom commun 26% Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (1) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (2) Règle d’extraction: Résultat:

Plan Problématique et cadre théorique Segmentation proposée Création du lexique morphosyntaxique chinois Développement d’un étiqueteur morphosyntaxique Evaluation d’étiqueteur Extraction des mots clés Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Conclusion Bilan Perspectives à court terme Perspective à long terme Proposition de segmentation pour: S’adapter aux besoins de Syllabs L’amélioration du traitement des mots inconnus 38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases Perspectives à court terme Mélange chinois simplifié et traditionnel Mélange caractères chinois et latins Amélioration d’étiqueteur Corpus de référence Perspective à long terme Ambigüité Segmenteur Syllabs Encodage Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Référence Introduction to Chinese Natural Language Processing Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Merci de votre attention! Question?

Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois