La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres.

Présentations similaires


Présentation au sujet: "Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres."— Transcription de la présentation:

1 Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres et aux types LIRLIR

2 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage 2 LIRLIR

3 L'htrognit : un vrai probl me ? Pas 2 textes identiques Évident pour la diachronie La Langue versus les langues de spcialit, les idiolectes, les sociolectes (Labov 68) Approches sur corpus : linguistiques contrastives 3 Introduction LIRLIR

4 TAL : approches corpus et gnralisation difficile Des techniques qui s'appliquent sur des domaines restreints et qui rsistent à la gnralisation Les approches sur donnes volumineuses : robustesse l'apprentissage est li aux donnes d'entraînement 4 Introduction LIRLIR

5 L'htrognit : effet de variables caches? Cause de l'htrognit: productivit infinie des langues naturelles ? variables caches à dcouvrir ? Variables à tudier : domaine (th me), style (genre), autre (type) ? 5 Introduction LIRLIR

6 6 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

7 Crit res d'Étude Dfinir les observables : Caract res Mots Mots les plus frquents Cration d'un ensemble de traits (Biber 88, Karlgren 99, Kessler 97) Observation d'un ou plusieurs traits Par partie Par regroupement d'individus Par individu 7 Description du phnom ne et typage LIRLIR

8 Aborder le typage : projet TyPTex Construire une architecture permettant de : Constituer des corpus selon des requ tes Enrichir les corpus de mani re homog ne Disposer de jeux de traits varis Reprsenter le corpus par une matrice traits / textes Retourner au texte Enrichir la base de texte 8 Amliorer le typage LIRLIR

9 TyPTex : pour ne rien effacer 9 Amliorer le typage Base de texte Requ te ou slection Corpus Étiquetage 1 Projection vers Pivot Corpus tiquet Correction Corpus marqu Transduction Matrice Extractions Directes Exploration Classification Slection de Traits Sur-traits LIRLIR

10 Exprience sur Le Monde (1/5) LeMonde et LeMonde enrichi pour les 6 rubriques principales 10 Description du phnom ne et typage LIRLIR

11 Exprience sur Le Monde (2/5) " Profil selon traits 11 Description du phnom ne et typage LIRLIR

12 Exprience sur Le Monde (2/5) Choix d'observables : les 50 mots les plus frquents Individus des regroupements de 10 000 mots issus des rubriques 12 Description du phnom ne et typage LIRLIR

13 Projection de Sammon (Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) Exprience sur LeMonde (3/5) Projection de Sammon (Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) Projection de Sammon : Agrandissement (Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) 13 Description du phnom ne et typage LIRLIR

14 Exprience sur LeMonde (4/5) Classification obtenue par la mthode des nues dynamiques POL(E-) : Rubrique POL sans les rsultats d'lection POL(E) : Uniquement les rsultats d'lection 14 Évaluer les diffrences ? Prendre le plus fort regroupement Continuer itrativement... jusqu'à ce que toute classe induite soit associe à une catgorie prexistante Description du phnom ne et typage LIRLIR

15 Rsultats Recouvrement : 86 % (610 chantillons sur 707) Recouvrement : 98,3 % en regroupant {ECO, ETR, POL(E-)} Exprience sur LeMonde (4/5) Classification obtenue par la mthode des nues dynamiques 15 Description du phnom ne et typage LIRLIR

16 Recouvrement selon 3 et 5 rubriques en fonction de la taille des chantillons tudis Exprience sur LeMonde (5/5) Effet de la taille des chantillons 16 Description du phnom ne et typage LIRLIR

17 Exprience sur le corpus Brown (1/2) Corpus Brown (1 million de mots/500 fragments) 17 Description du phnom ne et typage LIRLIR

18 Jeu de traits : les caract res Classification non supervise utilisant le classifieur de Jardino et Beaujard (97) Recouvrement : 89,2 % Recouvrement : 96 % sans la classe Misc 18 Description du phnom ne et typage Exprience sur le corpus Brown (2/2) LIRLIR

19 Bilan : possibilit de typer Effet de l'htrognit Traits simples Retrouver partiellement des genres Recouvrement partiel : Jeux de traits inadapts Catgorisation discutable 19 LIRLIR

20 20 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

21 Effet sur les traitements (1/ 2) Corpus Multitag : 1 million de mots annots par 11 syst mes Une annotation de rfrence pour 100 000 mots Textes prsents 2 textes de mmoires 6 Romans 2 Essais 16 numros du Monde 21 Effet sur les traitements LIRLIR

22 Effet sur les traitements (2/2) La performance varie selon le type des donnes 22 Effet sur les traitements LIRLIR

23 Bilan : htrognit des performances Performance varie selon le type de donnes Probl me avec les catgorisations Typage plus explicatif ? Explication des diffrences ? Amlioration des traitements ? 23 LIRLIR

24 24 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

25 Mod le de Sekine (97) Phase d'apprentissage Ensemble de test Phase de test Classification selon un genre Ensemble d'apprentissage Classification selon un genre TS A Apprentissage TS B Traitements Spcialiss Base textuelle partitionne A B TS A B A TS B Rsultats des Traitements Spcialiss 25 Amlioration des traitements LIRLIR

26 Amliorer : Mod le propos Phase d'apprentissage Ensemble de test Phase de test Classification Supervise Ensemble d'apprentissage Classification Induite TS A Apprentissage TS B Traitements Spcialiss Base textuelle partitionne A B TS A B A TS B Rsultats des Traitements Spcialiss 26 Amlioration des traitements LIRLIR

27 Sur le corpus Brown (500 textes), en reprenant la classification non supervise prcdente Apprentissage (444 textes), valuation (56 textes) Performances infrieures à celles du traitement gnraliste (entraîn sur le corpus total) 27 Amlioration des traitements LIRLIR

28 Amliorer : S'adapter à la tâche Phase d'apprentissage App TS A TS B Traitements Spcialiss Base textuelle partitionne Ensemble de test Phase de test Classification supervise TS A B A TS B Rsultats des Traitements Spcialiss 28 Amlioration des traitements TS A Ensemble d'apprentissage Classification selon performances A B TS B Base textuelle partitionne LIRLIR

29 Diffrences par rapport aux genres : 29 Amlioration des traitements Reste proche de la catgorisation LIRLIR

30 Amlioration sur le corpus Brown 30 Amlioration des traitements Apprentissage Test LIRLIR

31 Amlioration des traitements Diffrences entre le syst me adaptatif et le gnraliste : test de MacNemar Z=26,1 rejete à un seuil infrieur à 0,001 31 Amlioration des traitements (H 0 ) « IC et CI sont comparables » LIRLIR

32 Amlioration des traitements Test de MacNemar appliqu à la comparaison de syst mes d'annotations est « pratiquement toujours significatif » Paroubek et Rajman (2000) Ncessaire : autre validation de la mthode Nombre de donnes limites : validation croise 20 tirages alatoires du jeu d'entraînement (450 textes) Pour amliorer les performances, entraînement sur le corpus total + n(=3) fois le sous-corpus spcialis 32 Amlioration des traitements LIRLIR

33 Avec cet entraînement, Amliorations par rapport au gnraliste : Par le genre : 18 tirages sur les 20 Itrative : 10 tirages sur les 20 Mthode inadapte ou probl me de typage ? 33 " Optimale :20 tirages sur les 20 " Classification par Rseaux de Neurones Formels : 15 tirages sur les 20 Amlioration des traitements LIRLIR

34 Bilan :Amlioration des traitements Faibles amliorations Donnes plus varies requises Donnes en plus grand nombre Mthode envisageable à moyen terme Amlioration du typage 34 Amlioration des traitements LIRLIR

35 Introduction Descriptions du phnom ne, et typage Effet sur les traitements (annotation morpho- syntaxique) Amliorer les traitements Perspectives : amliorer le typage Perspectives : amliorer le typage 35 Plan LIRLIR

36 Typage Induire des sous-ensembles homog nes Distinguer des proximits non marques par des caractrisations Mthode itrative Un apprentissage spcialis Performances suprieures au gnraliste encore infrieures spcialisation par classes Conclusion 36 LIRLIR

37 Utilisation de la mthode avec D'autres syst mes d'annotations D'autres syst mes de traitements linguistiques En combinaison avec une mthode des votants Typage à plus grande chelle Constitution d'un corpus vari pour le franais BNC (British National Corpus) TypWeb projet de typage de pages Internet Perspectives 37 LIRLIR


Télécharger ppt "Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres."

Présentations similaires


Annonces Google