Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Distance inter-locuteur
Le pluriel des noms
Qui a le nombre qui vient après 8 ?
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros 70 –
Les numéros
ACTIVITES Les fractions (10).
ACTIVITES Les nombres entiers (2).
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Est Ouest Sud 11 1 Nord 1 RondeNE SO
Sud Ouest Est Nord Individuel 36 joueurs
ACTIVITES Le calcul littéral (3).
Les Prepositions.
Les 3 dimensio ns de la morale et de léthique (activité)
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Analyse Factorielle des Correspondances
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
PROMOTION 2012 Les résultats. Baccalauréat général et technologique Filière STG CFE STG COM RH STG MERC LES 1ES 2S1S2S3TOTAL Nb de candidats
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les chiffres & les nombres
Réseaux de neurones.
La Saint-Valentin Par Matt Maxwell.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
2. Théorie de la consommation (demande)
Annexe 1 VISITE SUR
Hybridation sp3 du carbone
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Veuillez trouver ci-joint
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Voici 36 bonnes raisons de preferer la biere à une femme blonde...
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
1. La bière ne parle pas 2.La bière est toujours prête et humide.
CALENDRIER-PLAYBOY 2020.
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres et aux types LIRLIR

Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage 2 LIRLIR

L'htrognit : un vrai probl me ? Pas 2 textes identiques Évident pour la diachronie La Langue versus les langues de spcialit, les idiolectes, les sociolectes (Labov 68) Approches sur corpus : linguistiques contrastives 3 Introduction LIRLIR

TAL : approches corpus et gnralisation difficile Des techniques qui s'appliquent sur des domaines restreints et qui rsistent à la gnralisation Les approches sur donnes volumineuses : robustesse l'apprentissage est li aux donnes d'entraînement 4 Introduction LIRLIR

L'htrognit : effet de variables caches? Cause de l'htrognit: productivit infinie des langues naturelles ? variables caches à dcouvrir ? Variables à tudier : domaine (th me), style (genre), autre (type) ? 5 Introduction LIRLIR

6 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

Crit res d'Étude Dfinir les observables : Caract res Mots Mots les plus frquents Cration d'un ensemble de traits (Biber 88, Karlgren 99, Kessler 97) Observation d'un ou plusieurs traits Par partie Par regroupement d'individus Par individu 7 Description du phnom ne et typage LIRLIR

Aborder le typage : projet TyPTex Construire une architecture permettant de : Constituer des corpus selon des requ tes Enrichir les corpus de mani re homog ne Disposer de jeux de traits varis Reprsenter le corpus par une matrice traits / textes Retourner au texte Enrichir la base de texte 8 Amliorer le typage LIRLIR

TyPTex : pour ne rien effacer 9 Amliorer le typage Base de texte Requ te ou slection Corpus Étiquetage 1 Projection vers Pivot Corpus tiquet Correction Corpus marqu Transduction Matrice Extractions Directes Exploration Classification Slection de Traits Sur-traits LIRLIR

Exprience sur Le Monde (1/5) LeMonde et LeMonde enrichi pour les 6 rubriques principales 10 Description du phnom ne et typage LIRLIR

Exprience sur Le Monde (2/5) " Profil selon traits 11 Description du phnom ne et typage LIRLIR

Exprience sur Le Monde (2/5) Choix d'observables : les 50 mots les plus frquents Individus des regroupements de mots issus des rubriques 12 Description du phnom ne et typage LIRLIR

Projection de Sammon (Fragments de mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) Exprience sur LeMonde (3/5) Projection de Sammon (Fragments de mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) Projection de Sammon : Agrandissement (Fragments de mots, par rubriques, Le Monde, traits : 50 formes les plus frquentes) 13 Description du phnom ne et typage LIRLIR

Exprience sur LeMonde (4/5) Classification obtenue par la mthode des nues dynamiques POL(E-) : Rubrique POL sans les rsultats d'lection POL(E) : Uniquement les rsultats d'lection 14 Évaluer les diffrences ? Prendre le plus fort regroupement Continuer itrativement... jusqu'à ce que toute classe induite soit associe à une catgorie prexistante Description du phnom ne et typage LIRLIR

Rsultats Recouvrement : 86 % (610 chantillons sur 707) Recouvrement : 98,3 % en regroupant {ECO, ETR, POL(E-)} Exprience sur LeMonde (4/5) Classification obtenue par la mthode des nues dynamiques 15 Description du phnom ne et typage LIRLIR

Recouvrement selon 3 et 5 rubriques en fonction de la taille des chantillons tudis Exprience sur LeMonde (5/5) Effet de la taille des chantillons 16 Description du phnom ne et typage LIRLIR

Exprience sur le corpus Brown (1/2) Corpus Brown (1 million de mots/500 fragments) 17 Description du phnom ne et typage LIRLIR

Jeu de traits : les caract res Classification non supervise utilisant le classifieur de Jardino et Beaujard (97) Recouvrement : 89,2 % Recouvrement : 96 % sans la classe Misc 18 Description du phnom ne et typage Exprience sur le corpus Brown (2/2) LIRLIR

Bilan : possibilit de typer Effet de l'htrognit Traits simples Retrouver partiellement des genres Recouvrement partiel : Jeux de traits inadapts Catgorisation discutable 19 LIRLIR

20 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

Effet sur les traitements (1/ 2) Corpus Multitag : 1 million de mots annots par 11 syst mes Une annotation de rfrence pour mots Textes prsents 2 textes de mmoires 6 Romans 2 Essais 16 numros du Monde 21 Effet sur les traitements LIRLIR

Effet sur les traitements (2/2) La performance varie selon le type des donnes 22 Effet sur les traitements LIRLIR

Bilan : htrognit des performances Performance varie selon le type de donnes Probl me avec les catgorisations Typage plus explicatif ? Explication des diffrences ? Amlioration des traitements ? 23 LIRLIR

24 Plan Introduction Description du phnom ne et typage Effet sur les traitements (annotation morpho- syntaxique) Amlioration des traitements Perspectives : amliorer le typage LIRLIR

Mod le de Sekine (97) Phase d'apprentissage Ensemble de test Phase de test Classification selon un genre Ensemble d'apprentissage Classification selon un genre TS A Apprentissage TS B Traitements Spcialiss Base textuelle partitionne A B TS A B A TS B Rsultats des Traitements Spcialiss 25 Amlioration des traitements LIRLIR

Amliorer : Mod le propos Phase d'apprentissage Ensemble de test Phase de test Classification Supervise Ensemble d'apprentissage Classification Induite TS A Apprentissage TS B Traitements Spcialiss Base textuelle partitionne A B TS A B A TS B Rsultats des Traitements Spcialiss 26 Amlioration des traitements LIRLIR

Sur le corpus Brown (500 textes), en reprenant la classification non supervise prcdente Apprentissage (444 textes), valuation (56 textes) Performances infrieures à celles du traitement gnraliste (entraîn sur le corpus total) 27 Amlioration des traitements LIRLIR

Amliorer : S'adapter à la tâche Phase d'apprentissage App TS A TS B Traitements Spcialiss Base textuelle partitionne Ensemble de test Phase de test Classification supervise TS A B A TS B Rsultats des Traitements Spcialiss 28 Amlioration des traitements TS A Ensemble d'apprentissage Classification selon performances A B TS B Base textuelle partitionne LIRLIR

Diffrences par rapport aux genres : 29 Amlioration des traitements Reste proche de la catgorisation LIRLIR

Amlioration sur le corpus Brown 30 Amlioration des traitements Apprentissage Test LIRLIR

Amlioration des traitements Diffrences entre le syst me adaptatif et le gnraliste : test de MacNemar Z=26,1 rejete à un seuil infrieur à 0, Amlioration des traitements (H 0 ) « IC et CI sont comparables » LIRLIR

Amlioration des traitements Test de MacNemar appliqu à la comparaison de syst mes d'annotations est « pratiquement toujours significatif » Paroubek et Rajman (2000) Ncessaire : autre validation de la mthode Nombre de donnes limites : validation croise 20 tirages alatoires du jeu d'entraînement (450 textes) Pour amliorer les performances, entraînement sur le corpus total + n(=3) fois le sous-corpus spcialis 32 Amlioration des traitements LIRLIR

Avec cet entraînement, Amliorations par rapport au gnraliste : Par le genre : 18 tirages sur les 20 Itrative : 10 tirages sur les 20 Mthode inadapte ou probl me de typage ? 33 " Optimale :20 tirages sur les 20 " Classification par Rseaux de Neurones Formels : 15 tirages sur les 20 Amlioration des traitements LIRLIR

Bilan :Amlioration des traitements Faibles amliorations Donnes plus varies requises Donnes en plus grand nombre Mthode envisageable à moyen terme Amlioration du typage 34 Amlioration des traitements LIRLIR

Introduction Descriptions du phnom ne, et typage Effet sur les traitements (annotation morpho- syntaxique) Amliorer les traitements Perspectives : amliorer le typage Perspectives : amliorer le typage 35 Plan LIRLIR

Typage Induire des sous-ensembles homog nes Distinguer des proximits non marques par des caractrisations Mthode itrative Un apprentissage spcialis Performances suprieures au gnraliste encore infrieures spcialisation par classes Conclusion 36 LIRLIR

Utilisation de la mthode avec D'autres syst mes d'annotations D'autres syst mes de traitements linguistiques En combinaison avec une mthode des votants Typage à plus grande chelle Constitution d'un corpus vari pour le franais BNC (British National Corpus) TypWeb projet de typage de pages Internet Perspectives 37 LIRLIR