Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004.

Slides:

Advertisements

Présentations similaires

Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.

Advertisements

Manuel Qualité, Structure et Contenus – optionnel

Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)

Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/

1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.

Urbanisation de Systèmes d'Information

Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER

TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES

Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline

1 Programme de la journée Échange sur les programmes de 1 ère et de Terminale Les épreuves écrites et orales Conception de sujets doral.

Philippe Boula de Mareüil LIMSI-CNRS

Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.

Une stratégie départementale pour le développement de lenseignement des langues vivantes à lEcole.

Chapitre 4 : la gestion électronique des documents

Questions/problèmes Contraintes de départ… ressources, plateforme… utilisation de matériel existant –Pas de temps du prof pour préparer des exemples… concrets…

Tice (logiciels) et aide personnalisée.

B2i Lycée Circulaire BO n°31 du 29/08/2013.

UE : 3.4. S4 Initiation à la démarche de recherche

Proposition de scénario pédagogique basé sur l’exploitation d’un PGI

Traitements &Suppléments

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.

Annotations sémantiques pour le domaine des biopuces

D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.

Blagovesta Cholova POLI-D-404: Etude approfondie de questions de science politique Groupe ‘Populisme et partis populistes’ Blagovesta.

Académie de Versailles - Inspection pédagogique régionale de lettres

Baccalauréat professionnel Gestion -- Administration

Maîtrise de la langue française

Vers des composants TAL réutilisables

Des indicateurs de performance pertinents et adéquats

Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.

Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)

Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-

Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)

Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Les ateliers d’étude de textes

NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI Jean-Jacques DUMÉRY -1-

NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI

Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,

Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.

Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.

Presenter les résultats de la capitalisation

Master 1 – Sciences du Langage –

QUAND LES ÉLÈVES RACONTENT L’HISTOIRE NATIONALE QUESTIONS À L’ENSEIGNEMENT Questions de méthode Valérie Fontanieu, Ifé-ENS Françoise Lantheaume, ECP, Lyon.

Institut Supérieur des Sciences Appliquées et de Technologie Sousse

CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.

Mise en forme efficace d’un document Logiciel Microsoft Word

Exemple en français.

Introduction au Génie Logiciel

Les épreuves du baccalauréat STG

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.

De l’oral à l’écrit en maternelle…

3.3 Communication et réseaux informatiques

( ) Collège de Maisonneuve

TEXT MINING Fouille de textes

La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.

Ethnosim (Cr1) Projet encadré par : Mr David Crookall (17 juin 2004) Agostini Jean-Louis Dupouy Nicolas Giroussens Olivier Olivar Kevin Université de Nice.

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Le Traitement Automatique des Langues (TAL)

EFI Introduction à l’adaptation sociale et scolaire EFI 2243 INTRODUCTION À L’ADAPTATION SOCIALE ET SCOLAIRE Plan de cours Site Web Formation des.

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

Introduction à la rédaction Scientifique

STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.

Comment faire un résumé d’article ?

Formation CORSCI Élaboration d’un outil d’aide à la rédaction d’un rapport de travaux pratiques E. Malengreau, Assistante pédagogique QAP-Polytech.

Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.

Transcription de la présentation:

Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004 Traitement automatique des nouvelles formes de communication écrite Nicolas TORZEC LERIA – Université dAngers

Plan Introduction Méthodologie Objectif Présentation du corpus étudié Description des études réalisées Quelques résultats et leurs conséquences pour le TAL Étude de la structure des messages Étude des phrases Étude des formes Conclusion et perspectives Traitement automatique des NFCE

Introduction Traitement automatique des NFCE

Introduction Contexte et problématique Les messages électroniques : un type particulier de texte Textes électroniques résultants de CMO asynchrone : courriels, articles de forums de discussion… Communication Médiée par Ordinateur (CMO) : communication écrite entre deux ou plusieurs personnes par le biais dordinateurs interconnectés Spécificités linguistiques des messages électroniques Abondance de formes extra-lexicales (?) Phrases agrammaticales (?) Style décriture dans lequel lorthographe est intentionnellement détournée (?) Conséquences pour le Traitement Automatique des Langues (TAL) Spécificité linguistique + absence de ressources et de traitements linguistiques adaptés Traitement automatique difficile au moyen dun analyseur traditionnel Production danalyses linguistiques erronées ou trop imprécises (quid des services?) Traitement automatique des NFCE

Introduction Notre approche Objectif final : Développement de ressources et de traitements linguistiques mieux adaptés à lanalyse automatique des messages électroniques francophones Phase 1 : Construction dun corpus de messages électroniques francophones Spécification et construction dun corpus électronique annoté spécialisé permettant - détudier les messages électroniques francophones - de développer des ressources et traitements linguistiques pour le TAL Phase 2 : Étude du corpus Analyse des caractéristiques linguistiques des messages de notre corpus Analyse des problèmes rencontrés lors de leur traitement automatique Proposition de solutions permettant de remédier à ces problèmes Phase 3 : Exploitation du corpus Développement de ressources et traitements linguistique adaptés à ce type de texte Validation/Évaluation de ressources et de traitements linguistiques Traitement automatique des NFCE

Méthodologie Traitement automatique des NFCE

Méthodologie Objet de nos études Caractéristiques linguistiques des messages électroniques francophones ? Abondance de formes hors lexique pour lesquelles les analyseurs traditionnels ne peuvent fournir dinformation ? Phrases ne correspondant pas au français écrit standard modélisé dans les grammaires habituellement utilisés dans les analyseurs traditionnels ? Style décriture spécifique dans lequel lorthographe est malmené voire intentionnellement détournée ? Conséquences pour le traitement automatique des langues Quid de lanalyse structurelle ? Quid de la segmentation automatique en phrases et de lanalyse syntaxique ? Quid de lanalyse morpho-lexicale et morpho-syntaxique ? Nécessité de traitements dédiés ? Traitement automatique des NFCE

Méthodologie Présentation du corpus étudié 1/3 Objectifs du corpus Permettre létude linguistique des messages électroniques francophones Permettre le développement de ressources et traitements linguistiques pour le TAL Interrogations liées à la nature des messages et à la représentativité du corpus Interrogations liées à la quantité et à la diversité des messages nécessaires Un corpus de messages électroniques francophones Choix de messages provenant de forums de discussion électroniques francophones Diversité linguistique de ces messages : thèmes, auteurs, registres, styles… Collecte aisée dune grande quantité & diversité de messages électroniques messages électroniques francophones (145M de tokens, 199 forums) Collecte et nettoyage automatique [détails]détails Cinq mois de collecte (1er et 3e trimestre 2002), outils ad hoc Pas déchantillonnage (i.e. totalité des messages et forums disponibles) Traitement automatique des NFCE

Méthodologie Présentation du corpus étudié 2/3 Un corpus annoté Annotations structurelles [détails]détails Annotations morpho-lexicales [détails]détails Annotations morpho-syntaxiques [détails]détails Annotation automatique de lensemble du corpus ( volume) [détails]détails Analyseur linguistique Tilt de France Telecom R&D : - robuste, doté de ressources lexicales conséquentes et paramétrable - intègre des prétraitements variés et des fonctions de correction automatique Validation manuelle dune partie du corpus ( validité et précision) [détails]détails Correction et enrichissement manuel des annotations par des linguistes Messages provenant de forums sélectionnés pour leurs caractéristiques linguistiques messages électroniques francophones ( tokens, 6 forums) Traitement automatique des NFCE

Méthodologie Présentation du corpus étudié 3/3 Un corpus électronique réutilisable i.e. un corpus électronique documenté et normalisé Documentation Documents décrivant les traitements appliqués aux messages collectés Documents décrivant les jeux détiquettes et conventions dannotation suivies Normalisation Conformité avec les recommandations et directives de la TEI TEI : ensemble de normes visant à unifier le codage des documents électroniques pour faciliter leur réutilisation et leur échange Encodage Encodage en XML : -- Interprétable par un lecteur humain -- Espéranto informatique (interopérabilité) Traitement automatique des NFCE

Méthodologie Description des études réalisées Études sur corpus Exploitation de notre corpus et de ses annotations… Études qualitatives & quantitatives Niveau 1 : Étude de la structure des messages Analyse qualitative et quantitative de la structure des messages Conséquences pour le TAL Niveau 2 : Étude des phrases Résultats relatifs à la ponctuation finale et conséquences pour le TAL Résultats relatifs à la ponctuation interne et conséquences pour le TAL Niveau 3 : Étude des formes Typologie des formes rencontrées dans les messages électroniques francophones Résultats relatifs aux formes extra-lexicales et conséquences pour le TAL Traitement automatique des NFCE

Quelques résultats et leurs conséquences pour le TAL Traitement automatique des NFCE

Étude de la structure des messages Traitement automatique des NFCE

Étude de la structure des messages Quelques résultats … Structure des messages Organisation en « blocs de texte » séparés par des lignes blanches Typologie des « blocs de texte » rencontrées Paragraphe (texte strictement parlant) Texte reporté, introduction de texte reporté Signature, bandeau publicitaire Quelques chiffres Les messages comportent en moyenne 3 paragraphes Les paragraphes comportent en moyenne 2 phrases 73% des messages comportent du texte reporté (grande variabilité) 59% des messages comportent une introduction de texte reporté (grande variabilité) 40% des messages comportent une signature finale (grande variabilité) 20% des messages comportent un bandeau publicitaire final (grande variabilité) Traitement automatique des NFCE

Étude de la structure des messages … et leurs conséquences pour le TAL Lorganisation en « blocs de texte » (explicitement séparés) va faciliter : lanalyse structurelle la segmentation automatique en phrases Nécessité de traitements spécifiques Existence de « blocs de texte » spécifiques, absents des textes conventionnels Nécessité de les détecter et de leur appliquer des traitements adaptés à leur nature Traitement automatique des NFCE Type de blocDétectionTraitement Texte reportéMarqueur spécifique en début de ligneIdem texte Intro. de texte reportéChamps spécifiques mais variabilitéSpécifique (spécificité du contenu) SignatureVariabilité de forme et de contenuSpécifique (spécificité du contenu) Bandeau publicitaireVariabilité de forme et de contenuIdem texte

Étude des phrases Traitement automatique des NFCE

Étude des phrases Généralités Quelques chiffres Les messages comportent en moyenne 5 phrases Les phrases comportent en moyenne 14 « mots » 18% des messages nont pas de ponctuation standard du tout (grande variabilité) Des phrases pas si courtes (pas si simples ?) et pas toujours ponctuées. Conséquences pour le TAL Segmentation automatique en phrases et analyse syntaxique difficile ? … Traitement automatique des NFCE

Étude des phrases Ponctuation finale et capitalisation initiale Ponctuation finale 46% des messages nont pas de ponctuation finale standard Mais grande variabilité : 29% hors forums de petites-annonces 36% des messages nont pas de ponctuation finale du tout Mais grande variabilité : 18% hors forums de petites-annonces Capitalisation initiale 34% des phrases nont pas de majuscule initiale Mais variabilité : 29% hors forums de petites-annonces Conséquences pour le TAL Inadéquation des systèmes de segmentation automatique en phrase traditionnels : i.e. heuristiques inadaptées (non respect des conventions habituelles) Nécessité de traitements spécifiques pour la segmentation automatique en phrases Traitement automatique des NFCE

Étude des phrases Ponctuation interne Quelques chiffres 53% des phrases comportent une ponctuation interne Conséquences pour le TAL Phrases explicitement structurées : analyse syntaxique facilitée (indices structurels) Traitement automatique des NFCE Symbole de ponctuationFréquence relative Virgule55% Deux-point13% Parenthèses11% et 7% Guillemet7% Tiret2% Autres12% Répartition des symboles de ponctuation interne Stabilité entre les forums Grande variabilité

Étude des formes Traitement automatique des NFCE

Étude des formes Typologie des formes rencontrées Type dunitéCatégorieSous-catégorie Unité lexicaleMot du lexique de référence Locution du lexique de référence Unité extra-lexicaleUnité extra-lexicale alphabétiqueAbréviation, sigle, acronyme Mot de la langue, absent du lexique Mot étranger Mot incorrectement orthographié Suite de mots agglutinés, mot éclaté Unité extra-lexicale alphanumériqueCardinal, ordinal Pourcentage, unité mesure N° voie, code postal, numéro de téléphone Quantième, millésime, date, heure Graphie ludique, smiley, adresse électronique Identifiant, formule chimique, mixte Symbole graphiqueSymbole de ponctuation Autre symbole typographique RésiduForme à ignorer Typologie des formes rencontrées dans les messages électroniques francophones Traitement automatique des NFCE

Étude des formes Généralités Quelques chiffres 78 % des formes sont des mots ordinaires du lexique de référence 13 % des formes sont des symboles de ponctuation i.e. 19% des formes sont des formes non standard ! Grande variabilité en fonction du type de forum traité Ex. : 10% : fr.soc.religion, fr.rec.cuisine, fr.bio.général 19% : fr.rec.musique.hip-hop 38% : fr.petites-annonces.immobilier, fr.petites-annonces.informatique.matériel Conséquences pour le TAL Analyse morpho-lexicale problématique (idem pour lanalyse morpho-syntaxique) Nécessité de ressources et de traitements linguistiques spécifiques pour lanalyse des formes non standard Traitement automatique des NFCE

Étude des formes Les formes non standard 1/3 Formes non standard à base de chiffres arabes et romains 3% des formes sont à base de chiffres arabes et romains Correspondent essentiellement à des cardinaux Autres symboles typographiques 1% des formes sont des symboles typographiques ne servant pas à la ponctuation Conséquences pour le TAL La fréquence de ces formes ne porte pas vraiment à conséquence : les analyseurs traditionnels savent déjà les traiter correctement ! Traitement automatique des NFCE

Mots ordinaires inconnus ou étrangers 2,8% des formes sont des mots de la langue absents du lexique de référence Variabilité fonction du type de forum (ex. : 1,2% bio ; 3,6% hip-hop ; 3,9% info) 0,7% des formes sont des mots étrangers absents du lexique de référence Variabilité fonction du type de forum (ex. : 0,2% religion ; 0,8% info) Abréviations, sigles et consorts 3,3% des formes sont des abréviations (au sens général du terme) Variabilité importante fonction du type de forum et de forme Ex. : le cas des abréviations (au sens strict) : 0,2% religion ; 10% info Conséquences pour le TAL Pas si fréquents que cela, mais pénalisant du point de vue du TAL et des services Nécessité de ressources morphologiques et lexicales ad hoc Traitement automatique des NFCE Étude des formes Les formes non standard 2/3

Fautes dorthographes et consorts 5% des formes sont (perçues comme) des mots incorrectement orthographiés Principalement faute dorthographe (3%) et agglutination (2%) Variabilité f° du type de forum et de forme (ex. orth : 3,8% bio, 4,5% hip-hop, 2% autres) Graphies ludiques 0,8% des formes correspondent à (ou sont perçues comme) des graphies ludiques Mais grande variabilité en fonction du forum (ex. : 2,84% hip-hop, 0,2% autres) 0,3% des formes correspondent à (ou sont perçues comme) des émoticones Mais grande variabilité en fonction du forum (ex. : 11% info, < 0,6% autres) Conséquences pour le TAL Fautes dorthographe fréquentes : nécessité de modules de correction orthographique Graphies ludiques pénalisantes : nécessité de traitements morphologiques dédiés Traitement automatique des NFCE Étude des formes Les formes non standard 3/3

Conclusion Traitement automatique des NFCE

Conclusion et perspectives Conclusion Étude qualitative et quantitative des caractéristiques linguistiques des messages électroniques francophones de notre corpus Analyse des problèmes posés par leur analyse par un système de traitement automatique des langues Proposition de stratégies de traitement automatique adaptées Perspectives Développement de ressources et de traitements linguistiques mieux adaptés au traitement automatique des messages électroniques francophones. Exploitation des résultats des études réalisées Exploitation du corpus par des techniques dextraction lexicale et dapprentissage automatique à partir de corpus Traitement automatique des NFCE

Merci… Traitement automatique des NFCE

Annexes Traitement automatique des NFCE

Annexe 1 Collecte et nettoyage du corpus Collecte du corpus brut Collecte automatique des messages dans les forums de discussion électroniques - Problèmes liés à lévolution constante des forums et de leur contenu - Problèmes liés au téléchargement de gros volumes de données Outil de collecte spécifique permettant la création de corpus de suivi - Paramétrable : possibilités de filtrage et de collecte incrémentale des messages - Robuste : fonctionnalités de reprise sur erreur automatique et manuelle Nettoyage du corpus brut Nettoyage automatique visant à faciliter les traitement automatiques ultérieurs - Suppression des messages et des pièces jointes non textuels - Homogénéisation des entêtes pour les rendre plus facilement exploitables Outils ad hoc (le nettoyage manuel semble inévitable !) [ retour ]retour Traitement automatique des NFCE

Annexe 2 Annotation automatique du corpus Pré-traitement Filtrage automatique des messages pour ne garder que les portions à annoter Annotation automatique Analyseur linguistique robuste et paramétrable : TILT (FT R&D DMI/GRI) Segmentation du texte en paragraphes, phrases et unités typées Analyse minimale - Interprétation des segments non mots - Analyse lexicale et correction orthographique - Reconnaissance des locutions Analyse syntaxique - Désambiguïsation morpho-syntaxique par analyse syntaxique partielle Post-traitement Formatage des résultats pour les rendre plus facilement exploitables [ retour ]retour Traitement automatique des NFCE

Annexe 3 Validation manuelle du corpus Préparation des messages à valider Reformatage dans un format facilitant la validation et correction manuelle Validation manuelle Validation et correction manuelle des annotations par des linguistes - Validation des annotations structurelles, lexicales et morpho-syntaxiques - Validation en contexte et en une seule passe - Utilisation doutils de bureautique standard, personnalisés par des macros Difficultés - Abondance de formes extra-lexicales souvent spécialisées et ambiguës - Importance des guides dannotation détaillées pour la qualité de la validation - Vitesse dannotation variable (en moyenne : 250 formes validées par heure) Travail de 12 hommes /mois [ retour ]retour Traitement automatique des NFCE

Annexe 4 Annotations structurelles Niveau 1Niveau 2Niveau 3Niveau 4Niveau 5 Message Entête Champ dentête Corps TexteParagraphePhrase Référence de citation Citation Signature Bandeau publicitaire Annotations structurelles : différents niveaux de balisage [ retour ]retour Traitement automatique des NFCE

Annexe 5 Annotations morpho-lexicales Type dunitéCatégorieSous-catégorie Unité lexicaleMot du lexique de référence Locution du lexique de référence Unité extra-lexicaleUnité extra-lexicale alphabétiqueAbréviation, sigle, acronyme Mot (locution) de la langue, absent du lexique Mot (locution) étranger Mot incorrectement orthographié Suite de mots agglutinés, mot éclaté Unité extra-lexicale alphanumériqueCardinal, ordinal Pourcentage, unité mesure N° voie, code postal, numéro de téléphone Quantième, millésime, date, heure Graphie ludique, smiley, adresse électronique Identifiant, formule chimique, mixte Symbole graphiqueSymbole de ponctuation Autre symbole typographique RésiduForme à ignorer Annotations morpho-lexicales : une catégorisation fine des formes extra-lexicales [ retour ]retour Traitement automatique des NFCE

Annexe 6 Annotations morpho-syntaxiques CatégorieNomVerbeAdjectifPronomDéterminantAdverbePrépositionConjonction Sous- catégorie Commun Propre Cardinal Principal Auxiliaire Qualificatif Ordinal Cardinal Indéfini Possessif Personnel Démonstratif Indéfini Possessif Interrogatif Relatif Réflexif Cardinal Article Démonstratif Possessif Indéfini Interro-excl Relatif Cardinal Général Particule Interro-excl Préposition Déictique Coordination Subordination Cas Nature Degré Genre Nombre Mode Temps Personne Possesseur m-f s-p m-f s-p i-s-m-c-n-p p-i-f-s p-c m-f s-p n-a-d-o m-f s-p s-p d-i m-f s-p s-p p-c-n p-dc-s Annotations morpho-syntaxiques : réutilisation du jeu détiquettes du projet GRACE [ retour ]retour Traitement automatique des NFCE

Fin… Traitement automatique des NFCE