La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004.

Présentations similaires


Présentation au sujet: "Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004."— Transcription de la présentation:

1 Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004 Traitement automatique des nouvelles formes de communication écrite Nicolas TORZEC LERIA – Université dAngers nicolas.torzec@wanadoo.fr

2 Plan Introduction Méthodologie Objectif Présentation du corpus étudié Description des études réalisées Quelques résultats et leurs conséquences pour le TAL Étude de la structure des messages Étude des phrases Étude des formes Conclusion et perspectives Traitement automatique des NFCE

3 Introduction Traitement automatique des NFCE

4 Introduction Contexte et problématique Les messages électroniques : un type particulier de texte Textes électroniques résultants de CMO asynchrone : courriels, articles de forums de discussion… Communication Médiée par Ordinateur (CMO) : communication écrite entre deux ou plusieurs personnes par le biais dordinateurs interconnectés Spécificités linguistiques des messages électroniques Abondance de formes extra-lexicales (?) Phrases agrammaticales (?) Style décriture dans lequel lorthographe est intentionnellement détournée (?) Conséquences pour le Traitement Automatique des Langues (TAL) Spécificité linguistique + absence de ressources et de traitements linguistiques adaptés Traitement automatique difficile au moyen dun analyseur traditionnel Production danalyses linguistiques erronées ou trop imprécises (quid des services?) Traitement automatique des NFCE

5 Introduction Notre approche Objectif final : Développement de ressources et de traitements linguistiques mieux adaptés à lanalyse automatique des messages électroniques francophones Phase 1 : Construction dun corpus de messages électroniques francophones Spécification et construction dun corpus électronique annoté spécialisé permettant - détudier les messages électroniques francophones - de développer des ressources et traitements linguistiques pour le TAL Phase 2 : Étude du corpus Analyse des caractéristiques linguistiques des messages de notre corpus Analyse des problèmes rencontrés lors de leur traitement automatique Proposition de solutions permettant de remédier à ces problèmes Phase 3 : Exploitation du corpus Développement de ressources et traitements linguistique adaptés à ce type de texte Validation/Évaluation de ressources et de traitements linguistiques Traitement automatique des NFCE

6 Méthodologie Traitement automatique des NFCE

7 Méthodologie Objet de nos études Caractéristiques linguistiques des messages électroniques francophones ? Abondance de formes hors lexique pour lesquelles les analyseurs traditionnels ne peuvent fournir dinformation ? Phrases ne correspondant pas au français écrit standard modélisé dans les grammaires habituellement utilisés dans les analyseurs traditionnels ? Style décriture spécifique dans lequel lorthographe est malmené voire intentionnellement détournée ? Conséquences pour le traitement automatique des langues Quid de lanalyse structurelle ? Quid de la segmentation automatique en phrases et de lanalyse syntaxique ? Quid de lanalyse morpho-lexicale et morpho-syntaxique ? Nécessité de traitements dédiés ? Traitement automatique des NFCE

8 Méthodologie Présentation du corpus étudié 1/3 Objectifs du corpus Permettre létude linguistique des messages électroniques francophones Permettre le développement de ressources et traitements linguistiques pour le TAL Interrogations liées à la nature des messages et à la représentativité du corpus Interrogations liées à la quantité et à la diversité des messages nécessaires Un corpus de messages électroniques francophones Choix de messages provenant de forums de discussion électroniques francophones Diversité linguistique de ces messages : thèmes, auteurs, registres, styles… Collecte aisée dune grande quantité & diversité de messages électroniques 925 000 messages électroniques francophones (145M de tokens, 199 forums) Collecte et nettoyage automatique [détails]détails Cinq mois de collecte (1er et 3e trimestre 2002), outils ad hoc Pas déchantillonnage (i.e. totalité des messages et forums disponibles) Traitement automatique des NFCE

9 Méthodologie Présentation du corpus étudié 2/3 Un corpus annoté Annotations structurelles [détails]détails Annotations morpho-lexicales [détails]détails Annotations morpho-syntaxiques [détails]détails Annotation automatique de lensemble du corpus ( volume) [détails]détails Analyseur linguistique Tilt de France Telecom R&D : - robuste, doté de ressources lexicales conséquentes et paramétrable - intègre des prétraitements variés et des fonctions de correction automatique Validation manuelle dune partie du corpus ( validité et précision) [détails]détails Correction et enrichissement manuel des annotations par des linguistes Messages provenant de forums sélectionnés pour leurs caractéristiques linguistiques 7 400 messages électroniques francophones (500 000 tokens, 6 forums) Traitement automatique des NFCE

10 Méthodologie Présentation du corpus étudié 3/3 Un corpus électronique réutilisable i.e. un corpus électronique documenté et normalisé Documentation Documents décrivant les traitements appliqués aux messages collectés Documents décrivant les jeux détiquettes et conventions dannotation suivies Normalisation Conformité avec les recommandations et directives de la TEI TEI : ensemble de normes visant à unifier le codage des documents électroniques pour faciliter leur réutilisation et leur échange Encodage Encodage en XML : -- Interprétable par un lecteur humain -- Espéranto informatique (interopérabilité) Traitement automatique des NFCE

11 Méthodologie Description des études réalisées Études sur corpus Exploitation de notre corpus et de ses annotations… Études qualitatives & quantitatives Niveau 1 : Étude de la structure des messages Analyse qualitative et quantitative de la structure des messages Conséquences pour le TAL Niveau 2 : Étude des phrases Résultats relatifs à la ponctuation finale et conséquences pour le TAL Résultats relatifs à la ponctuation interne et conséquences pour le TAL Niveau 3 : Étude des formes Typologie des formes rencontrées dans les messages électroniques francophones Résultats relatifs aux formes extra-lexicales et conséquences pour le TAL Traitement automatique des NFCE

12 Quelques résultats et leurs conséquences pour le TAL Traitement automatique des NFCE

13 Étude de la structure des messages Traitement automatique des NFCE

14 Étude de la structure des messages Quelques résultats … Structure des messages Organisation en « blocs de texte » séparés par des lignes blanches Typologie des « blocs de texte » rencontrées Paragraphe (texte strictement parlant) Texte reporté, introduction de texte reporté Signature, bandeau publicitaire Quelques chiffres Les messages comportent en moyenne 3 paragraphes Les paragraphes comportent en moyenne 2 phrases 73% des messages comportent du texte reporté (grande variabilité) 59% des messages comportent une introduction de texte reporté (grande variabilité) 40% des messages comportent une signature finale (grande variabilité) 20% des messages comportent un bandeau publicitaire final (grande variabilité) Traitement automatique des NFCE

15 Étude de la structure des messages … et leurs conséquences pour le TAL Lorganisation en « blocs de texte » (explicitement séparés) va faciliter : lanalyse structurelle la segmentation automatique en phrases Nécessité de traitements spécifiques Existence de « blocs de texte » spécifiques, absents des textes conventionnels Nécessité de les détecter et de leur appliquer des traitements adaptés à leur nature Traitement automatique des NFCE Type de blocDétectionTraitement Texte reportéMarqueur spécifique en début de ligneIdem texte Intro. de texte reportéChamps spécifiques mais variabilitéSpécifique (spécificité du contenu) SignatureVariabilité de forme et de contenuSpécifique (spécificité du contenu) Bandeau publicitaireVariabilité de forme et de contenuIdem texte

16 Étude des phrases Traitement automatique des NFCE

17 Étude des phrases Généralités Quelques chiffres Les messages comportent en moyenne 5 phrases Les phrases comportent en moyenne 14 « mots » 18% des messages nont pas de ponctuation standard du tout (grande variabilité) Des phrases pas si courtes (pas si simples ?) et pas toujours ponctuées. Conséquences pour le TAL Segmentation automatique en phrases et analyse syntaxique difficile ? … Traitement automatique des NFCE

18 Étude des phrases Ponctuation finale et capitalisation initiale Ponctuation finale 46% des messages nont pas de ponctuation finale standard Mais grande variabilité : 29% hors forums de petites-annonces 36% des messages nont pas de ponctuation finale du tout Mais grande variabilité : 18% hors forums de petites-annonces Capitalisation initiale 34% des phrases nont pas de majuscule initiale Mais variabilité : 29% hors forums de petites-annonces Conséquences pour le TAL Inadéquation des systèmes de segmentation automatique en phrase traditionnels : i.e. heuristiques inadaptées (non respect des conventions habituelles) Nécessité de traitements spécifiques pour la segmentation automatique en phrases Traitement automatique des NFCE

19 Étude des phrases Ponctuation interne Quelques chiffres 53% des phrases comportent une ponctuation interne Conséquences pour le TAL Phrases explicitement structurées : analyse syntaxique facilitée (indices structurels) Traitement automatique des NFCE Symbole de ponctuationFréquence relative Virgule55% Deux-point13% Parenthèses11% et 7% Guillemet7% Tiret2% Autres12% Répartition des symboles de ponctuation interne Stabilité entre les forums Grande variabilité

20 Étude des formes Traitement automatique des NFCE

21 Étude des formes Typologie des formes rencontrées Type dunitéCatégorieSous-catégorie Unité lexicaleMot du lexique de référence Locution du lexique de référence Unité extra-lexicaleUnité extra-lexicale alphabétiqueAbréviation, sigle, acronyme Mot de la langue, absent du lexique Mot étranger Mot incorrectement orthographié Suite de mots agglutinés, mot éclaté Unité extra-lexicale alphanumériqueCardinal, ordinal Pourcentage, unité mesure N° voie, code postal, numéro de téléphone Quantième, millésime, date, heure Graphie ludique, smiley, adresse électronique Identifiant, formule chimique, mixte Symbole graphiqueSymbole de ponctuation Autre symbole typographique RésiduForme à ignorer Typologie des formes rencontrées dans les messages électroniques francophones Traitement automatique des NFCE

22 Étude des formes Généralités Quelques chiffres 78 % des formes sont des mots ordinaires du lexique de référence 13 % des formes sont des symboles de ponctuation i.e. 19% des formes sont des formes non standard ! Grande variabilité en fonction du type de forum traité Ex. : 10% : fr.soc.religion, fr.rec.cuisine, fr.bio.général 19% : fr.rec.musique.hip-hop 38% : fr.petites-annonces.immobilier, fr.petites-annonces.informatique.matériel Conséquences pour le TAL Analyse morpho-lexicale problématique (idem pour lanalyse morpho-syntaxique) Nécessité de ressources et de traitements linguistiques spécifiques pour lanalyse des formes non standard Traitement automatique des NFCE

23 Étude des formes Les formes non standard 1/3 Formes non standard à base de chiffres arabes et romains 3% des formes sont à base de chiffres arabes et romains Correspondent essentiellement à des cardinaux Autres symboles typographiques 1% des formes sont des symboles typographiques ne servant pas à la ponctuation Conséquences pour le TAL La fréquence de ces formes ne porte pas vraiment à conséquence : les analyseurs traditionnels savent déjà les traiter correctement ! Traitement automatique des NFCE

24 Mots ordinaires inconnus ou étrangers 2,8% des formes sont des mots de la langue absents du lexique de référence Variabilité fonction du type de forum (ex. : 1,2% bio ; 3,6% hip-hop ; 3,9% info) 0,7% des formes sont des mots étrangers absents du lexique de référence Variabilité fonction du type de forum (ex. : 0,2% religion ; 0,8% info) Abréviations, sigles et consorts 3,3% des formes sont des abréviations (au sens général du terme) Variabilité importante fonction du type de forum et de forme Ex. : le cas des abréviations (au sens strict) : 0,2% religion ; 10% info Conséquences pour le TAL Pas si fréquents que cela, mais pénalisant du point de vue du TAL et des services Nécessité de ressources morphologiques et lexicales ad hoc Traitement automatique des NFCE Étude des formes Les formes non standard 2/3

25 Fautes dorthographes et consorts 5% des formes sont (perçues comme) des mots incorrectement orthographiés Principalement faute dorthographe (3%) et agglutination (2%) Variabilité f° du type de forum et de forme (ex. orth : 3,8% bio, 4,5% hip-hop, 2% autres) Graphies ludiques 0,8% des formes correspondent à (ou sont perçues comme) des graphies ludiques Mais grande variabilité en fonction du forum (ex. : 2,84% hip-hop, 0,2% autres) 0,3% des formes correspondent à (ou sont perçues comme) des émoticones Mais grande variabilité en fonction du forum (ex. : 11% info, < 0,6% autres) Conséquences pour le TAL Fautes dorthographe fréquentes : nécessité de modules de correction orthographique Graphies ludiques pénalisantes : nécessité de traitements morphologiques dédiés Traitement automatique des NFCE Étude des formes Les formes non standard 3/3

26 Conclusion Traitement automatique des NFCE

27 Conclusion et perspectives Conclusion Étude qualitative et quantitative des caractéristiques linguistiques des messages électroniques francophones de notre corpus Analyse des problèmes posés par leur analyse par un système de traitement automatique des langues Proposition de stratégies de traitement automatique adaptées Perspectives Développement de ressources et de traitements linguistiques mieux adaptés au traitement automatique des messages électroniques francophones. Exploitation des résultats des études réalisées Exploitation du corpus par des techniques dextraction lexicale et dapprentissage automatique à partir de corpus Traitement automatique des NFCE

28 Merci… Traitement automatique des NFCE

29 Annexes Traitement automatique des NFCE

30 Annexe 1 Collecte et nettoyage du corpus Collecte du corpus brut Collecte automatique des messages dans les forums de discussion électroniques - Problèmes liés à lévolution constante des forums et de leur contenu - Problèmes liés au téléchargement de gros volumes de données Outil de collecte spécifique permettant la création de corpus de suivi - Paramétrable : possibilités de filtrage et de collecte incrémentale des messages - Robuste : fonctionnalités de reprise sur erreur automatique et manuelle Nettoyage du corpus brut Nettoyage automatique visant à faciliter les traitement automatiques ultérieurs - Suppression des messages et des pièces jointes non textuels - Homogénéisation des entêtes pour les rendre plus facilement exploitables Outils ad hoc (le nettoyage manuel semble inévitable !) [ retour ]retour Traitement automatique des NFCE

31 Annexe 2 Annotation automatique du corpus Pré-traitement Filtrage automatique des messages pour ne garder que les portions à annoter Annotation automatique Analyseur linguistique robuste et paramétrable : TILT (FT R&D DMI/GRI) Segmentation du texte en paragraphes, phrases et unités typées Analyse minimale - Interprétation des segments non mots - Analyse lexicale et correction orthographique - Reconnaissance des locutions Analyse syntaxique - Désambiguïsation morpho-syntaxique par analyse syntaxique partielle Post-traitement Formatage des résultats pour les rendre plus facilement exploitables [ retour ]retour Traitement automatique des NFCE

32 Annexe 3 Validation manuelle du corpus Préparation des messages à valider Reformatage dans un format facilitant la validation et correction manuelle Validation manuelle Validation et correction manuelle des annotations par des linguistes - Validation des annotations structurelles, lexicales et morpho-syntaxiques - Validation en contexte et en une seule passe - Utilisation doutils de bureautique standard, personnalisés par des macros Difficultés - Abondance de formes extra-lexicales souvent spécialisées et ambiguës - Importance des guides dannotation détaillées pour la qualité de la validation - Vitesse dannotation variable (en moyenne : 250 formes validées par heure) Travail de 12 hommes /mois [ retour ]retour Traitement automatique des NFCE

33 Annexe 4 Annotations structurelles Niveau 1Niveau 2Niveau 3Niveau 4Niveau 5 Message Entête Champ dentête Corps TexteParagraphePhrase Référence de citation Citation Signature Bandeau publicitaire Annotations structurelles : différents niveaux de balisage [ retour ]retour Traitement automatique des NFCE

34 Annexe 5 Annotations morpho-lexicales Type dunitéCatégorieSous-catégorie Unité lexicaleMot du lexique de référence Locution du lexique de référence Unité extra-lexicaleUnité extra-lexicale alphabétiqueAbréviation, sigle, acronyme Mot (locution) de la langue, absent du lexique Mot (locution) étranger Mot incorrectement orthographié Suite de mots agglutinés, mot éclaté Unité extra-lexicale alphanumériqueCardinal, ordinal Pourcentage, unité mesure N° voie, code postal, numéro de téléphone Quantième, millésime, date, heure Graphie ludique, smiley, adresse électronique Identifiant, formule chimique, mixte Symbole graphiqueSymbole de ponctuation Autre symbole typographique RésiduForme à ignorer Annotations morpho-lexicales : une catégorisation fine des formes extra-lexicales [ retour ]retour Traitement automatique des NFCE

35 Annexe 6 Annotations morpho-syntaxiques CatégorieNomVerbeAdjectifPronomDéterminantAdverbePrépositionConjonction Sous- catégorie Commun Propre Cardinal Principal Auxiliaire Qualificatif Ordinal Cardinal Indéfini Possessif Personnel Démonstratif Indéfini Possessif Interrogatif Relatif Réflexif Cardinal Article Démonstratif Possessif Indéfini Interro-excl Relatif Cardinal Général Particule Interro-excl Préposition Déictique Coordination Subordination Cas Nature Degré Genre Nombre Mode Temps Personne Possesseur m-f s-p m-f s-p i-s-m-c-n-p p-i-f-s 1-2-3 p-c m-f s-p n-a-d-o m-f s-p 1-2-3 s-p d-i m-f s-p 1-2-3 s-p p-c-n p-dc-s Annotations morpho-syntaxiques : réutilisation du jeu détiquettes du projet GRACE [ retour ]retour Traitement automatique des NFCE

36 Fin… Traitement automatique des NFCE


Télécharger ppt "Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004."

Présentations similaires


Annonces Google