L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll
Plan Méthodes d'étiquetage morpho-syntaxique Le TreeTagger L'Annotation automatique de corpus oraux L'Etiquetage du corpus CRNA-SO Exploitation du corpus annoté Bibliographie
Méthodes d'étiquetage morpho-syntaxique Etapes : segmentation, étiquetage hors contexte ou « à priori » (à partir d'un lexique ou d'une analyse morphologique), desambiguïsation. Méthodes à base de règles : obtenues manuellement ou par apprentissage automatique. Méthodes probabilistes Utilisation d'heuristiques du genre : en cas d'ambiguité Nom/Verbe, choisir Nom; en cas d'ambiguité Adjectif/Verbe, choisir Adjectif; en cas d'ambiguité Adverbe/Nom, choisir Adverbe. Evaluation de systèmes d'étiquetage :
Le TreeTagger [Schmid 1994] Utilisation d'un lexique + deux autres arbres, de préfixes et de suffixes. TreeTagger = « étiqueteur à arbres » ; il détermine les probabilités de transition en faisant appel à un arbre de décisions. Corpus d'entraînement relativement petit. Performances sur le français aux environs des 94%
L'Annotation automatique de corpus oraux [Valli 1999] : « Le développement d'étiqueteurs directement conçus pour l'oral est souhaitable, mais ne peut constituer qu'une entreprise à long terme. » -> étiquetage d'un corpus oral à l'aide d'un étiqueteur conçu pour l'écrit + programmes de pré- édition et de post-édition, avec des résultats comparables à ceux obtenus pour l'écrit. [Mertens 2002] : balisage de toutes les annotations, lemmatisation et analyse morphologique avec le système Morlex, analyse syntaxique avec Vertex. sgml mais mais:Cc sgml euh euh:I disons dire:Vmm-1p que que:Cs sgml la le:Da-fs véritable véritable:Afpfs rencontre rencontre:Ncfs
Etiquetage d'un corpus de dialogues Pré-édition : balisage des pauses, des mots du discours, des locuteurs et des autres informations contextuelles. Post-édition : mise du fichier étiqueté au format reconnu par MonoConc, repérage des indicatifs des avions et des directions (à faire) TreeTagger n'est pas affecté pas le manque de la négation ne ni par les phrases inachevées. Il réagit assez bien face aux répétititons. Le cas de bien et alors : étiquetés comme adverbes, mais l'emploi en tant qu'interjection est prédominant dans le corpus. Les indicatifs des avions du type Alpha Mike Echo (pour AME) sont mal étiquetés. Solution : les prendre en compte lors de la pré-édition Evaluation : dans un corpus de 934 tokens (qui n'inclut pas de balises) il y a 66 erreurs d'étiquetage; précision : 92,93%; les étiquettes du type au|PRE:det cas|NOM (éventuellement) ou vas|VER:pres tourner|VER:infi ont été considérées correctes.
Exploitation du corpus annoté MonoConc [Barlow 2001] ex. recherches :Tag Search : &Nom (trié avec Advance Sort : Search Term, 1L, 1R), &VER (trié, puis Collocate Frequency Data), &NOM, donne&VER Regular Expressions : VER\:simp [0-9]+ Text Search : donne* (pas ambigu)*NOM* *VER* *VER* = 1)
Bibliographie - [Assié 2005] Assié, Delphine. Analyse syntaxique automatique de corpus oraux retranscrits, mémoire de DEA Sciences du langage mention Ingénierie des Langues, Université de Toulouse le Mirail, [Barlow 2001] Barlow, Michael. Concordancing with MonoConc Pro 2.0, Houston : Athelstan, [Habert 1997] Habert, Benoit & al. Les linguistiques de corpus, Paris, Armand Colin / Masson, [ Mertens 2002] Mertens, Piet. Les corpus de français parlé ELICOP : consultation et exploitation. Binon, Jean & al (éds), Tableaux vivants. Opstellen over taal-en- onderwijs aangeboden aan Mark Debrock, Louvain : Presses Universitaires de Louvain, [Pierrel 2000] Pierrel, Jean-Marie (coord.). Ingénierie des langues, Paris, Hermes Science Publications, [Schmid 1994] Schmid, Helmut. Probabilistic Part-of-Speech Tagging Using Decision Trees, in Sima'an, K. & Bod, R. & Krauwer, S. & Scha, R. (ed.): Proceedings of the International Conference on New Methods in Language Processing (NeMLaP'94), Manchester September 1994, Manchester: UMIST. - [Valli 1999] Valli, André; Véronis, Jean. Etiquetage grammatical des corpus de parole : problèmes et perspectives. Revue Française de Linguistique Appliquée, IV (2) : , 1999.