L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

Enseigner l'anglais : ce que préconisent les Instructions Officielles
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Domaines nominaux XSLT
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
F. Sajous & L .Tanguy ERSS – Axe (du) TAL
EVALUATIONS NATIONALES CM2
Apprendre à lire.
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
Introduction : Compilation et Traduction
Cours présentielle avec 1er année.
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
L’observation réfléchie de la langue au cycle 3
Éric Laporte Université Paris-Est Marne-la-Vallée
Quelques exemples de situations de travail ritualisées brèves...
La prévention des difficultés d’écriture
La base textuelle FRANTEXT
Building an Electronic Dictionary of Computer Science Terminology
Apprentissages scolaires
Introduction à la sociolinguistique
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
Project de la langue française
Maîtrise de la langue française
Mamadou Dieye, Mohamed Rafik Doulache,
Etiquetage morpho-syntaxique exemples Laurent Romary Laboratoire Loria.
OUTILEX Présentation des résultats
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG.
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Forum des Industries de la Langue, 17 mars 2010
Compétences informationnelles
Chapitre 3 Syntaxe et sémantique.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
LE DEVELOPPEMENT DU LANGAGE
Qu'est ce que savoir lire ?
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Un exemple de séquence en conjugaison
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
vers une base libre de corpus annotés
Existe-t-il une rééducation de la dyslexie ?
L’approche du code au cycle 2
Les étapes initiales du développement du langage ORAL
Yuanyuan XU 1er Avril 2010 – 30 Septembre 2010
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Sylwia Ozdowska1, Vincent Claveau2
Modélisation N-morphes en classification des textes de Wikipedia
Soutenance du mémoire de synthèse
Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Règles d’or à suivre en rédaction
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Consolidation de grands réseaux lexicaux
les mots variables et les mots invariables.
Etude de la capacité de fonctionnement imaginaire des infirmières avec des bébés prématurissimes E. Seye, E. Amrani (IDE, réanimation néonatale) V. Granboulan.
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Préparer une épreuve de français (2 e année secondaire) Ms Mary Josephine Zammit INSET 2012 Examen de la mi-février.
SYNTAXE SYNTAXE Comment faire l’analyse logique de la phrase composée? Beata Śmigielska Institut des Langues Romanes et de Traduction Université de Silésie.
TD Anthropologie Evolution des Hominidés Cédric Sueur Année universitaire
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll

Plan Méthodes d'étiquetage morpho-syntaxique Le TreeTagger L'Annotation automatique de corpus oraux L'Etiquetage du corpus CRNA-SO Exploitation du corpus annoté Bibliographie

Méthodes d'étiquetage morpho-syntaxique Etapes : segmentation, étiquetage hors contexte ou « à priori » (à partir d'un lexique ou d'une analyse morphologique), desambiguïsation. Méthodes à base de règles : obtenues manuellement ou par apprentissage automatique. Méthodes probabilistes Utilisation d'heuristiques du genre : en cas d'ambiguité Nom/Verbe, choisir Nom; en cas d'ambiguité Adjectif/Verbe, choisir Adjectif; en cas d'ambiguité Adverbe/Nom, choisir Adverbe. Evaluation de systèmes d'étiquetage :

Le TreeTagger [Schmid 1994] Utilisation d'un lexique + deux autres arbres, de préfixes et de suffixes. TreeTagger = « étiqueteur à arbres » ; il détermine les probabilités de transition en faisant appel à un arbre de décisions. Corpus d'entraînement relativement petit. Performances sur le français aux environs des 94%

L'Annotation automatique de corpus oraux [Valli 1999] : « Le développement d'étiqueteurs directement conçus pour l'oral est souhaitable, mais ne peut constituer qu'une entreprise à long terme. » -> étiquetage d'un corpus oral à l'aide d'un étiqueteur conçu pour l'écrit + programmes de pré- édition et de post-édition, avec des résultats comparables à ceux obtenus pour l'écrit. [Mertens 2002] : balisage de toutes les annotations, lemmatisation et analyse morphologique avec le système Morlex, analyse syntaxique avec Vertex. sgml mais mais:Cc sgml euh euh:I disons dire:Vmm-1p que que:Cs sgml la le:Da-fs véritable véritable:Afpfs rencontre rencontre:Ncfs

Etiquetage d'un corpus de dialogues Pré-édition : balisage des pauses, des mots du discours, des locuteurs et des autres informations contextuelles. Post-édition : mise du fichier étiqueté au format reconnu par MonoConc, repérage des indicatifs des avions et des directions (à faire) TreeTagger n'est pas affecté pas le manque de la négation ne ni par les phrases inachevées. Il réagit assez bien face aux répétititons. Le cas de bien et alors : étiquetés comme adverbes, mais l'emploi en tant qu'interjection est prédominant dans le corpus. Les indicatifs des avions du type Alpha Mike Echo (pour AME) sont mal étiquetés. Solution : les prendre en compte lors de la pré-édition Evaluation : dans un corpus de 934 tokens (qui n'inclut pas de balises) il y a 66 erreurs d'étiquetage; précision : 92,93%; les étiquettes du type au|PRE:det cas|NOM (éventuellement) ou vas|VER:pres tourner|VER:infi ont été considérées correctes.

Exploitation du corpus annoté MonoConc [Barlow 2001] ex. recherches :Tag Search : &Nom (trié avec Advance Sort : Search Term, 1L, 1R), &VER (trié, puis Collocate Frequency Data), &NOM, donne&VER Regular Expressions : VER\:simp [0-9]+ Text Search : donne* (pas ambigu)*NOM* *VER* *VER* = 1)

Bibliographie - [Assié 2005] Assié, Delphine. Analyse syntaxique automatique de corpus oraux retranscrits, mémoire de DEA Sciences du langage mention Ingénierie des Langues, Université de Toulouse le Mirail, [Barlow 2001] Barlow, Michael. Concordancing with MonoConc Pro 2.0, Houston : Athelstan, [Habert 1997] Habert, Benoit & al. Les linguistiques de corpus, Paris, Armand Colin / Masson, [ Mertens 2002] Mertens, Piet. Les corpus de français parlé ELICOP : consultation et exploitation. Binon, Jean & al (éds), Tableaux vivants. Opstellen over taal-en- onderwijs aangeboden aan Mark Debrock, Louvain : Presses Universitaires de Louvain, [Pierrel 2000] Pierrel, Jean-Marie (coord.). Ingénierie des langues, Paris, Hermes Science Publications, [Schmid 1994] Schmid, Helmut. Probabilistic Part-of-Speech Tagging Using Decision Trees, in Sima'an, K. & Bod, R. & Krauwer, S. & Scha, R. (ed.): Proceedings of the International Conference on New Methods in Language Processing (NeMLaP'94), Manchester September 1994, Manchester: UMIST. - [Valli 1999] Valli, André; Véronis, Jean. Etiquetage grammatical des corpus de parole : problèmes et perspectives. Revue Française de Linguistique Appliquée, IV (2) : , 1999.