Les transcriptions dans la plate-forme CLAPI

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

Le moteur
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
A l’issue des conseils de classe de 3ème,
E1 E1 E1 E1 E1 E1 E1 E1 E2 E2 E2 E2 E2 E2 E3 E3 E3 E3 E3 E4 E4 E4 E4
Qui a le nombre qui vient après 8 ?
Mon carnet De comportement
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
ACTIVITES Le calcul littéral (3).
Les Prepositions.
1 V-Ingénierie… La compétence au service de lexigence… vous présente.
Les 3 dimensio ns de la morale et de léthique (activité)
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
Académie de Créteil - B.C.1. 2 Pour information : Une action est lexpression temporelle Une action est lexpression temporelle (date début et date finde.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Indicateurs de position
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
1 B Système Enjeux et principes Cours DESS Nantes 04 Décembre 2002 Didier ESSAME.
Ordonnancement des mouvements de deux robots
5 Verbes au passé composé 1.Jai eu avoir 2. Jai du devoir.
Sélection automatique d’index et de vues matérialisées
Projet Hosp-eElections
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Développement d’applications web
Une lettre personnelle
Formation au module Structure de ZENTO
L’évaluation des élèves en SVT
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Les verbes auxiliaires Avoir ou être ?? Choisissez! Cest un verbe Dr Mrs Vandertrampp? Cest un verbe réfléchi?
La haute tour sombre 3 Des actions
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Recommandations et procédure d’attribution de DOI
Recherche Documentaire et traitement de l’information
Communication Collaborative : créer et assurer la visibilité de son blog 1.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
GROUPE ICOR
La Saint-Valentin Par Matt Maxwell.
Louis la grenouille Paroles et musique: Matt Maxwell.
Notre calendrier français MARS 2014
L’OFFRE ET LA DEMANDE.
C'est pour bientôt.....
Mon école est le monde! Par Charlotte Diamond.
Veuillez trouver ci-joint
ASI 3 Méthodes numériques pour l’ingénieur
Le workflow Encadré par: M . BAIDADA Réalisé par: ATRASSI Najoua
Pour Principes de microéconomie, svp ajouter en haut de la page :
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Biologie – Biochimie - Chimie
1. Présentation générale du système
CALENDRIER-PLAYBOY 2020.
1 EVOLUTION DES REFERENTIELS DE BTS Journée du 17 février 2015 Réalisation A. MARGUERITTE.
Ressources Internet liées à la CIB
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Relevez le numéro de votre logo préféré et adressez-le à : En cas d’hésitation, vous pouvez choisir jusqu’à 3 logos. Seront pris.
Etude cinématique sur l’axe R3 d’un robot fruitier
Algorithmique et programmation (1)‏
Transcription de la présentation:

Les transcriptions dans la plate-forme CLAPI implémentation solution hétérogénéité standardisation Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr La plate-forme CLAPI http://clapi.univ-lyon2.fr Banque de données : corpus de LPI collectés en situation naturelle Outils d’analyse et de requête sur le contenu des transcriptions (dont des traitements automatiques) Les corpus oraux Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Les principes d'intégration des transcriptions dans CLAPI Restitution la plus fidèle possible de la représentation d'origine du transcripteur Charte graphique pour l’affichage des transcriptions Validation par le responsable Modifications minimales de la transcription originale  on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle  en cas de modification, recours à la convention ICOR GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Convention de référence  Convention ICOR Principes pour l’établissement d’une convention de transcription Économie Cohérence Lisibilité Sélectivité Granularité Transformabilité Évolutivité Établissement de la convention Convention ICOR fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes concise (genre textuel : « quick-reference manual ») définissant une solide transcription de base en linguistique interactionnelle implémentée en XML GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Convention de référence  Convention ICOR http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Convention ICOR  Exemple du chevauchement http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc N° phénomène notation exemple dans PRAAT ex. Praat GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Problèmes posés par les transcriptions de Français Parlé en Interaction Diversité des conventions de transcription Granularité différente des transcriptions Robustesse : une même convention servant à noter deux phénomènes différents Cohérence : notations différentes d’un même phénomène dans une même transcription Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Orthographe adaptée : un même mot représenté différemment suivant sa prononciation GROUPE ICOR http://clapi.univ-lyon2.fr

Diversité des conventions de transcription Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn 481 M le loup s'empresse /de prendre le plus court/ 482 /JP/ /le loup s'en 000 s'empresse/ 483 M chemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge 0 mais là faut mettre pas pris le bon chemin /euh/ 484 JP /répond/ le loup  Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso L t` sais j` suis (inaud.) intoxiquée maint`nant (..) L voulez rien boire (.) vous partez tout d` suite/ [là/ P [ben non faut [qu'on passe chez moi récupérer c` qu'est [(inaud.) d` chez moi A [OUAIS ff [va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, 000 (.), (..) chevauchement / … / [ montée intonative  / élision ( ) ` (antiquote) GROUPE ICOR http://clapi.univ-lyon2.fr

Diversité des conventions de transcription  Solutions  identification des phénomènes GROUPE ICOR http://clapi.univ-lyon2.fr

Diversité des conventions de transcription  Solutions GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Diversité des conventions de transcription  Solutions  identité graphique des phénomènes de l’interaction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris GROUPE ICOR http://clapi.univ-lyon2.fr

Granularité différente des transcriptions GROUPE ICOR http://clapi.univ-lyon2.fr

Granularité différente des transcriptions  Solutions  implémentation dans la préparation des transcriptions  dans la liste des transcriptions GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Robustesse : une même convention servant à noter deux phénomènes différents => ambiguïté : apostrophe pour l’élision standard ou non ex. j’aime / j’parle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire GROUPE ICOR http://clapi.univ-lyon2.fr

Robustesse  Solutions apostrophe pour l’élision standard ou non GROUPE ICOR http://clapi.univ-lyon2.fr

parenthèse : hésitation du transcripteur ou observation Robustesse  Solutions parenthèse : hésitation du transcripteur ou observation GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Cohérence : notations différentes d’un même phénomène dans une même transcription Partition et liste Notation du chevauchement Alternance de [ et < au cours de la transcription etc… Solutions  Uniformisation par la médiathèque GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Exhaustivité : notation non systématique de certains phénomènes dans une même transcription  Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Orthographe adaptée Comment dans une requête trouver automatiquement p`tit quand on cherche petit , am`ner pour amener, … ? GROUPE ICOR http://clapi.univ-lyon2.fr

Orthographe adaptée  Solutions Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement les variantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) Données du problème Les formes élidées ont des tailles inférieures ou égales à celle du mot cible Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible GROUPE ICOR http://clapi.univ-lyon2.fr

Orthographe adaptée  Solutions Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. Par une approche empirique, on a constaté que : - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres - les tri-grams sont adaptés aux mots plus longs Résultat ex. attends, ‘tends, ‘ttends / parce que, pa’ce que / bonjour, b’jour Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) ex. chais / je sais, vouais / ouais GROUPE ICOR http://clapi.univ-lyon2.fr

Orthographe adaptée dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Phénomènes pris en compte et modélisés à ce jour • changement de locuteur : production verbale attribuée à un locuteur enchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin) • formes (tokens) lexique répétition co_occurrences   variantes morphologiques distance entre les mots  groupe de mots • chevauchement chevauchant, chevauché, départ simultané  • pause (courte, longue, quantifiée)   • timing repère dans la transcription, alignement du signal   • commentaire/observation GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Procédure d'intégration GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Préparation par la médiathèque Identification manuelle des phénomènes Balisage automatique Bilan des tokens et des phénomènes Vérification Contrôle qualité Correction de la transcription adaptée Consignation des modifications dans la convention de transcription Génération XML de la transcription Intégration dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr

Exemple de préparation GROUPE ICOR http://clapi.univ-lyon2.fr

Exemple d'un bilan tokens et phénomènes GROUPE ICOR http://clapi.univ-lyon2.fr

GROUPE ICOR http://clapi.univ-lyon2.fr Exemple de transcription balisée en XML GROUPE ICOR http://clapi.univ-lyon2.fr

La transcription dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr

Exploitation scientifique dans CLAPI A VENDREDI… GROUPE ICOR http://clapi.univ-lyon2.fr