La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CONTACI 2007 - Transcriptions et plate-forme CLAPI 1 GROUPE ICOR Les transcriptions dans la plate-forme CLAPI Groupe ICOR L.

Présentations similaires


Présentation au sujet: "CONTACI 2007 - Transcriptions et plate-forme CLAPI 1 GROUPE ICOR Les transcriptions dans la plate-forme CLAPI Groupe ICOR L."— Transcription de la présentation:

1 CONTACI Transcriptions et plate-forme CLAPI 1 GROUPE ICOR Les transcriptions dans la plate-forme CLAPI Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero implémentation solution hétérogénéité standardisation

2 CONTACI Transcriptions et plate-forme CLAPI 2 GROUPE ICOR La plate-forme CLAPI Banque de données : corpus de LPI collectés en situation naturelle Outils danalyse et de requête sur le contenu des transcriptions ( dont des traitements automatiques ) Les corpus oraux Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées

3 CONTACI Transcriptions et plate-forme CLAPI 3 GROUPE ICOR Les principes d'intégration des transcriptions dans CLAPI Restitution la plus fidèle possible de la représentation d'origine du transcripteur Charte graphique pour laffichage des transcriptions Validation par le responsable Modifications minimales de la transcription originale on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle en cas de modification, recours à la convention ICOR

4 CONTACI Transcriptions et plate-forme CLAPI 4 GROUPE ICOR Convention de référence Convention ICOR Principes pour létablissement dune convention de transcription – Économie – Cohérence – Lisibilité – Sélectivité – Granularité – Transformabilité – Évolutivité Établissement de la convention Convention ICOR – fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso – explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes – concise (genre textuel : « quick-reference manual ») – définissant une solide transcription de base en linguistique interactionnelle – implémentée en XML

5 CONTACI Transcriptions et plate-forme CLAPI 5 GROUPE ICOR Convention de référence Convention ICOR

6 CONTACI Transcriptions et plate-forme CLAPI 6 GROUPE ICOR Convention ICOR Exemple du chevauchement N° phénomène notation exemple dans PRAAT ex. Praat

7 CONTACI Transcriptions et plate-forme CLAPI 7 GROUPE ICOR Problèmes posés par les transcriptions de Français Parlé en Interaction Diversité des conventions de transcription Granularité différente des transcriptions Robustesse : une même convention servant à noter deux phénomènes différents Cohérence : notations différentes dun même phénomène dans une même transcription Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Orthographe adaptée : un même mot représenté différemment suivant sa prononciation

8 CONTACI Transcriptions et plate-forme CLAPI 8 GROUPE ICOR Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn 481 Mle loup s'empresse / de prendre le plus court / 482 /JP/ / le loup s'en 000 s'empresse / 483 Mchemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge 0 mais là faut mettre pas pris le bon chemin / euh/ 484 JP / répond / le loup Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso Lt` sais j` suis (inaud.) intoxiquée maint`nant (..) Lvoulez rien boire (.) vous partez tout d` suite/ [là/ P [ben non faut [qu'on passe chez moi récupérer c` qu'est [(inaud.) d` chez moi A[OUAIS ff [va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, 000 (.), (..) chevauchement / … / [ montée intonative / élision ( ) ` (antiquote) Diversité des conventions de transcription

9 CONTACI Transcriptions et plate-forme CLAPI 9 GROUPE ICOR Diversité des conventions de transcription Solutions identification des phénomènes

10 CONTACI Transcriptions et plate-forme CLAPI 10 GROUPE ICOR Diversité des conventions de transcription Solutions

11 CONTACI Transcriptions et plate-forme CLAPI 11 GROUPE ICOR Diversité des conventions de transcription Solutions identité graphique des phénomènes de linteraction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris

12 CONTACI Transcriptions et plate-forme CLAPI 12 GROUPE ICOR Granularité différente des transcriptions

13 CONTACI Transcriptions et plate-forme CLAPI 13 GROUPE ICOR Granularité différente des transcriptions Solutions implémentation dans la préparation des transcriptions dans la liste des transcriptions

14 CONTACI Transcriptions et plate-forme CLAPI 14 GROUPE ICOR => ambiguïté : apostrophe pour lélision standard ou non ex. jaime / jparle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire Robustesse : une même convention servant à noter deux phénomènes différents

15 CONTACI Transcriptions et plate-forme CLAPI 15 GROUPE ICOR Robustesse Solutions apostrophe pour lélision standard ou non

16 CONTACI Transcriptions et plate-forme CLAPI 16 GROUPE ICOR Robustesse Solutions parenthèse : hésitation du transcripteur ou observation

17 CONTACI Transcriptions et plate-forme CLAPI 17 GROUPE ICOR Cohérence : notations différentes dun même phénomène dans une même transcription Partition et liste Notation du chevauchement Alternance de [ et < au cours de la transcription etc… Solutions Uniformisation par la médiathèque

18 CONTACI Transcriptions et plate-forme CLAPI 18 GROUPE ICOR Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement Exhaustivité : notation non systématique de certains phénomènes dans une même transcription

19 CONTACI Transcriptions et plate-forme CLAPI 19 GROUPE ICOR Comment dans une requête trouver automatiquement p`tit quand on cherche petit, am`ner pour amener, … ? Orthographe adaptée

20 CONTACI Transcriptions et plate-forme CLAPI 20 GROUPE ICOR Orthographe adaptée Solutions Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement les variantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) Données du problème Les formes élidées ont des tailles inférieures ou égales à celle du mot cible Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible

21 CONTACI Transcriptions et plate-forme CLAPI 21 GROUPE ICOR Orthographe adaptée Solutions Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. Par une approche empirique, on a constaté que : - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres - les tri-grams sont adaptés aux mots plus longs Résultat ex. attends, tends, ttends / parce que, pace que / bonjour, bjour Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) ex. chais / je sais, vouais / ouais

22 CONTACI Transcriptions et plate-forme CLAPI 22 GROUPE ICOR Orthographe adaptée dans CLAPI

23 CONTACI Transcriptions et plate-forme CLAPI 23 GROUPE ICOR Phénomènes pris en compte et modélisés à ce jour changement de locuteur : production verbale attribuée à un locuteur enchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin) formes (tokens) lexique répétition co_occurrences variantes morphologiques distance entre les mots groupe de mots chevauchement chevauchant, chevauché, départ simultané pause (courte, longue, quantifiée) timing repère dans la transcription, alignement du signal commentaire/observation

24 CONTACI Transcriptions et plate-forme CLAPI 24 GROUPE ICOR Procédure d'intégration

25 CONTACI Transcriptions et plate-forme CLAPI 25 GROUPE ICOR Identification manuelle des phénomènes Balisage automatique Bilan des tokens et des phénomènes Vérification Contrôle qualité Correction de la transcription adaptée Consignation des modifications dans la convention de transcription Génération XML de la transcription Intégration dans CLAPI Préparation par la médiathèque

26 CONTACI Transcriptions et plate-forme CLAPI 26 GROUPE ICOR Exemple de préparation

27 CONTACI Transcriptions et plate-forme CLAPI 27 GROUPE ICOR Exemple d'un bilan tokens et phénomènes

28 CONTACI Transcriptions et plate-forme CLAPI 28 GROUPE ICOR Exemple de transcription balisée en XML

29 CONTACI Transcriptions et plate-forme CLAPI 29 GROUPE ICOR La transcription dans CLAPI

30 CONTACI Transcriptions et plate-forme CLAPI 30 GROUPE ICOR Exploitation scientifique dans CLAPI » A VENDREDI…


Télécharger ppt "CONTACI 2007 - Transcriptions et plate-forme CLAPI 1 GROUPE ICOR Les transcriptions dans la plate-forme CLAPI Groupe ICOR L."

Présentations similaires


Annonces Google