La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les transcriptions dans la plate-forme CLAPI

Présentations similaires


Présentation au sujet: "Les transcriptions dans la plate-forme CLAPI"— Transcription de la présentation:

1 Les transcriptions dans la plate-forme CLAPI
implémentation solution hétérogénéité standardisation Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero GROUPE ICOR

2 GROUPE ICOR http://clapi.univ-lyon2.fr
La plate-forme CLAPI Banque de données : corpus de LPI collectés en situation naturelle Outils d’analyse et de requête sur le contenu des transcriptions (dont des traitements automatiques) Les corpus oraux Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées GROUPE ICOR

3 GROUPE ICOR http://clapi.univ-lyon2.fr
Les principes d'intégration des transcriptions dans CLAPI Restitution la plus fidèle possible de la représentation d'origine du transcripteur Charte graphique pour l’affichage des transcriptions Validation par le responsable Modifications minimales de la transcription originale  on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle  en cas de modification, recours à la convention ICOR GROUPE ICOR

4 GROUPE ICOR http://clapi.univ-lyon2.fr
Convention de référence  Convention ICOR Principes pour l’établissement d’une convention de transcription Économie Cohérence Lisibilité Sélectivité Granularité Transformabilité Évolutivité Établissement de la convention Convention ICOR fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes concise (genre textuel : « quick-reference manual ») définissant une solide transcription de base en linguistique interactionnelle implémentée en XML GROUPE ICOR

5 GROUPE ICOR http://clapi.univ-lyon2.fr
Convention de référence  Convention ICOR GROUPE ICOR

6 GROUPE ICOR http://clapi.univ-lyon2.fr
Convention ICOR  Exemple du chevauchement N° phénomène notation exemple dans PRAAT ex. Praat GROUPE ICOR

7 GROUPE ICOR http://clapi.univ-lyon2.fr
Problèmes posés par les transcriptions de Français Parlé en Interaction Diversité des conventions de transcription Granularité différente des transcriptions Robustesse : une même convention servant à noter deux phénomènes différents Cohérence : notations différentes d’un même phénomène dans une même transcription Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Orthographe adaptée : un même mot représenté différemment suivant sa prononciation GROUPE ICOR

8 Diversité des conventions de transcription
Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn M le loup s'empresse /de prendre le plus court/ 482 /JP/ /le loup s'en 000 s'empresse/ M chemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge 0 mais là faut mettre pas pris le bon chemin /euh/ 484 JP /répond/ le loup  Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso L t` sais j` suis (inaud.) intoxiquée maint`nant (..) L voulez rien boire (.) vous partez tout d` suite/ [là/ P [ben non faut [qu'on passe chez moi récupérer c` qu'est [(inaud.) d` chez moi A [OUAIS ff [va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, (.), (..) chevauchement / … / [ montée intonative  / élision ( ) ` (antiquote) GROUPE ICOR

9 Diversité des conventions de transcription  Solutions
 identification des phénomènes GROUPE ICOR

10 Diversité des conventions de transcription  Solutions
GROUPE ICOR

11 GROUPE ICOR http://clapi.univ-lyon2.fr
Diversité des conventions de transcription  Solutions  identité graphique des phénomènes de l’interaction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris GROUPE ICOR

12 Granularité différente des transcriptions
GROUPE ICOR

13 Granularité différente des transcriptions  Solutions
 implémentation dans la préparation des transcriptions  dans la liste des transcriptions GROUPE ICOR

14 GROUPE ICOR http://clapi.univ-lyon2.fr
Robustesse : une même convention servant à noter deux phénomènes différents => ambiguïté : apostrophe pour l’élision standard ou non ex. j’aime / j’parle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire GROUPE ICOR

15 Robustesse  Solutions apostrophe pour l’élision standard ou non
GROUPE ICOR

16 parenthèse : hésitation du transcripteur ou observation
Robustesse  Solutions parenthèse : hésitation du transcripteur ou observation GROUPE ICOR

17 GROUPE ICOR http://clapi.univ-lyon2.fr
Cohérence : notations différentes d’un même phénomène dans une même transcription Partition et liste Notation du chevauchement Alternance de [ et < au cours de la transcription etc… Solutions  Uniformisation par la médiathèque GROUPE ICOR

18 GROUPE ICOR http://clapi.univ-lyon2.fr
Exhaustivité : notation non systématique de certains phénomènes dans une même transcription  Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement GROUPE ICOR

19 GROUPE ICOR http://clapi.univ-lyon2.fr
Orthographe adaptée Comment dans une requête trouver automatiquement p`tit quand on cherche petit , am`ner pour amener, … ? GROUPE ICOR

20 Orthographe adaptée  Solutions
Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement les variantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) Données du problème Les formes élidées ont des tailles inférieures ou égales à celle du mot cible Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible GROUPE ICOR

21 Orthographe adaptée  Solutions
Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. Par une approche empirique, on a constaté que : - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres - les tri-grams sont adaptés aux mots plus longs Résultat ex. attends, ‘tends, ‘ttends / parce que, pa’ce que / bonjour, b’jour Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) ex. chais / je sais, vouais / ouais GROUPE ICOR

22 Orthographe adaptée dans CLAPI
GROUPE ICOR

23 GROUPE ICOR http://clapi.univ-lyon2.fr
Phénomènes pris en compte et modélisés à ce jour • changement de locuteur : production verbale attribuée à un locuteur enchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin) • formes (tokens) lexique répétition co_occurrences   variantes morphologiques distance entre les mots  groupe de mots • chevauchement chevauchant, chevauché, départ simultané  • pause (courte, longue, quantifiée)   • timing repère dans la transcription, alignement du signal   • commentaire/observation GROUPE ICOR

24 GROUPE ICOR http://clapi.univ-lyon2.fr
Procédure d'intégration GROUPE ICOR

25 GROUPE ICOR http://clapi.univ-lyon2.fr
Préparation par la médiathèque Identification manuelle des phénomènes Balisage automatique Bilan des tokens et des phénomènes Vérification Contrôle qualité Correction de la transcription adaptée Consignation des modifications dans la convention de transcription Génération XML de la transcription Intégration dans CLAPI GROUPE ICOR

26 Exemple de préparation
GROUPE ICOR

27 Exemple d'un bilan tokens et phénomènes
GROUPE ICOR

28 GROUPE ICOR http://clapi.univ-lyon2.fr
Exemple de transcription balisée en XML GROUPE ICOR

29 La transcription dans CLAPI
GROUPE ICOR

30 Exploitation scientifique dans CLAPI
A VENDREDI… GROUPE ICOR


Télécharger ppt "Les transcriptions dans la plate-forme CLAPI"

Présentations similaires


Annonces Google