Les transcriptions dans la plate-forme CLAPI implémentation solution hétérogénéité standardisation Groupe ICOR L. Balthasar, M. Bert, S. Bruxelles, C. Etienne, L. Mondada, V. Traverso, D. Valero GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr La plate-forme CLAPI http://clapi.univ-lyon2.fr Banque de données : corpus de LPI collectés en situation naturelle Outils d’analyse et de requête sur le contenu des transcriptions (dont des traitements automatiques) Les corpus oraux Intégration de corpus anciens ou récents, confectionnés dans le cadre de domaines de recherche différents, dans divers laboratoires => Hétérogénéité des transcriptions hébergées GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Les principes d'intégration des transcriptions dans CLAPI Restitution la plus fidèle possible de la représentation d'origine du transcripteur Charte graphique pour l’affichage des transcriptions Validation par le responsable Modifications minimales de la transcription originale on ne refait pas la transcription pour des raisons de coût et de respect de la propriété intellectuelle en cas de modification, recours à la convention ICOR GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Convention de référence Convention ICOR Principes pour l’établissement d’une convention de transcription Économie Cohérence Lisibilité Sélectivité Granularité Transformabilité Évolutivité Établissement de la convention Convention ICOR fondée sur des conventions internationalement retenues en linguistique interactionnelle : Jefferson, Heritage, Psathas, Kerbrat, Cosnier, Traverso explicite : accessibilité des concepts et des conventions pour chercheurs/ transcripteurs non interactionnistes concise (genre textuel : « quick-reference manual ») définissant une solide transcription de base en linguistique interactionnelle implémentée en XML GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Convention de référence Convention ICOR http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Convention ICOR Exemple du chevauchement http://icar.univ-lyon2.fr/projets/ICOR/ICAR_Conventions_ICOR.doc N° phénomène notation exemple dans PRAAT ex. Praat GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Problèmes posés par les transcriptions de Français Parlé en Interaction Diversité des conventions de transcription Granularité différente des transcriptions Robustesse : une même convention servant à noter deux phénomènes différents Cohérence : notations différentes d’un même phénomène dans une même transcription Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Orthographe adaptée : un même mot représenté différemment suivant sa prononciation GROUPE ICOR http://clapi.univ-lyon2.fr
Diversité des conventions de transcription Corpus CHAPERON ROUGE, extrait "Jean-Pierre et Magali ", resp. M.-M. de Gaulmyn 481 M le loup s'empresse /de prendre le plus court/ 482 /JP/ /le loup s'en 000 s'empresse/ 483 M chemin pour arriver chez la mère-grand avant le p(e)tit chaperon rouge 0 mais là faut mettre pas pris le bon chemin /euh/ 484 JP /répond/ le loup Corpus CONVERSATIONS FAMILIERES, extrait "grillage T3 ", resp. V. Traverso L t` sais j` suis (inaud.) intoxiquée maint`nant (..) L voulez rien boire (.) vous partez tout d` suite/ [là/ P [ben non faut [qu'on passe chez moi récupérer c` qu'est [(inaud.) d` chez moi A [OUAIS ff [va déménager Conventions Chaperon rouge Conversations familières pause 0, 00, 000 (.), (..) chevauchement / … / [ montée intonative / élision ( ) ` (antiquote) GROUPE ICOR http://clapi.univ-lyon2.fr
Diversité des conventions de transcription Solutions identification des phénomènes GROUPE ICOR http://clapi.univ-lyon2.fr
Diversité des conventions de transcription Solutions GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Diversité des conventions de transcription Solutions identité graphique des phénomènes de l’interaction Quelle que soit la convention, les chevauchements sont indiqués en vert, les pauses en bleu turquoise et les descriptions en bleu gris GROUPE ICOR http://clapi.univ-lyon2.fr
Granularité différente des transcriptions GROUPE ICOR http://clapi.univ-lyon2.fr
Granularité différente des transcriptions Solutions implémentation dans la préparation des transcriptions dans la liste des transcriptions GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Robustesse : une même convention servant à noter deux phénomènes différents => ambiguïté : apostrophe pour l’élision standard ou non ex. j’aime / j’parle => trait d'union notant également la troncation ex. avant-hier / sta- statut => parenthèse : hésitation du transcripteur ou observation/commentaire GROUPE ICOR http://clapi.univ-lyon2.fr
Robustesse Solutions apostrophe pour l’élision standard ou non GROUPE ICOR http://clapi.univ-lyon2.fr
parenthèse : hésitation du transcripteur ou observation Robustesse Solutions parenthèse : hésitation du transcripteur ou observation GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Cohérence : notations différentes d’un même phénomène dans une même transcription Partition et liste Notation du chevauchement Alternance de [ et < au cours de la transcription etc… Solutions Uniformisation par la médiathèque GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Exhaustivité : notation non systématique de certains phénomènes dans une même transcription Solution Tous les outils qui permettent de faire des requêtes sur les phénomènes précisent s'ils sont notés totalement ou partiellement GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Orthographe adaptée Comment dans une requête trouver automatiquement p`tit quand on cherche petit , am`ner pour amener, … ? GROUPE ICOR http://clapi.univ-lyon2.fr
Orthographe adaptée Solutions Construction d'un outil basé sur les n-grams de caractères pour identifier automatiquement les variantes graphiques, avec la collaboration de Ramzi ABBES, post-doctorant TAL Arabe (voyellation) Données du problème Les formes élidées ont des tailles inférieures ou égales à celle du mot cible Le caractère d'élision ` (antiquote) remplace une ou plusieurs lettres du mot cible GROUPE ICOR http://clapi.univ-lyon2.fr
Orthographe adaptée Solutions Les n-grams de caractères retrouvent les formes élidées du token en les comparant aux mots existants dans clapi avec une égalité parfaite des n-grams. Par une approche empirique, on a constaté que : - les bi-grams permettent de repérer les variantes des mots de moins de huit lettres - les tri-grams sont adaptés aux mots plus longs Résultat ex. attends, ‘tends, ‘ttends / parce que, pa’ce que / bonjour, b’jour Certaines formes trop éloignées du mot standard seront identifiées dans un glossaire (quelques dizaines de formes maximum) ex. chais / je sais, vouais / ouais GROUPE ICOR http://clapi.univ-lyon2.fr
Orthographe adaptée dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Phénomènes pris en compte et modélisés à ce jour • changement de locuteur : production verbale attribuée à un locuteur enchaînement des locuteurs, taille pv (tour bref), place dans la pv (début/fin) • formes (tokens) lexique répétition co_occurrences variantes morphologiques distance entre les mots groupe de mots • chevauchement chevauchant, chevauché, départ simultané • pause (courte, longue, quantifiée) • timing repère dans la transcription, alignement du signal • commentaire/observation GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Procédure d'intégration GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Préparation par la médiathèque Identification manuelle des phénomènes Balisage automatique Bilan des tokens et des phénomènes Vérification Contrôle qualité Correction de la transcription adaptée Consignation des modifications dans la convention de transcription Génération XML de la transcription Intégration dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr
Exemple de préparation GROUPE ICOR http://clapi.univ-lyon2.fr
Exemple d'un bilan tokens et phénomènes GROUPE ICOR http://clapi.univ-lyon2.fr
GROUPE ICOR http://clapi.univ-lyon2.fr Exemple de transcription balisée en XML GROUPE ICOR http://clapi.univ-lyon2.fr
La transcription dans CLAPI GROUPE ICOR http://clapi.univ-lyon2.fr
Exploitation scientifique dans CLAPI A VENDREDI… GROUPE ICOR http://clapi.univ-lyon2.fr