Un exemple d’annotation sur corpus oral transcrit: PFC

Slides:



Advertisements
Présentations similaires
LANGUES VIVANTES à l’Ecole Primaire
Advertisements

Clémence Préfontaine1 La langue parlée des futurs enseignants du Québec Résultats de recherche.
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
DÉFINITION DU DOMAINE D’ÉVALUATION (DDE) CONTENU DE LA PRÉSENTATION
Lécole maternelle Juin 2011 Affirmer que la maternelle est une école à part entière et non « entièrement à part » en rendant obligatoire la scolarité dès.
Quelques points à rappeler Présenter clairement les objectifs prioritaires de lécole maternelle et détailler pour chacune des trois années des programmes.
LA STRUCTURATION DU CODE AU CYCLE 2 ANIMATION PEDAGOGIQUE CIRCONSCRIPTION DE THONON OCTOBRE 07 Fabienne VERNET, IUFM de Bonneville.
Proposition de stratégie
Trouble persistant du langage écrit
Apprendre à lire.
Distinguer les sons de la parole
Analyse de Corpus Marie-Christine Dubus Claudine Hammelrath
Le cahier de sciences Lieu des écrits pour soi
Enseigner avec Soda Marie-Laure LIONS-OLIVIERI
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Iryna Lehka, David Le Gac Laboratoire DYALANG, Université de Rouen
Introduction et conclusion
EXERCICES SUR INTERNET
Bases de données lexicales
Introduction à la sociolinguistique
Project de la langue française
COMPREHENSION DE L’ORAL
GROUPE ICOR
Conscience phonologique
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
LIN1720 DGD 10 La syllabe.
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
LIN1720 cours 13 Règles phonologiques
États du larynx Phonologie Théories et traits Règles phonologiques
LIN 1720 DGD 10 Traits et règles phonologiques
LIN 1720 DGD 9 Traits phonologiques
langue/langage Langue/parole/discours langue orale/langue écrite
‘The Voice Company’ Du texte à la Parole
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Vers une auto-évaluation formative en ligne ?
Cours de Phonétique Française III
Apprendre à lire tout au long de la scolarité primaire
Exercice 1 Le découpage en syllabes est comme suit (les difficultés sont indiquées en vert): N.B. J’ai laissé tomber les e muets là où c’était possible.
La communication orale FLORENCE CAUHÉPÉ
Existe-t-il une rééducation de la dyslexie ?
Portail de la linguistique
Master 1 – Sciences du Langage –
A. E. ARCHAKIAN Université Linguisitique V. Brioussov Chaire de pédagogie et de méthodolgie de l’enseignement des langues étrangères Erévan 2010.
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Une enquête en pays de Vaud Pascal de Singy, 1996.
La conscience phonologique : « Distinguer les sons de la parole »

ARGUMENTAIRE A destination des enseignants pour la présentation en début d’année de l’apprentissage de la lecture aux parents.
La méthodologie verbo-tonale de correction phonétique
Des activités à ritualiser
Classe 1 Phonétique - phonologie
Langue française I module A
La chute du “L”. La variable Le ‘l’ dans les mots grammaticaux en français canadien parlé absence? ou présence?
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
NOTRE CONTE MUSICAL DU MOYEN-ÂGE Sylvie Missonnier, GS,
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Video.
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
Le découpage en syllabes est comme suit (les difficultés sont indiquées en vert): exercice 1 N.B. J’ai laissé tomber les e muets là où c’était possible.
 Mise en évidence de certaines difficultés de lecture  Suspicion d’une éventuelle dyslexie  Repérage des enfants dits à risque permet une PEC adaptée.
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
Contribution du traitement automatique de la parole à l’étude de la variation diatopique en français Martine Adda-Decker Philippe Boula de Mareüil LIMSI-CNRS.
LIAISON GROUPE 15.
Juin 2008PFC Nouvelle-Orléans1 PFC et variation diachronique : Montréal François Poiré, Nicholas Moroz et Stephanie Kelly The University of Western.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Un exemple d’annotation sur corpus oral transcrit: PFC École thématique Annotation de données langagières Sarah Leroy – 11/09/11

Le projet PFC Projet « socio-phonologique » visant à décrire la prononciation du français et la réalité de ses usages attestés, dans un cadre variationniste variation diatopique avant tout variations sociales ou variations diaphasiques dans une moindre mesure Constitution d’une base de données orales Exploitation de ces données http://www.projet-pfc.net/

Recueil des données Différents points d’enquête Une douzaine de personnes (h/f, âges variés, etc.) Deux séquences de lecture liste de mots texte Deux séquences de conversation guidée libre Homogénéité et comparabilité des enquêtes

Exploitation des données Analyses phonétiques et phonologiques Analyses syntaxiques, pragmatiques, sociolinguistiques, conversationnalistes… Didactique du français Etc. Exploitation initialement visée schwa liaison

Préparation des données Transcription transcription orthographique standard séquences de lecture + extraits des séquences de conversation logiciel Praat Annotation tires distinctes pour les deux phénomènes à annoter système de codage chiffré

Transcription

Annotation

Annotations Système chiffré dans lequel chaque chiffre mesure un trait Schwa = 4 paramètres je veux [ʒvœ] => je0132 veux Liaison = entre 2 et 6 paramètres pâtes italiennes [patitaljɛn] => pâtes10 italiennes mon ami [mɔnami] => mon11nVO ami il pourrait préférer [ilpuʁɛtPHpʁefeʁe] => il pourrait21thC préférer

Principes généraux de l’annotation Manuelle Descriptive Limitée à quelques traits essentiels Fondée sur les perspectives théoriques les plus largement partagées À grande échelle – approche globale des données En « détournant » un outil non dédié Réalisation par des non-spécialistes (éventuellement) Homogénéité et comparabilité des annotations

Lieux d’annotation (1) Définition du phénomène à annoter liaison => consonne latente prononcée lorsque le mot suivant a une initiale vocalique schwa => élément vocalique à prononciation facultative correspondant au e de l'orthographe non suivi de consonne appartenant à la même syllabe

Lieux d’annotation (2) Réalisation du phénomène à annoter liaison réalisée => les_amis [lezami], ils sont_amis [ilsɔ̃tami] schwa réalisé => je viens [ʒǝvjɛ̃] Non réalisation du phénomène liaison non réalisée => très apprécié [tʁeapʁesje] schwa non réalisé => j’viens [ʒvjɛ̃]

Lieux d’annotation (3) Réalisation imprévue du phénomène liaison épenthétique ou devant consonne => il va à Paris [ilvatapaʁi] , il allait vers Paris [ilalɛtvɛʁpaʁi] schwa non marqué par un e graphique à l’initiale pure d’un mot (métathèse) => je viens [ǝʒvjɛ̃] à la finale d’un groupe rythmique (e prépausal) => un concours [œ̃kɔ̃kuʁǝ], salut [salyǝ] Annoter la non réalisation imprévue ? liaison épenthétique ou devant consonne => annotée si réalisée schwa non marqué par un e graphique => métathèse => annotée si réalisée e prépausal => annotation de toutes les consonnes finales prononcées

Lieux d’annotation (4) Annotation idéale: tous les lieux possibles de schwas et de liaisons Annotation réelle: les réalisations imprévues ne sont annotées que lorsqu’elles sont réalisées. Lieux possibles: connus et indiqués pour le texte (apprentissage) devant être repérés par l’annotateur pour les extraits de conversations (risque d’erreurs et d’oublis)

Traits à annoter: schwa (1) Visée générale: présence / absence du schwa => 1er trait à annoter Repère: e graphique, quelle que soit la réalisation phonétique (+ consonnes finales prononcées) Chiffre 1 => présence / absence (ou incertitude)

Traits à annoter: schwa (2) Visées plus précises : mettre la présence / absence en relation avec le contexte phonologique Position: schwa en syllabe initiale (ou unique) => réalisations variées selon contexte et rythme schwa en syllabe interne ou finale => non réalisation Chiffre 2 => syllabe initiale (ou unique) / interne / finale

Traits à annoter: schwa (3) Contextes droit et gauche de la syllabe concernée: règle du contexte droit: si le schwa est suivi d’une voyelle ou se trouve en fin de mot, il n'est pas prononcé règle des trois consonnes: si le schwa est précédé d’au moins deux consonnes et suivi d’au moins une consonne, il est réalisé; sinon, il n'est pas réalisé Chiffre 3 => contexte gauche (voyelle, consonne, début de groupe intonatif, cas particuliers) Chiffre 4 => contexte droit (voyelle, consonne, frontière intonative)

Traits à annoter: schwa (exemple) ZB : On parle français oui, on parle <X : On parle français, entre nous.><E2 : Même les conversations intimes ?>. ZB : On parle1422 français oui, on parle0423 X : On parle0422 français, entre1412 nous. E2 : Même0412 les conversations intime0413s ?.

Analyses à partir de l’annotation Variation diatopique français méridional => schwa normalement prononcé en fin de polysyllabe (suivi d'une consonne) français canadien => tendance à l’effacement du schwa et de là à la réduction consonantique Variation diaphasique plus le registre de langue est soutenu, plus le taux de réalisation du schwa est élevée plus le registre est informel/familier, plus le taux de réalisation du schwa tend à être bas

Traits à annoter: liaison (1) Deux traits nécessaires: Chiffre 1 => caractérisation syllabique du mot liaisonnant (mono ou polysyllabe) Chiffre 2 => absence / présence de la liaison + caractérisations supplémentaires Soyez efficace [swajeefikas] => soyez20 efficace Soyez efficace [swajePHefikas] => soyez20h efficace Soyez efficace [swaje?efikas] => soyez23 efficace Soyez efficace [swajezefikas] => soyez21z efficace Soyez efficace [swajePHzefikas] => soyez21zh efficace Soyez efficace [swajezPHefikas] => soyez22z efficace

Traits à annoter: liaison (2) Caractérisations supplémentaires: Enchaînement ou non-enchaînement => chiffre Si présence de la liaison => consonne de liaison Si pause-hésitation => h Si initiale consonantique au mot suivant => C Si incertitude, liaison épenthétique => chiffre Si liaison en n => indication du caractère nasal ou pas Annotation moins régulière, plus précise, pour un phénomène moins fréquent

Traits à annoter: liaison (exemples) X : mais par contre nous, on a souffert avec nos enfants, X : mais par contre nous, on11NVN a souffert avec nos11Z enfants,

Traits à annoter: liaison (exemples) ZB : C'est-à-dire tellement le, le volume est trop élevé donc on, ZB : C'est11T-à-dire tellement le, le volume est trop11Z élevé donc on,

Analyses à partir de l’annotation? Nombreux facteurs de variation Contextes linguistiques Lexique (certains mots liaisonnants) Syntaxe (liaison à l’intérieur de syntagmes) Morphologie (marquage du pluriel) Prosodie (liaison à l’intérieur de groupes rythmiques) Phonétique (certaines consonnes finales bloquent la liaison) Longueur du mot (mots liaisonnants courts) Fréquence des contacts (locutions par exemple) Nature de la consonne ([n], [z], [t]) Paramètres sociolinguistiques Diaphasie (registre soutenu liaisonne plus) Diachronie (âge du locuteur) Diatopie (peu pertinente)

Problèmes rencontrés Qualité sonore Importance de l’annotateur Fiabilité des annotations ? Imprécisions dans l’annotation (euh) Manques dans l’annotation (contexte syntaxique liaison) Nécessité de raffiner l’annotation pour des analyses précises Utilité d’un « balayage annotatif »?