Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL 29-30 nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.

Slides:



Advertisements
Présentations similaires
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Advertisements

Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Les régions de la France
Saviez-vous que… les activités doral les plus pratiquées en classe sont : 1- Exposés: individuels (100%) équipe (92,3%) 2- Échange en grand groupe (92,3%)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Joelle Girey CPC Voiron 2
De la mise en page à la mise en écran : le cas des colonnes
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Handicap et développement inclusif
Exemple : Itinéraire de lecture.
1. Les caractéristiques de dispersion. 11. Utilité.
L'album support des apprentissages de la lecture au cycle II
Français Programme de Première Réalisation : P
Le Transfert (MEIRIEU)
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La Certification intermédiaire Académie de Strasbourg. Lettres en LP Décembre 2009.
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
introduction à la sociologie générale, cours 3
SEANCE DU DIDACTIQUE D’ECONOMIE Module MSECO31.
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Animation du 9 novembre et du 7 décembre 2011 Marion BIGHETTI
Hésitations autonomes en 8 langues :
Des moyens de communication pour le meilleur intérêt de nos enfants.
La différenciation pédagogique
Iryna Lehka, David Le Gac Laboratoire DYALANG, Université de Rouen
Bases de données lexicales
Recherche Documentaire et traitement de l’information
Introduction à la sociolinguistique
SOCLE COMMUN LIRE ET COMPRENDRE
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
L'audition.
Séance 11 - Structuralisme, post-structuralisme et contenu
QUAND LES ÉTUDIANTS FONT EUX-MÊMES LA SOCIOLOGIE.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Technologie au cycle central
DISPOSITIF DÉVALUATION CE1 Version 2007 Ref.: circulaire n° du ; BO n°30 du
Pôle ressources en formation Musique et Éducation musicale
Ergonomie d’un blog, d’un site internet
Les conduites discursives à l'école maternelle
Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique
Rencontre des écoles ciblées du secondaire 22 mars 2004
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Réponses à la commande Lecture de quelques projets de centre Analyse et interrogations Document-projet vs projet vécu.
Relation d’apprentissage A-Rôle de L1: la L2 est forcément apprise à travers des comparaisons avec la L1 Activités pédagogiques: tout ce qui implique la.
EAF : Evaluation de l’épreuve orale
FEDERATION FRANCAISE DE TENNIS
Des activités à ritualiser
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Quelques notions pédagogiques
TNS et Analyse Spectrale
Langue française I module A
NOTRE CONTE MUSICAL DU MOYEN-ÂGE Sylvie Missonnier, GS,
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Video.
UNE APPROCHE SYSTÉMIQUE DE L’INTÉGRATION DANS LE CADRE SCOLAIRE :
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
Journée Des Doctorants 2004
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
LVE au cycle 3: nouveaux programmes Les programmes sont établis à partir du CECRL ( Cadre Commun de Référence pour les Langues): Le cadre définit des niveaux.
LA PHONÉTIQUE FRANÇAISE Conférence nr. 2 La théorie du phonème
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL 29-30 nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS

Position du problème Peut-on identifier une langue ou un dialecte à partir de la prosodie ? Il faut d'abord savoir de quel type de parole il s'agit Problématique générale de la variabilité Les contenus (ou types d'information) du signal de parole le contenu linguistique (celui qui fait l'objet d'un code linguistique reconnu par une collectivité) mais aussi, dans le même signal: les caractéristiques physiques du locuteur: sexe, taille, âge … ses caractéristiques psychiques et physiologiques son origine linguistique, sa langue et son dialecte le contexte de l'interaction parlée, l'interlocuteur supposé les rôles socioculturels joués par chacun des interlocuteurs les conditions acoustiques de la communication … Tout cela se traduit par d'énormes variations prosodiques; Il faut savoir lesquelles sont pertinentes pour le problème posé

Priorités identifier les contenus présents dans le signal identifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu un guide utile: la notion de style d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication: Exemples commentaire sportif cours en amphi débat entre pairs lecture à voix haute en ambiance scolaire brève de comptoir etc

Objectif et corpus Caractériser un style d'élocution "lecture à voix haute" même texte ensemble homogène de lecteurs mêmes conditions d'élocution même consigne Et ses variations - existe-t-il une "réalisation moyenne" ? - où se placent les variations individuelles ? Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson Corpus Leblanc - 48 locutrices, étudiantes psycho Nanterre - 2 élocutions - texte présenté en un seul paragraphe séquence référence (07)

De l'approche phonétique à l'approche acoustique L'objectif comparer les indices prosodiques des 96 séquences alignées Première approche: utiliser la transcription phonétique Aligner chaque séquence sur sa transcription phonétique par reconnaissance automatique Problème: trop de variations segmentales individuelles pauses transcription normative ou réaliste ? quelles unités segmentales ? Seconde approche: partir du seul signal acoustique Le but étant l'étude de la prosodie, on ne s'intéresse qu'aux segments vocaliques et aux pauses Alignement des séquences et mesure des indices prosodiques sont effectués sans référence à la transcription phonétique

Répartition des pauses La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où sur ponctuations secondaires sur ruptures de sens sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice

Noyaux et groupes vocaliques, indices prosodiques Noyau vocalique NV segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. limites à –3 dB ce n'est pas une "voyelle phonétique" Groupe vocalique GV segment compris entre deux minima d'énergie BF, hors pauses approximation: mi-distance de deux centres NV successifs ce n'est pas une "syllabe phonétique" Indices prosodiques (définis pour chaque GV) F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz dF0 différence F0 (fin NV) – F0 (début NV) intensité au centre du NV, en dB Durée durée du GV

Noyaux et groupes vocaliques, indices prosodiques Exemple: début séquence 01 5000 Ici le spectrogramme de la séquence ci-dessus (début séquence 01 8.25075 Time (s) Time (s) 8.25075 25.32 84.42 30 40 50 60 70 80 1 2 3 4 5 6 7 8 En bleu: intensité BF En rouge: F0 interpolé

Calcul d'une prosodie moyenne Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage (pour interprétation visuelle) Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus

F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée F0 (st) Al dF0 (st) int (dB) dur (s) Q

Prosodie moyenne Trois grands types de groupes prosodiques pour ce corpus Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle

Variantes individuelles Pour chaque indice, deux types de dissemblances entre séquences: Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages  différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils  différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution

Cohérence des mesures Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48) Cohérence obtenue avec chaque mesure prise isolément   13,6 Ddur Dint DF0 DdF0 16,1 17,8 Dcc1 Dcc2 Dcc3 Dcc4 33,5 16,5 12,1 13,2 14,5 Pdur Pint PF0 PdF0 Pcc1 Pcc2 Pcc3 Pcc4 17,8 24,8 14,7 23,3 24,5 16,3 20,8 16,0 Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe) décalage prosodique décalage spectral profil prosodique profil spectral 13,6 13,8 21,0 17,5 Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée

Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)

Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

Conclusions L'approche proposée Style d'élocution Langue, dialecte Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes  groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental)