La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov.

Présentations similaires


Présentation au sujet: "Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov."— Transcription de la présentation:

1 Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL nov 2004 Paris

2 Peut-on identifier une langue ou un dialecte à partir de la prosodie ? Il faut d'abord savoir de quel type de parole il s'agit Problématique générale de la variabilité Les contenus (ou types d'information) du signal de parole -le contenu linguistique (celui qui fait l'objet d'un code linguistique reconnu par une collectivité) mais aussi, dans le même signal: -les caractéristiques physiques du locuteur: sexe, taille, âge … -ses caractéristiques psychiques et physiologiques -son origine linguistique, sa langue et son dialecte -le contexte de l'interaction parlée, l'interlocuteur supposé -les rôles socioculturels joués par chacun des interlocuteurs -les conditions acoustiques de la communication … variations prosodiques; Tout cela se traduit par d'énormes variations prosodiques; Il faut savoir lesquelles sont pertinentes pour le problème posé Position du problème

3 Priorités -identifier les contenus -identifier les contenus présents dans le signal -identifier les indices acoustiques -identifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu style d'élocution - un guide utile: la notion de style d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication: -Exemples - commentaire sportif - cours en amphi - débat entre pairs - lecture à voix haute en ambiance scolaire - brève de comptoir - etc

4 Caractériser un style d'élocution "lecture à voix haute" -même texte -ensemble homogène de lecteurs -mêmes conditions d'élocution -même consigne Et ses variations -existe-t-il une "réalisation moyenne" ? -où se placent les variations individuelles ? Objectif et corpus Corpus Leblanc -48 locutrices, étudiantes psycho Nanterre -2 élocutions -texte présenté en un seul paragraphe Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson séquence référence (07)

5 L'objectif -comparer les indices prosodiques des 96 séquences alignées Première approche: Première approche: utiliser la transcription phonétique -Aligner chaque séquence sur sa transcription phonétique par reconnaissance automatique -Problème: trop de variations segmentales individuelles -pauses -transcription normative ou réaliste ? -quelles unités segmentales ? Seconde approche: Seconde approche: partir du seul signal acoustique -Le but étant l'étude de la prosodie, on ne s'intéresse qu'aux segments vocaliques et aux pauses -Alignement des séquences et mesure des indices prosodiques sont effectués sans référence à la transcription phonétique De l'approche phonétique à l'approche acoustique

6 Répartition des pauses La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où sur ponctuations secondaires sur ruptures de sens sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice

7 Noyau vocalique NV -segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. -limites à –3 dB -ce n'est pas une "voyelle phonétique" Groupe vocalique GV -segment compris entre deux minima d'énergie BF, hors pauses -approximation: mi-distance de deux centres NV successifs -ce n'est pas une "syllabe phonétique" Indices prosodiques Indices prosodiques (définis pour chaque GV) -F0 -F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz -dF0 -dF0 différence F0 (fin NV) – F0 (début NV) -intensité -intensité au centre du NV, en dB -Durée -Durée durée du GV Noyaux et groupes vocaliques, indices prosodiques

8 Exemple: début séquence 01 Noyaux et groupes vocaliques, indices prosodiques Time (s) Ici le spectrogramme de la séquence ci-dessus (début séquence 01 En bleu: intensité BF En rouge: F0 interpolé

9 Choix d'une séquence de référence Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage Etiquetage (pour interprétation visuelle) Rétro-étiquetage Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus Calcul d'une prosodie moyenne

10 Al Q F0 (st) dF0 (st) int (dB) dur (s) F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée

11 Trois grands types de groupes prosodiques pour ce corpus Grands groupes Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle Prosodie moyenne

12 deux types de dissemblances entre séquences: Pour chaque indice, deux types de dissemblances entre séquences: Décalage Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences deux mesures Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) forme d'ensemble du spectre Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution Variantes individuelles

13 Cohérence des mesures 13,6 DdurDintDF0DdF0 16,117,8 Dcc1Dcc2Dcc3Dcc4 33,516,512,113,214,5 Cohérence obtenue avec chaque mesure prise isolément PdurPintPF0PdF0Pcc1Pcc2Pcc3Pcc4 17,824,814,723,324,516,320,816,0 Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe) décalage prosodique décalage spectral profil prosodique profil spectral 13,613,821,017,5 Cohérence d'une mesure: Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48) Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée

14 Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)

15 Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

16 L'approche proposée Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental) Conclusions


Télécharger ppt "Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS MIDL 29-30 nov."

Présentations similaires


Annonces Google