Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parBerthe David Modifié depuis plus de 10 années
1
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles
MIDL nov Paris Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS
2
Position du problème Peut-on identifier une langue ou un dialecte à partir de la prosodie ? Il faut d'abord savoir de quel type de parole il s'agit Problématique générale de la variabilité Les contenus (ou types d'information) du signal de parole le contenu linguistique (celui qui fait l'objet d'un code linguistique reconnu par une collectivité) mais aussi, dans le même signal: les caractéristiques physiques du locuteur: sexe, taille, âge … ses caractéristiques psychiques et physiologiques son origine linguistique, sa langue et son dialecte le contexte de l'interaction parlée, l'interlocuteur supposé les rôles socioculturels joués par chacun des interlocuteurs les conditions acoustiques de la communication … Tout cela se traduit par d'énormes variations prosodiques; Il faut savoir lesquelles sont pertinentes pour le problème posé
3
Priorités identifier les contenus présents dans le signal
identifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu un guide utile: la notion de style d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication: Exemples commentaire sportif cours en amphi débat entre pairs lecture à voix haute en ambiance scolaire brève de comptoir etc
4
Objectif et corpus Caractériser un style d'élocution "lecture à voix haute" même texte ensemble homogène de lecteurs mêmes conditions d'élocution même consigne Et ses variations - existe-t-il une "réalisation moyenne" ? - où se placent les variations individuelles ? Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson Corpus Leblanc - 48 locutrices, étudiantes psycho Nanterre - 2 élocutions - texte présenté en un seul paragraphe séquence référence (07)
5
De l'approche phonétique à l'approche acoustique
L'objectif comparer les indices prosodiques des 96 séquences alignées Première approche: utiliser la transcription phonétique Aligner chaque séquence sur sa transcription phonétique par reconnaissance automatique Problème: trop de variations segmentales individuelles pauses transcription normative ou réaliste ? quelles unités segmentales ? Seconde approche: partir du seul signal acoustique Le but étant l'étude de la prosodie, on ne s'intéresse qu'aux segments vocaliques et aux pauses Alignement des séquences et mesure des indices prosodiques sont effectués sans référence à la transcription phonétique
6
Répartition des pauses
La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où sur ponctuations secondaires sur ruptures de sens sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice
7
Noyaux et groupes vocaliques, indices prosodiques
Noyau vocalique NV segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. limites à –3 dB ce n'est pas une "voyelle phonétique" Groupe vocalique GV segment compris entre deux minima d'énergie BF, hors pauses approximation: mi-distance de deux centres NV successifs ce n'est pas une "syllabe phonétique" Indices prosodiques (définis pour chaque GV) F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz dF0 différence F0 (fin NV) – F0 (début NV) intensité au centre du NV, en dB Durée durée du GV
8
Noyaux et groupes vocaliques, indices prosodiques
Exemple: début séquence 01 5000 Ici le spectrogramme de la séquence ci-dessus (début séquence 01 Time (s) Time (s) 25.32 84.42 30 40 50 60 70 80 1 2 3 4 5 6 7 8 En bleu: intensité BF En rouge: F0 interpolé
9
Calcul d'une prosodie moyenne
Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage (pour interprétation visuelle) Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus
10
F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée
F0 (st) Al dF0 (st) int (dB) dur (s) Q
11
Prosodie moyenne Trois grands types de groupes prosodiques pour ce corpus Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle
12
Variantes individuelles
Pour chaque indice, deux types de dissemblances entre séquences: Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution
13
Cohérence des mesures Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48) Cohérence obtenue avec chaque mesure prise isolément 13,6 Ddur Dint DF0 DdF0 16,1 17,8 Dcc1 Dcc2 Dcc3 Dcc4 33,5 16,5 12,1 13,2 14,5 Pdur Pint PF0 PdF0 Pcc1 Pcc2 Pcc3 Pcc4 17,8 24,8 14,7 23,3 24,5 16,3 20,8 16,0 Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe) décalage prosodique décalage spectral profil prosodique profil spectral 13,6 13,8 21,0 17,5 Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée
14
Exemples de variations
Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)
15
Exemples de variations
Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée
16
Conclusions L'approche proposée Style d'élocution Langue, dialecte
Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.