Hésitations autonomes en 8 langues : étude acoustique et perceptive Vasilescu I., Candea M. & Adda-Decker M. Hésitations autonomes en 8 langues : Colloque MIDL 29-30 nov. 2004 MIDL - projet STIC-SHS du CNRS Programme Société de l’Information 2001-2004
Hésitations autonomes en 8 langues : objet d’étude Phénomènes dits d’hésitation ou de formulation : grande diversité. Hésitations autonomes : Segment vocalique allongé placé entre deux pauses ou bien à la suite d’un mot mais ne constituant pas un allongement de celui-ci ( pauses remplies, fillers). Occurrences: ~5% dans les corpus spontanés < 0.5% dans les corpus de parole lue/préparée. Caractéristique principale: très longues (jusqu’à 1 seconde, voire +). En français et en anglais : il s’agit d’une voyelle centrale.
Hésitations autonomes en 8 langues : questions Hésitations autonomes : porteuses d’information spécifique à la langue ? Faut-il prévoir des modèles différents pour chaque langue ? Les éventuelles différences sont-elles perceptibles à l’oreille ? Timbre des voyelles support : toujours central ? toujours une voyelle du système vocalique de la langue ? Paramètres (autres que la durée) permettant de différencier la voyelle d’hésitation de son homologue intra-lexicale (F0, qualité de voix, timbre…) ? Remarque : peu d’études sur les langues autre que anglais et français ; pas d’études comparatives multilingues à notre connaissance
CORPORA Corpus multilingue Corpus français Émissions journalistiques en 8 langues (2 heures / langue) (français, espagnol, italien, portugais, anglais, allemand, arabe moyen-oriental, chinois mandarin) Corpus français Émissions journalistiques diverses (env. 6 heures) Etude plus approfondie 1e et 2e hesitation : allemand (voyelle, voyelle + coda nasale) 3e et 4e hesitation : francaise (f, h 0.6 sec 100Hz modale fmfrance3_980204_1200_1300-291-354.1.wav) 5e anglais americain femme efee970722_2728_2746 6e anglais americain homme emew970708_632-556.1 7e espagnol femme sfse96C27-185-567.1 8e espagnol homme smse96C24-013-887.3 9e italien femme ifGRR940406_1700_126_13262
CORPUS MULTILINGUE Corpus initial Émissions journalistiques en 8 langues (français, espagnol, italien, portugais, anglais, allemand, arabe moyen-oriental, chinois mandarin). Sous-corpus hésitations Extraction semi-automatique 30 à 200 occurrences par langue, locuteurs h/f. Critères : durée > 200 ms. Contrôle Nous avons retenu uniquement les hésitations autonomes (voyelles support extra-lexicales) et nous avons écarté les mots outils vocaliques allongés. 1e et 2e hesitation : allemand (voyelle, voyelle + coda nasale) 3e et 4e hesitation : francaise (f, h 0.6 sec 100Hz modale fmfrance3_980204_1200_1300-291-354.1.wav) 5e anglais americain femme efee970722_2728_2746 6e anglais americain homme emew970708_632-556.1 7e espagnol femme sfse96C27-185-567.1 8e espagnol homme smse96C24-013-887.3 9e italien femme ifGRR940406_1700_126_13262
Analyse acoustique (1) Analyse acoustique français [ə] Distribution des voyelles support dans un espace F1/F2 Dispersion inter-langues > dispersion intra-langues. Qualité vocalique différente français [ə] anglais [a], [ə] et [æ], espagnol [e] et [ɛ], italien [ɛ] et [ə] . De manière générale : voyelle support appartient au système vocalique de la langue. Voyelle support hors système de la langue : italien [ə] .
Analyse acoustique (2) Distribution des valeurs moyennes (hommes et femmes) : voyelles centrales et antérieures
Etude perceptive Français/L2 (1) 6 stimuli par langue(x 2) 20 auditeurs français Tâche : Français / L2, après une phase de familiarisation avec L2 Hésitations isolées; diverses qualités de voix, timbre +/- central de la voyelle support, sélection de stimuli représentatifs pour chaque langue Discrimination moyenne : 75%. – : français vs arabe, portugais, allemand → voyelle support centrale + : français vs italien, espagnol, anglais → voyelle centrale vs [ε], [e], [æ] français vs chinois → hauteur F0,qualité de voix
Étude perceptive Français/L2 (2) L2 mieux dans : FR/Arabe, FR/Chinois, FR/Allemand. Stratégie: les auditeurs ont recherché ce qui est DIFFERENT par rapport à un prototype d’hésitation du français. Ce résultat soulève des questions sur le rôle de la langue maternelle et du protocole de test dans les tâches de discrimination.
Etude perceptive Français/L2 (3) Effet L1 vs L2 : ANOVA deux facteurs (« langue de test » et « langue maternelle », i.e. comparer L1 vs L2). Effet significatif du facteur « condition de test/langue de test » (p<0.0001). L2 est mieux reconnu que L1 (PLSD de Fisher, p=0.0198) Effet L2 par rapport au Français (L1): t-test appariés. Les sujets ont significativement (p<0.0001) mieux reconnu l’anglais, l’espagnol, l’italien, le chinois que l’arabe, le portugais et l’allemand par rapport au français.
CORPUS Français Étude acoustique comparative : voyelle d’hésitation vs voyelle intra-lexicale de timbre similaire Étude sur le français Analyse acoustique des occurrences des voyelles d’hésitations vs des occurrences de [ø] (eu-fermé) et de [ə] (schwa) intra-lexicaux. Critère de sélection Segments de durée > 40ms extraits automatiquement par le système d’alignement du LIMSI. . H F hésitations 1484 378 schwa [ə - œ] 964 754 eu-fermé [ø] 923 291 70% locuteurs Hommes vs. 30% locuteurs Femmes.
Paramètres étudiés : voyelle d’hésitation vs voyelle intra-lexicale de timbre similaire Durée Timbre de la voyelle : F1, F2, F3 Hauteur & contour de la fréquence fondamentale F0 Qualité de voix
Paramètres étudiés : la durée hésit. schwa Fig. 3a– Distribution des hésitations en fonction de la durée (hommes+femmes). Eu-fermé Hésitations >200ms (200-650ms) Voy. Intra-lexicales <100ms (40-150/200ms) Fig. 3b&c – Distribution des schwa & eu-fermés en fonction de la durée (hommes+femmes).
Paramètres étudiés : la fréquence fondamentale F0 Distribution des moyennes similaire pour voyelles d’hésitation/voyelles du système. Distribution plus étendue avec plus de valeurs extrêmes pour les voyelles d’hésitation. Non détection avec PRAAT: 11,5 (hésitations) vs 3% (intra-lexicales) – Hommes 8,2 (hésitations) vs 0,5% (intra-lexicales) – Femmes Hypothèse: Les hésitations sont produites avec un contrôle réduit de la phonation, et sujettes à une production non modale (creaky, breathy). F0Moy E-Type Hésitations hommes 155 97,3 femmes 179 68,5 Schwa hommes 114 48,6 femmes 192 38,3 Eu-fermé hommes 144 45,4 femmes 219 56
Paramètres étudiés : le timbre F1, F2, F3 : Ouvert/fermé (F1) : les hésitations sont plus ouvertes (mais il faut tenir compte des effets liés à la durée – cf. communication de C. Gendrot & M. Adda-Decker). Antérieur/postérieur (F2) : Distribution des moyennes similaire pour voyelles d’hésitation/voyelles du système. Étiré/arrondi (F3) : moyennes de 2500Hz pour les hésitations et les voyelles intra lexicales (cf. C. Gendrot & M. Adda-Decker). Hésitations H / F [ə - œ] H / F réf. Calliope - Fant [ø] H / F F1 F2 470/523 1464/1659 404/523 500/550 1421/1659 1450/1650 382/430 400/450 1465/1666
Conclusions Observations acoustiques Tests de perception Plaident en faveur de l’existence d’informations spécifiques à la langue dans les hésitations autonomes. Tests de perception Confirment que les différences acoustiques observées sont perçues par les auditeurs. Par conséquent : Approfondir la modélisation de ces phénomènes pour chaque langue Exploiter ces indices dans l’identification automatique de la langue
Perspectives Acoustique Perception comparer voyelle d’hésitation vs voyelle du système vocalique (intra-lexicale) rapport hésitation autonome / hésitations « mots outils figés » (roumain, japonais, etc.) hésitations autonomes vs allongements vocaliques d’une voyelle finale Perception L2’/L2 pour des locuteurs de langue L1.