Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05
Contenus linguistiques: verbal prosodique langue Contenus non-linguistiques Locuteur, variété de langue Émotion, expression Style de parole Canal acoustique Evaluation de l'intelligibilité transmission, perception, production Matériaux et tests
Contenus linguistiques
Contenu linguistique 1 Contenu verbal (segmental) Ce qui peut être noté par écrit ? phonèmes, syllabes, mots ? est-ce que tout est prononcé ? Ça dépend… peut-on comprendre un mot sans percevoir ses constituants ? peut-on percevoir les constituants sans percevoir le mot ? Le Sens ? sens intrinsèque (cf dictionnaire) ? ou fonction du contexte et de la situation ?
Contenu linguistique 2 Contenu intonatif (suprasegmental) La prosodie : l'ensemble des variations du signal (hauteur, durée, intensité, timbre) pour un même contenu segmental. L'intonation : celles de ces variations qui sont pertinentes sur le plan linguistique: la phrase et ses composants, groupes prosodiques, limites des groupes, hiérarchisation, assertion, question… Prédominance de F0. Problèmes : - comment noter l'intonation ? ToBI: Tones and Break Indices IntSint: INternational Transcription System for INTonation - comment l'évaluer isolément ? Information linguistique, para-linguistique, extra-linguistique
Contenu linguistique 3 La langue : un contenant plutôt qu'un contenu ? Un problème nouveau : l'identification des langues - par l'homme : limitation aux langues qu'il connaît, indices de différents niveaux - par la machine : pas de limite en nombre de langues, indices à définir Aspect acoustique : différents modèles de phonèmes Aspect phonotactique : statistiques des phonèmes et des multigrammes phonétiques Aspect prosodique : à l'étude ; mélange avec les indices manifestant d'autres types d'information
Contenus non-linguistiques
Contenu non-linguistique 1 : identité du locuteur Indices de multiples niveaux acoustique : échelle formantique (sexe, genre, individu) phonétique : manières de prononcer, défauts spécifiques lexical : choix de certains mots ou expressions prosodique : caractères spécifiques timbre, mode de voix habituel Problématique humaine petit nombre de voix familières ou remarquables rôle de la situation : locuteur souvent prévisible le problème des imitateurs : caricature plus que ressemblance Problématique machine identification (ensemble fini) vs vérification (locuteur coopératif) distinguer : dépendant / indépendant du texte Vérification: Equal Error Rate ( %fausses alarmes = %fausses reconnaissances) de l'ordre de quelques %
Contenu non-linguistique 2 : variété de langue Indices indices de divers niveaux adoptés et reconnus par tous les membres d'un même groupe linguistique Problématique humaine dialectes, sociolectes, idiolectes : marques d'appartenance à un groupe perçus comme simple variantes par les auditeurs extérieurs au groupe Problématique machine peu avancée; comment poser le problème ? complémentaire de l'identification de la langue
Contenu non-linguistique 3 : émotion et expression L'émotion interaction état interne (physique, psychique), monde externe problèmes : difficulté de définir un répertoire d'émotions : nombre ? émotions primaires ? composées ? impossibilité éthique d'expérimenter sur les émotions (sauf 'rejouer' une émotion réellement vécue) l'acteur 'interprète' des émotions – les ressent ? manifestation essentiellement prosodique l'émotion tend à occulter les autres différences vocales. Universalité ? L'expression terme plus neutre : manifestation dirigée vers un auditeur comment la caractériser ?
Contenu non-linguistique 3 : l’effort vocal Locuteur assis, à 30 cm d'un micro omnidirectionnel (LEM DO21B), dans une pièce meublée. Niveau d'entrée figé L'opérateur se situe successivement à 1.5 m (condition Normal), 0.4 m (condition Close), 6 m (condition Far) En chaque position: l'opérateur prononce une phrase, à un niveau qui lui semble adapté à la distance le locuteur répète la phrase, idem l'opérateur prononce une voyelle isolée le locuteur répète cette voyelle on itère sur toutes les voyelles
Résultats sur l'effort vocal L'effort vocal, dans des conditions usuelles de conversation, se traduit par 4 effets sur la structure spectrale des voyelles: l'amplitude augmente de 3 à 6 dB quand on double la distance à l'allocutaire l'amplitude des formants augmente plus vite que le niveau total (spectral tilt): A+10 --> A1+11, A2+12.4, A3+13 dB F0 augmente avec l'EV: 5.1 Hz/dB --> effet le plus important F1 augmente avec l'EV: 3.5 Hz/dB amplitude: indice peu fiable F0 et Ai: indices propres au locuteur F1: indice propre au système phonétique
Perception de l'effort vocal Dans les conditions usuelles de la conversation, l'auditeur n'est pas conscient de l'EV du locuteur, dès lors que celui-ci est adapté à la situation. On le remarque quand il est inadapté L'EV n'est pas mesurable en l'absence des autres descripteurs. Il se traduit par un pattern de déformation du signal. Ce pattern est redondant (-->robuste) l'EV est lui-même un trait utilisé pour élaborer d'autres informations, linguistiques ou non: accent prosodique (en conjonction ou non avec une action sur F0 et durée) caractéristique du locuteur (voix forte ou faible) distance marquée par le locuteur vis-à-vis de l'allocutaire
Contenu non-linguistique 4 : le style de parole Hypothèses il existe un "style de parole" adapté à chaque situation de communication. le nombre de ces situations-types est limité. le répertoire des styles fait l'objet d'une convention implicite entre tous les membres d'un groupe social donné. Exemples conversation en tête-à-tête cours dans une classe primaire commentaire sportif dispute familiale prêche lecture à voix haute … Travail à faire répertorier situations-types associer à chacune des règles verbales et prosodiques
Contenu non-linguistique 5 : les conditions acoustiques Distance locuteur – auditeur (microphone) Microphone : caractéristiques, position Bruit de fond, scène acoustique Echos et Réverbération
De la difficulté de l'évaluation (perceptive ou automatique) Trois problèmes majeurs tous les aspects sont mélangés dans le signal la notation n'est possible que pour certains aspects la communication parlée est une activité située Dilemme: pour mesurer (évaluer) un aspect il faut l'isoler des autres. Est-ce possible sans changer la nature même du signal ? Peut-on considérer ensemble tous les aspects du signal ? multicatégorisation vs catégorisation
exemple d'étude: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles
Objectif et corpus Caractériser un style d'élocution "lecture à voix haute" même texte ensemble homogène de lecteurs mêmes conditions d'élocution même consigne Et ses variations - existe-t-il une "réalisation moyenne" ? - où se placent les variations individuelles ? Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson Corpus Leblanc - 48 locutrices, étudiantes psycho Nanterre - 2 élocutions - texte présenté en un seul paragraphe séquence référence (07)
Répartition des pauses La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où sur ponctuations secondaires sur ruptures de sens sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice
Noyaux et groupes vocaliques, indices prosodiques Noyau vocalique NV segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. limites à –3 dB ce n'est pas une "voyelle phonétique" Groupe vocalique GV segment compris entre deux minima d'énergie BF, hors pauses approximation: mi-distance de deux centres NV successifs ce n'est pas une "syllabe phonétique" Indices prosodiques (définis pour chaque GV) F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz dF0 différence F0 (fin NV) – F0 (début NV) intensité au centre du NV, en dB Durée durée du GV
Calcul d'une prosodie moyenne Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage (pour interprétation visuelle) Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus
F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée F0 (st) Al dF0 (st) int (dB) dur (s) Q
Prosodie moyenne Trois grands types de groupes prosodiques pour ce corpus Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle
Variantes individuelles Pour chaque indice, deux types de dissemblances entre séquences: Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution
Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)
Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée
Conclusions L'approche proposée Style d'élocution Langue, dialecte Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental)
Evaluation de l'intelligibilité
Trois points de vue sur l'intelligibilité Théorie de l'information Intelligibilité de transmission, de perception, de production
Compréhension, intelligibilité, netteté Compréhension: comprendre le sens, en situation Intelligibilité: reconnaître les mots, hors situation Netteté: reconnaître les phonèmes, syllabes ou VCV, hors situation et hors lexique
Intelligibilité de transmission Canal simple: appareillage électro-acoustique altérations usuelles: bruit de fond, distorsions fréquentielles Canal multiple: salle autant de canaux que de couples orateur-auditeur altérations usuelles: échos, réverbération, bruits Evaluation entrée canal : listes d'éléments parlés de référence sortie canal : comptage des réponses d'un ensemble d'auditeurs mise en œuvre longue et difficile recherche de critères physiques: indices fréquentiels, rapport S/B, premières réflexions, temps de réverbération, résolution spectro-temporelle…
L'intelligibilité dépend du rapport signal/bruit et du contenu des mots
L'intelligibilité dépend aussi de la taille du vocabulaire
L'intelligibilité dépend de la nature des unités linguistiques Indice d'articulation: fonction normalisée (statistique) du rapport signal/bruit
Intelligibilité de perception Concerne un auditeur particulier malentendant, ou normo-entendant placé dans des conditions difficiles Altérations de l'audition atténuation: globale ou sélective en fréquence bruits perturbateurs: acouphènes diminution de la résolution spectro-temporelle du codage ? Evaluation l'audiogramme n'indique que les seuils d'audibilité audiométrie vocale, dans le silence ou en présence de bruit on cherche à établir un diagnostic, mais dans quels aspects du signal se trouve l'information de la parole ? comment est-elle perçue "normalement" ?
Courbe d'intelligibilité vocale Paramètres : le seuil d'intelligibilité : niveau auquel la performance est de 50% ; la pente de la courbe ; le maximum d'intelligibilité ; le pourcentage de discrimination : performance à 35 dB au-dessus du seuil ; le seuil de distorsion : niveau auquel les performances commencent à décliner. 10 20 30 40 50 60 70 80 90 100 5 15 25 35 45 Niveau du stimulus Performance (%) -10 -5 0 5 10 15 20 25 30 35 dB HL
Facteurs influençant l'intelligibilité vocale Différents types de courbes d’intelligibilité a/ Courbe normale, mots dissyllabiques b/ Courbe décalée et redressée c/ Courbe décalée, parallèle d/ Courbe décalée et inclinée e/ Courbe décalée, inclinée ; maximum à plus faible niveau f/ Courbe de type e/ + diminution des performances pour des niveaux élevés
Les matériaux de test Selon le niveau d'abstraction que l'on veut évaluer Niveaux acoustico-phonétiques (1 à 4) logatomes Mots Niveaux acoustico-phonétique + lexical (accès au lexique) Niveaux acoustico-phonétiques, lexical, sémantique (compréhension) Phrases, actions ?
Perception acoustico-phonétique On veut mesurer la netteté, sans influence du lexique ni du sens Logatomes : syllabes sans signification, espéranto - exemples : zos, trag, fim, vlek, jop, frad … - Nécessite un auditoire entraîné (transmission : téléphonie) Segments VCV Voyelle-Consonne-Voyelle - exemples : /ata/ /ara/ /imi/ …. en français 15 voyelles, 17 consonnes 255 VCV on se limite souvent à 3 voyelles, soit 51 VCV
Perception acoustico-phonétique Diagnostic Rhyme Test (Voiers 70') ou test de diagnostic par paires minimales Pair Voicing Compactness Acuteness Interrupted… PILL TILL X BEAR PAIR X TEAR DEAR X DULL BULL X KILL TILL X SIP TIP X … - Consonne initiale - différence minimale: 1 trait distinctif - test rapide, permet évaluation et diagnostic - sujets non-spécialistes ---> limites: celles mêmes de la notion de trait distinctif
Intelligibilité de production Le problème tous les locuteurs ne sont pas également intelligibles mais on ne s'en rend pas compte dans les conditions usuelles Mise en évidence dans des conditions difficiles: bruit, réverbération pour certains styles de voix: voix criée, articulation relâchée ou rapide dans une langue étrangère mal maîtrisée quand on est malentendant Evaluation on évalue un locuteur et un style de voix sujet peu étudié nécessite un groupe d'auditeurs de référence
Qualités d'un test d'intelligibilité Représentativité pas de test universel: définir d'abord le problème, ensuite le test qui représente celui-ci au mieux l'intelligibilité n'est qu'un aspect de la communication orale Validité statistique fonction des conditions de passation, du nombre d'items, du nombre d'auditeurs… Rapidité passation rapide dépouillement automatisé