La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière.

Présentations similaires


Présentation au sujet: "Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière."— Transcription de la présentation:

1 Chapitre Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

2 Contenus linguistiques: verbal prosodique langue Contenus non-linguistiques Locuteur, variété de langue Émotion, expression Style de parole Canal acoustique Evaluation de l'intelligibilité transmission, perception, production Matériaux et tests

3 Contenus linguistiques

4 Contenu linguistique 1 Contenu verbal (segmental)  Ce qui peut être noté par écrit ? - phonèmes, syllabes, mots ? - est-ce que tout est prononcé ? Ça dépend… - peut-on comprendre un mot sans percevoir ses constituants ? - peut-on percevoir les constituants sans percevoir le mot ?  Le Sens ? - sens intrinsèque (cf dictionnaire) ? - ou fonction du contexte et de la situation ?

5 Contenu linguistique 2 Contenu intonatif (suprasegmental) La prosodie : l'ensemble des variations du signal (hauteur, durée, intensité, timbre) pour un même contenu segmental. L'intonation : celles de ces variations qui sont pertinentes sur le plan linguistique: la phrase et ses composants, groupes prosodiques, limites des groupes, hiérarchisation, assertion, question… Prédominance de F0. Problèmes : - comment noter l'intonation ? ToBI: Tones and Break Indices IntSint: INternational Transcription System for INTonation - comment l'évaluer isolément ? Information linguistique, para-linguistique, extra-linguistique

6 Contenu linguistique 3 La langue : un contenant plutôt qu'un contenu ? Un problème nouveau : l'identification des langues - par l'homme : limitation aux langues qu'il connaît, indices de différents niveaux - par la machine : pas de limite en nombre de langues, indices à définir Aspect acoustique : différents modèles de phonèmes Aspect phonotactique : statistiques des phonèmes et des multigrammes phonétiques Aspect prosodique : à l'étude ; mélange avec les indices manifestant d'autres types d'information

7 Contenus non-linguistiques

8 Contenu non-linguistique 1 : identité du locuteur Indices de multiples niveaux - acoustique : échelle formantique (sexe, genre, individu) - phonétique : manières de prononcer, défauts spécifiques - lexical : choix de certains mots ou expressions - prosodique : caractères spécifiques - timbre, mode de voix habituel Problématique humaine - petit nombre de voix familières ou remarquables - rôle de la situation : locuteur souvent prévisible - le problème des imitateurs : caricature plus que ressemblance Problématique machine - identification (ensemble fini) vs vérification (locuteur coopératif) - distinguer : dépendant / indépendant du texte - Vérification: Equal Error Rate ( %fausses alarmes = %fausses reconnaissances) de l'ordre de quelques %

9 Contenu non-linguistique 2 : variété de langue Indices - indices de divers niveaux adoptés et reconnus par tous les membres d'un même groupe linguistique Problématique humaine - dialectes, sociolectes, idiolectes : marques d'appartenance à un groupe - perçus comme simple variantes par les auditeurs extérieurs au groupe Problématique machine - peu avancée; comment poser le problème ? - complémentaire de l'identification de la langue

10 Contenu non-linguistique 3 : émotion et expression L'émotion - interaction état interne (physique, psychique), monde externe - problèmes : - difficulté de définir un répertoire d'émotions : nombre ? émotions primaires ? composées ? - impossibilité éthique d'expérimenter sur les émotions (sauf 'rejouer' une émotion réellement vécue) - l'acteur 'interprète' des émotions – les ressent ? - manifestation essentiellement prosodique - l'émotion tend à occulter les autres différences vocales. Universalité ? L'expression - terme plus neutre : manifestation dirigée vers un auditeur - comment la caractériser ?

11 Locuteur assis, à 30 cm d'un micro omnidirectionnel (LEM DO21B), dans une pièce meublée. Niveau d'entrée figé L'opérateur se situe successivement à 1.5 m (condition Normal), 0.4 m (condition Close), 6 m (condition Far) En chaque position: – –l'opérateur prononce une phrase, à un niveau qui lui semble adapté à la distance – –le locuteur répète la phrase, idem – –l'opérateur prononce une voyelle isolée – –le locuteur répète cette voyelle – –on itère sur toutes les voyelles Contenu non-linguistique 3 : l’effort vocal

12 Résultats sur l'effort vocal L'effort vocal, dans des conditions usuelles de conversation, se traduit par 4 effets sur la structure spectrale des voyelles: – –l'amplitude augmente de 3 à 6 dB quand on double la distance à l'allocutaire – –l'amplitude des formants augmente plus vite que le niveau total (spectral tilt): A+10 --> A1+11, A2+12.4, A3+13 dB – –F0 augmente avec l'EV: 5.1 Hz/dB --> effet le plus important – –F1 augmente avec l'EV: 3.5 Hz/dB amplitude: indice peu fiable F0 et Ai: indices propres au locuteur F1: indice propre au système phonétique

13 Perception de l'effort vocal Dans les conditions usuelles de la conversation, l'auditeur n'est pas conscient de l'EV du locuteur, dès lors que celui-ci est adapté à la situation. On le remarque quand il est inadapté L'EV n'est pas mesurable en l'absence des autres descripteurs. Il se traduit par un pattern de déformation du signal. Ce pattern est redondant (-->robuste) l'EV est lui-même un trait utilisé pour élaborer d'autres informations, linguistiques ou non: – – accent prosodique (en conjonction ou non avec une action sur F0 et durée) – – caractéristique du locuteur (voix forte ou faible) – – distance marquée par le locuteur vis-à-vis de l'allocutaire

14 Contenu non-linguistique 4 : le style de parole Hypothèses - i l existe un "style de parole" adapté à chaque situation de communication. - le nombre de ces situations-types est limité. - le répertoire des styles fait l'objet d'une convention implicite entre tous les membres d'un groupe social donné. Exemples - conversation en tête-à-tête - cours dans une classe primaire - commentaire sportif - dispute familiale - prêche - lecture à voix haute … Travail à faire - répertorier situations-types - associer à chacune des règles verbales et prosodiques

15 Contenu non-linguistique 5 : les conditions acoustiques Distance locuteur – auditeur (microphone) Microphone : caractéristiques, position Bruit de fond, scène acoustique Echos et Réverbération

16 De la difficulté de l'évaluation (perceptive ou automatique) Trois problèmes majeurs - tous les aspects sont mélangés dans le signal - la notation n'est possible que pour certains aspects - la communication parlée est une activité située Dilemme: pour mesurer (évaluer) un aspect il faut l'isoler des autres. Est-ce possible sans changer la nature même du signal ? Peut-on considérer ensemble tous les aspects du signal ?  multicatégorisation vs catégorisation

17 exemple d'étude: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles

18 Caractériser un style d'élocution "lecture à voix haute" -même texte -ensemble homogène de lecteurs -mêmes conditions d'élocution -même consigne Et ses variations -existe-t-il une "réalisation moyenne" ? -où se placent les variations individuelles ? Objectif et corpus Corpus Leblanc -48 locutrices, étudiantes psycho Nanterre -2 élocutions -texte présenté en un seul paragraphe Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson séquence référence (07)

19 Répartition des pauses La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations  respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où  sur ponctuations secondaires  sur ruptures de sens  sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice

20 Noyau vocalique NV -segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. -limites à –3 dB -ce n'est pas une "voyelle phonétique" Groupe vocalique GV -segment compris entre deux minima d'énergie BF, hors pauses -approximation: mi-distance de deux centres NV successifs -ce n'est pas une "syllabe phonétique" Indices prosodiques Indices prosodiques (définis pour chaque GV) -F0 -F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz -dF0 -dF0 différence F0 (fin NV) – F0 (début NV) -intensité -intensité au centre du NV, en dB -Durée -Durée durée du GV Noyaux et groupes vocaliques, indices prosodiques

21 Choix d'une séquence de référence Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage Etiquetage (pour interprétation visuelle) Rétro-étiquetage Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus Calcul d'une prosodie moyenne

22 Al Q F0 (st) dF0 (st) int (dB) dur (s) F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée

23 Trois grands types de groupes prosodiques pour ce corpus Grands groupes Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle Prosodie moyenne

24 deux types de dissemblances entre séquences: Pour chaque indice, deux types de dissemblances entre séquences: Décalage Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences deux mesures Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) forme d'ensemble du spectre Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages  différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils  différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution Variantes individuelles

25 Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)

26 Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

27 L'approche proposée Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes  groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental) Conclusions

28 Evaluation de l'intelligibilité

29 Trois points de vue sur l'intelligibilité Théorie de l'informationThéorie de l'information Intelligibilité de transmission, de perception, de production

30 Compréhension, intelligibilité, netteté Compréhension:Compréhension: comprendre le sens, en situation Intelligibilité:Intelligibilité: reconnaître les mots, hors situation Netteté:Netteté: reconnaître les phonèmes, syllabes ou VCV, hors situation et hors lexique

31 Canal simple: appareillage électro-acoustiqueCanal simple: appareillage électro-acoustique - altérations usuelles: bruit de fond, distorsions fréquentielles Canal multiple: salleCanal multiple: salle - autant de canaux que de couples orateur-auditeur - altérations usuelles: échos, réverbération, bruits EvaluationEvaluation - entrée canal : listes d'éléments parlés de référence - sortie canal : comptage des réponses d'un ensemble d'auditeurs - mise en œuvre longue et difficile - recherche de critères physiques: indices fréquentiels, rapport S/B, premières réflexions, temps de réverbération, résolution spectro-temporelle… Intelligibilité de transmission

32 L'intelligibilité dépend du rapport signal/bruit et du contenu des mots

33 L'intelligibilité dépend aussi de la taille du vocabulaire

34 L'intelligibilité dépend de la nature des unités linguistiques Indice d'articulation: fonction normalisée (statistique) du rapport signal/bruit

35 Concerne un auditeur particulierConcerne un auditeur particulier - malentendant, ou normo-entendant placé dans des conditions difficiles Altérations de l'auditionAltérations de l'audition - atténuation: globale ou sélective en fréquence - bruits perturbateurs: acouphènes - diminution de la résolution spectro-temporelle du codage ? EvaluationEvaluation - l'audiogramme n'indique que les seuils d'audibilité - audiométrie vocale, dans le silence ou en présence de bruit - on cherche à établir un diagnostic, mais - dans quels aspects du signal se trouve l'information de la parole ? - comment est-elle perçue "normalement" ? Intelligibilité de perception

36 Courbe d'intelligibilité vocale Paramètres : le seuil d'intelligibilité : niveau auquel la performance est de 50% ; la pente de la courbe ; le maximum d'intelligibilité ; le pourcentage de discrimination : performance à 35 dB au-dessus du seuil ; le seuil de distorsion : niveau auquel les performances commencent à décliner Niveau du stimulus Performance (%) dB HL

37 Facteurs influençant l'intelligibilité vocale Différents types de courbes d’intelligibilité a/ Courbe normale, mots dissyllabiques b/ Courbe décalée et redressée c/ Courbe décalée, parallèle d/ Courbe décalée et inclinée e/ Courbe décalée, inclinée ; maximum à plus faible niveau f/ Courbe de type e/ + diminution des performances pour des niveaux élevés

38 Les matériaux de test Selon le niveau d'abstraction que l'on veut évaluer Niveaux acoustico-phonétiques (1 à 4) logatomes Mots Niveaux acoustico-phonétique + lexical (accès au lexique) Mots Niveaux acoustico-phonétiques, lexical, sémantique (compréhension) Phrases, actions ?

39 On veut mesurer la netteté, sans influence du lexique ni du sens Logatomes : syllabes sans signification, espéranto - exemples : zos, trag, fim, vlek, jop, frad … - Nécessite un auditoire entraîné (transmission : téléphonie) Segments VCV Voyelle-Consonne-Voyelle - exemples : /ata/ /ara/ /imi/ …. - en français 15 voyelles, 17 consonnes  255 VCV - on se limite souvent à 3 voyelles, soit 51 VCV Perception acoustico-phonétique

40 Diagnostic Rhyme Test (Voiers 70') ou test de diagnostic par paires minimales PairVoicing CompactnessAcuteness Interrupted… PILLTILL X BEARPAIR X TEARDEAR X DULLBULL X KILLTILL X SIPTIP X … - Consonne initiale - différence minimale: 1 trait distinctif - test rapide, permet évaluation et diagnostic - sujets non-spécialistes ---> limites: celles mêmes de la notion de trait distinctif Perception acoustico-phonétique

41 Le problème Le problème - tous les locuteurs ne sont pas également intelligibles - mais on ne s'en rend pas compte dans les conditions usuelles Mise en évidence Mise en évidence - dans des conditions difficiles: bruit, réverbération - pour certains styles de voix: voix criée, articulation relâchée ou rapide - dans une langue étrangère mal maîtrisée - quand on est malentendant Evaluation Evaluation - on évalue un locuteur et un style de voix - sujet peu étudié - nécessite un groupe d'auditeurs de référence Intelligibilité de production

42 Représentativité Représentativité - pas de test universel: définir d'abord le problème, ensuite le test qui représente celui-ci au mieux - l'intelligibilité n'est qu'un aspect de la communication orale Validité statistique Validité statistique - fonction des conditions de passation, du nombre d'items, du nombre d'auditeurs… Rapidité Rapidité - passation rapide - dépouillement automatisé Qualités d'un test d'intelligibilité

43


Télécharger ppt "Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière."

Présentations similaires


Annonces Google