Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique

Slides:



Advertisements
Présentations similaires
LANGUES VIVANTES à l’Ecole Primaire
Advertisements

Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
But de la lecture critique
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Proposition de stratégie
Exemple : Itinéraire de lecture.
Définition Contraintes / Astreintes Taches / Activités
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Rénovation STMG : programme de Management
EVALUATIONS NATIONALES CM2
Apprendre à lire.
La maîtrise de la langue orale en maternelle
Apprentissage continué de la lecture au Cycle 2
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Évaluer pour faire apprendre dans une approche par compétences
Exemple d’utilisation d’un album
Hésitations autonomes en 8 langues :
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Apprentissages scolaires
Iryna Lehka, David Le Gac Laboratoire DYALANG, Université de Rouen
Chapitre Perception Naturelle et Artificielle de la Parole
Le cahier de charge d'un système de RAP
Recherche Documentaire et traitement de l’information
Introduction à la sociolinguistique
L.v.A. Langue vivante approfondie
Cadre européen commun de référence pour les langues
Maîtrise de la langue française
Conscience phonologique
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
États du larynx Phonologie Théories et traits Règles phonologiques
La motivation et l’engagement dans les tâches de lecture
Chapitre 2 La description du langage
Intensité – Ondes sonores
Caractéristiques et interventions
Chapitre Théories et modèles perceptifs
Chapitre Analyse de scènes auditives
La communication orale FLORENCE CAUHÉPÉ
Existe-t-il une rééducation de la dyslexie ?
Les classes de collèges et de lycées
Master 1 – Sciences du Langage –
Chapitre 11 La méthode SGAV: Objet structuro-globale audio-visuelle
Notions fondamentales en linguistique
La perception de la parole
Gérer efficacement ma nouvelle entreprise Programme court en entrepreneuriat Moi et mon entreprise!
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
GSD langue française - Boumerdès 19 et 30 avril 2013
Réponses à la commande Lecture de quelques projets de centre Analyse et interrogations Document-projet vs projet vécu.
Relation d’apprentissage A-Rôle de L1: la L2 est forcément apprise à travers des comparaisons avec la L1 Activités pédagogiques: tout ce qui implique la.
LA COMPREHENSION 10 Décembre REFLEXIONS PREALABLES Récolter/recueillir des informations  Aspect fonctionnel, nécessaire mais pas exclusif.  Mobiliser.
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
L ’apport du son gt/isac_9920_04. Son/image L ’appréhension du phénomène auditif est plus abstrait que le phénomène visuel. Ex : le son d ’un galop de.
Micro-intro aux stats.
Spécificités de la communication orale
Des activités à ritualiser
DEVELOPPEMENT DU LANGAGE
Bianca Vieru-Dimulescu encadrant : Philippe Boula de Mareüil
Video.
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
MAITRISE DE LA LANGUE FRANCAISE A LA MATERNELLE
PRATIQUES LANGAGIERES
Chapitre 3 suite Acoustique musicale
PPRE Situation : Elève CP fin janvier Problème de déchiffrage.
LVE au cycle 3: nouveaux programmes Les programmes sont établis à partir du CECRL ( Cadre Commun de Référence pour les Langues): Le cadre définit des niveaux.
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

Contenus linguistiques: verbal prosodique langue   Contenus non-linguistiques Locuteur, variété de langue Émotion, expression Style de parole Canal acoustique Evaluation de l'intelligibilité transmission, perception, production Matériaux et tests

Contenus linguistiques

Contenu linguistique 1 Contenu verbal (segmental) Ce qui peut être noté par écrit ? phonèmes, syllabes, mots ? est-ce que tout est prononcé ? Ça dépend… peut-on comprendre un mot sans percevoir ses constituants ? peut-on percevoir les constituants sans percevoir le mot ? Le Sens ? sens intrinsèque (cf dictionnaire) ? ou fonction du contexte et de la situation ?

Contenu linguistique 2 Contenu intonatif (suprasegmental) La prosodie : l'ensemble des variations du signal (hauteur, durée, intensité, timbre) pour un même contenu segmental. L'intonation : celles de ces variations qui sont pertinentes sur le plan linguistique: la phrase et ses composants, groupes prosodiques, limites des groupes, hiérarchisation, assertion, question… Prédominance de F0. Problèmes : - comment noter l'intonation ? ToBI: Tones and Break Indices IntSint: INternational Transcription System for INTonation - comment l'évaluer isolément ? Information linguistique, para-linguistique, extra-linguistique

Contenu linguistique 3 La langue : un contenant plutôt qu'un contenu ? Un problème nouveau : l'identification des langues - par l'homme : limitation aux langues qu'il connaît, indices de différents niveaux - par la machine : pas de limite en nombre de langues, indices à définir Aspect acoustique : différents modèles de phonèmes Aspect phonotactique : statistiques des phonèmes et des multigrammes phonétiques Aspect prosodique : à l'étude ; mélange avec les indices manifestant d'autres types d'information

Contenus non-linguistiques

Contenu non-linguistique 1 : identité du locuteur Indices de multiples niveaux acoustique : échelle formantique (sexe, genre, individu) phonétique : manières de prononcer, défauts spécifiques lexical : choix de certains mots ou expressions prosodique : caractères spécifiques timbre, mode de voix habituel Problématique humaine petit nombre de voix familières ou remarquables rôle de la situation : locuteur souvent prévisible le problème des imitateurs : caricature plus que ressemblance Problématique machine identification (ensemble fini) vs vérification (locuteur coopératif) distinguer : dépendant / indépendant du texte Vérification: Equal Error Rate ( %fausses alarmes = %fausses reconnaissances) de l'ordre de quelques %

Contenu non-linguistique 2 : variété de langue Indices indices de divers niveaux adoptés et reconnus par tous les membres d'un même groupe linguistique Problématique humaine dialectes, sociolectes, idiolectes : marques d'appartenance à un groupe perçus comme simple variantes par les auditeurs extérieurs au groupe Problématique machine peu avancée; comment poser le problème ? complémentaire de l'identification de la langue

Contenu non-linguistique 3 : émotion et expression L'émotion interaction état interne (physique, psychique), monde externe problèmes : difficulté de définir un répertoire d'émotions : nombre ? émotions primaires ? composées ? impossibilité éthique d'expérimenter sur les émotions (sauf 'rejouer' une émotion réellement vécue) l'acteur 'interprète' des émotions – les ressent ? manifestation essentiellement prosodique l'émotion tend à occulter les autres différences vocales. Universalité ? L'expression terme plus neutre : manifestation dirigée vers un auditeur comment la caractériser ?

Contenu non-linguistique 3 : l’effort vocal Locuteur assis, à 30 cm d'un micro omnidirectionnel (LEM DO21B), dans une pièce meublée. Niveau d'entrée figé L'opérateur se situe successivement à 1.5 m (condition Normal), 0.4 m (condition Close), 6 m (condition Far) En chaque position: l'opérateur prononce une phrase, à un niveau qui lui semble adapté à la distance le locuteur répète la phrase, idem l'opérateur prononce une voyelle isolée le locuteur répète cette voyelle on itère sur toutes les voyelles

Résultats sur l'effort vocal L'effort vocal, dans des conditions usuelles de conversation, se traduit par 4 effets sur la structure spectrale des voyelles: l'amplitude augmente de 3 à 6 dB quand on double la distance à l'allocutaire l'amplitude des formants augmente plus vite que le niveau total (spectral tilt): A+10 --> A1+11, A2+12.4, A3+13 dB F0 augmente avec l'EV: 5.1 Hz/dB --> effet le plus important F1 augmente avec l'EV: 3.5 Hz/dB amplitude: indice peu fiable F0 et Ai: indices propres au locuteur F1: indice propre au système phonétique

Perception de l'effort vocal Dans les conditions usuelles de la conversation, l'auditeur n'est pas conscient de l'EV du locuteur, dès lors que celui-ci est adapté à la situation. On le remarque quand il est inadapté L'EV n'est pas mesurable en l'absence des autres descripteurs. Il se traduit par un pattern de déformation du signal. Ce pattern est redondant (-->robuste) l'EV est lui-même un trait utilisé pour élaborer d'autres informations, linguistiques ou non: accent prosodique (en conjonction ou non avec une action sur F0 et durée) caractéristique du locuteur (voix forte ou faible) distance marquée par le locuteur vis-à-vis de l'allocutaire

Contenu non-linguistique 4 : le style de parole Hypothèses il existe un "style de parole" adapté à chaque situation de communication. le nombre de ces situations-types est limité. le répertoire des styles fait l'objet d'une convention implicite entre tous les membres d'un groupe social donné. Exemples conversation en tête-à-tête cours dans une classe primaire commentaire sportif dispute familiale prêche lecture à voix haute … Travail à faire répertorier situations-types associer à chacune des règles verbales et prosodiques

Contenu non-linguistique 5 : les conditions acoustiques Distance locuteur – auditeur (microphone) Microphone : caractéristiques, position Bruit de fond, scène acoustique Echos et Réverbération

De la difficulté de l'évaluation (perceptive ou automatique) Trois problèmes majeurs tous les aspects sont mélangés dans le signal la notation n'est possible que pour certains aspects la communication parlée est une activité située Dilemme: pour mesurer (évaluer) un aspect il faut l'isoler des autres. Est-ce possible sans changer la nature même du signal ? Peut-on considérer ensemble tous les aspects du signal ? multicatégorisation vs catégorisation

exemple d'étude: Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles

Objectif et corpus Caractériser un style d'élocution "lecture à voix haute" même texte ensemble homogène de lecteurs mêmes conditions d'élocution même consigne Et ses variations - existe-t-il une "réalisation moyenne" ? - où se placent les variations individuelles ? Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson Corpus Leblanc - 48 locutrices, étudiantes psycho Nanterre - 2 élocutions - texte présenté en un seul paragraphe séquence référence (07)

Répartition des pauses La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où sur ponctuations secondaires sur ruptures de sens sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice

Noyaux et groupes vocaliques, indices prosodiques Noyau vocalique NV segment centré sur un maximum de la fonction d'énergie BF (<1 kHz) évaluée sur fenêtre 50 ms. limites à –3 dB ce n'est pas une "voyelle phonétique" Groupe vocalique GV segment compris entre deux minima d'énergie BF, hors pauses approximation: mi-distance de deux centres NV successifs ce n'est pas une "syllabe phonétique" Indices prosodiques (définis pour chaque GV) F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz dF0 différence F0 (fin NV) – F0 (début NV) intensité au centre du NV, en dB Durée durée du GV

Calcul d'une prosodie moyenne Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage (pour interprétation visuelle) Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus

F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée F0 (st) Al dF0 (st) int (dB) dur (s) Q

Prosodie moyenne Trois grands types de groupes prosodiques pour ce corpus Grands groupes (entre deux pauses: "groupes de souffle" ?) découpage visible sur tous les indices double déclinaison (F0, intensité) marqueur de fin de groupe, sur les derniers GV Petits groupes: "mots prosodiques" ? concerne un petit nombre de GV: 1 à 4 se manifeste surtout dans F0 et durée structure unitaire propre à la langue ou au dialecte ? Groupes intermédiaires: "groupes de sens" ? soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle

Variantes individuelles Pour chaque indice, deux types de dissemblances entre séquences: Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences Pour chacun des indices prosodiques on a défini deux mesures: en décalage (DF0, DdF0, Dint, Ddur) en profil (PF0, PdF0, Pint, Ddur) Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 Décalages  différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution Profils  différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution

Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)

Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

Conclusions L'approche proposée Style d'élocution Langue, dialecte Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) Style d'élocution Importance du placement des pauses (grands groupes) Intérêt d'étudier la transition grands groupes  groupes intermédiaires Structures multi-indicielles des 3 types de groupes Langue, dialecte Voir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental)

Evaluation de l'intelligibilité

Trois points de vue sur l'intelligibilité Théorie de l'information Intelligibilité de transmission, de perception, de production

Compréhension, intelligibilité, netteté Compréhension: comprendre le sens, en situation Intelligibilité: reconnaître les mots, hors situation Netteté: reconnaître les phonèmes, syllabes ou VCV, hors situation et hors lexique

Intelligibilité de transmission Canal simple: appareillage électro-acoustique altérations usuelles: bruit de fond, distorsions fréquentielles Canal multiple: salle autant de canaux que de couples orateur-auditeur altérations usuelles: échos, réverbération, bruits Evaluation entrée canal : listes d'éléments parlés de référence sortie canal : comptage des réponses d'un ensemble d'auditeurs mise en œuvre longue et difficile recherche de critères physiques: indices fréquentiels, rapport S/B, premières réflexions, temps de réverbération, résolution spectro-temporelle…

L'intelligibilité dépend du rapport signal/bruit et du contenu des mots

L'intelligibilité dépend aussi de la taille du vocabulaire

L'intelligibilité dépend de la nature des unités linguistiques Indice d'articulation: fonction normalisée (statistique) du rapport signal/bruit

Intelligibilité de perception Concerne un auditeur particulier malentendant, ou normo-entendant placé dans des conditions difficiles Altérations de l'audition atténuation: globale ou sélective en fréquence bruits perturbateurs: acouphènes diminution de la résolution spectro-temporelle du codage ? Evaluation l'audiogramme n'indique que les seuils d'audibilité audiométrie vocale, dans le silence ou en présence de bruit on cherche à établir un diagnostic, mais dans quels aspects du signal se trouve l'information de la parole ? comment est-elle perçue "normalement" ?

Courbe d'intelligibilité vocale Paramètres : le seuil d'intelligibilité : niveau auquel la performance est de 50% ; la pente de la courbe ; le maximum d'intelligibilité ; le pourcentage de discrimination : performance à 35 dB au-dessus du seuil ; le seuil de distorsion : niveau auquel les performances commencent à décliner. 10 20 30 40 50 60 70 80 90 100 5 15 25 35 45 Niveau du stimulus Performance (%) -10 -5 0 5 10 15 20 25 30 35 dB HL

Facteurs influençant l'intelligibilité vocale Différents types de courbes d’intelligibilité a/ Courbe normale, mots dissyllabiques b/ Courbe décalée et redressée c/ Courbe décalée, parallèle d/ Courbe décalée et inclinée e/ Courbe décalée, inclinée ; maximum à plus faible niveau f/ Courbe de type e/ + diminution des performances pour des niveaux élevés

Les matériaux de test Selon le niveau d'abstraction que l'on veut évaluer Niveaux acoustico-phonétiques (1 à 4) logatomes Mots Niveaux acoustico-phonétique + lexical (accès au lexique) Niveaux acoustico-phonétiques, lexical, sémantique (compréhension) Phrases, actions ?

Perception acoustico-phonétique On veut mesurer la netteté, sans influence du lexique ni du sens Logatomes : syllabes sans signification, espéranto - exemples : zos, trag, fim, vlek, jop, frad … - Nécessite un auditoire entraîné (transmission : téléphonie) Segments VCV Voyelle-Consonne-Voyelle - exemples : /ata/ /ara/ /imi/ …. en français 15 voyelles, 17 consonnes  255 VCV on se limite souvent à 3 voyelles, soit 51 VCV

Perception acoustico-phonétique Diagnostic Rhyme Test (Voiers 70') ou test de diagnostic par paires minimales Pair Voicing Compactness Acuteness Interrupted… PILL TILL X BEAR PAIR X TEAR DEAR X DULL BULL X KILL TILL X SIP TIP X … - Consonne initiale - différence minimale: 1 trait distinctif - test rapide, permet évaluation et diagnostic - sujets non-spécialistes ---> limites: celles mêmes de la notion de trait distinctif

Intelligibilité de production Le problème tous les locuteurs ne sont pas également intelligibles mais on ne s'en rend pas compte dans les conditions usuelles Mise en évidence dans des conditions difficiles: bruit, réverbération pour certains styles de voix: voix criée, articulation relâchée ou rapide dans une langue étrangère mal maîtrisée quand on est malentendant Evaluation on évalue un locuteur et un style de voix sujet peu étudié nécessite un groupe d'auditeurs de référence

Qualités d'un test d'intelligibilité Représentativité pas de test universel: définir d'abord le problème, ensuite le test qui représente celui-ci au mieux l'intelligibilité n'est qu'un aspect de la communication orale Validité statistique fonction des conditions de passation, du nombre d'items, du nombre d'auditeurs… Rapidité passation rapide dépouillement automatisé