Comment mon Iphone peut-il reconnaître mes paroles? Comment peut-il me parler?
Reconnaissance vocale Qu’est-ce que la parole? Comment produire des sons avec la voix ? Quels outils pour étudier numériquement la voix? Comment lire un sonagramme? A vous de jouer…
Qu’est-ce que la parole? Aujourd’hui la parole, spécifique de l’humain, est de plus en plus étudiée et utilisée en tant que moyen de communication direct avec une machine. La parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les mécanismes de production des sons.
Comment sont produits les sons de la parole?
Comment produire les sons des mots? Quel est le système excitateur? Quel(s) est (sont) le(s) résonateur(s)? Comment ce système peut-il produire des sons différents?
Tout appareil vocal ou instrument de musique doit remplir deux rôles : vibrer et émettre.
L'appareil respiratoire pousse de l'air à travers la trachée-artère: Le mouvement du flux d'air est un premier excitateur … Excitateur …des cordes vocales: elles sont la source de l’onde sonore, le vibrateur.
LA CORDE VOCALE EST LE VIBRATEUR ET L’EXCITATEUR DE L’APPAREIL VOCAL Une fois en vibration, la corde vocale joue elle-même le rôle d’excitateur: excitateur de l’air intérieur aux cavités laryngo-pharyngienne, buccale et nasale… LA CORDE VOCALE EST LE VIBRATEUR ET L’EXCITATEUR DE L’APPAREIL VOCAL
Pour que le son ainsi créé soit audible, la vibration doit être transmise au milieu environnant, l’air extérieur ici…
Pour cela, la vibration de l’air intérieur se propage à travers les cavités pharyngienne, buccale et nasale, fait vibrer ces cavités.
Cette mise en vibration des parois de ces cavités agit en retour sur le son en l’amplifiant. C’est le phénomène de résonance.
LES CAVITES LARYNGOPHARYNGIENNE, BUCCALE ET NASALE SONT LES RESONATEURS DE L’APPAREIL VOCAL
NB. Le son va être renforcé par la cavité qu'il traverse, à la condition que le son ait la même fréquence que la fréquence propre (ou de résonance) de cette cavité. Si le son est complexe, c'est-à-dire constitué d'impulsions de plusieurs fréquences, une des composantes (harmoniques) est plus particulièrement renforcée par la cavité de résonance. Le résonateur agit donc comme un filtre, réduisant certains harmoniques, en renforçant d'autres.
Ainsi, selon leur position , les articulateurs (mâchoire, langue, palais, lèvre, bouche), modifient la forme des résonateurs. Les fréquences qui sont amplifiées peuvent changer et des sons de timbres différents sont produits.
En résumé… CORDE VOCALE extérieur. CORDE VOCALE CAVITES LARYNGO-PHARYNGIENNE, BUCCALE ET NASALE
L'unité de parole de plus petite taille est un phonème (voyelle ou consonne). Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante. Par ex. : 36 phonèmes dans la langue française .
Les phonèmes du français
Les phonèmes du français … …associés au lieu d’articulation
Les sons de parole peuvent être produits: • par les vibrations des cordes vocales (source de voisement), • et/ou par une turbulence créée par l'air intérieur (source de bruit) : - s’écoulant rapidement dans une constriction du conduit vocal ou - lors du relâchement d’une occlusion du conduit vocal
Signaux des sons de la parole Les sons voisés résultent d'une vibration quasi périodique des cordes vocales et ce sont des signaux quasi périodiques. Par contre les sons non voisés ne présentent pas de structure périodique, ils sont considérés comme des bruits.
Quels outils pour analyser la parole ?
Le chronogramme (enveloppe :énergie = f(t)…)
La Transformée de Fourier ou le spectre en fréquence … Fondamental
Le sonagramme Une représentation en 3 dimensions peut être obtenue en effectuant des analyses spectrales successives : Ici, le niveau des amplitudes est également codé en couleurs
sonagramme : vue de dessus avec l’amplitude en couleurs fréquence perspective temps sonagramme : vue de dessus avec l’amplitude en couleurs amplitude fréquence temps Chronogramme (enveloppe): énergie= f(t)
Autre exemple de sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme fréquence amplitude fréquence temps temps mise en évidence des formants (résonances du conduit vocal): Ici ,une zone d’amplitude plus forte est représentée par une zone plus noire
2 formes de signaux différents 2 sons perçus de la même façon Remarque: On dit généralement qu’à 2 formes de signal différentes, correspondent 2 timbres différents et donc 2 sons différents. Qu’en est-il ? 2 formes de signaux différents MAIS Mêmes fréquences du fondamental et des harmoniques présents donc même timbre 2 sons perçus de la même façon Le son "tut2.wav" correspondant Le son "tut1.wav" correspondant
Conclusion La forme du signal du chronogramme donne des informations mais partielles … …elle est avantageusement complétée par le spectre en fréquences pour l’analyse du timbre et l’analyse de la répartition d’ énergie dans les composantes spectrales …
Autre exemple 2 formes de signaux globalement similaires 2 sons différemment perçus Différences très nettes sur les sonagrammes
Conclusion: Le sonagramme est un autre outil pour analyser les sons avec efficacité et finesse
Exemple 1 signal et sonagramme d’un mot ph o n e t i c i an fréquence temps
Exemple 2:signal et sonagramme d’une phrase
Que peut-on tirer de ces signaux ? Les méthodes d’analyse numérique de la voix sont aujourd’hui automatisées pour permettre à la machine de décrypter le signal vocal, reconnaître le locuteur, etc… Inversement, ces méthodes permettent aussi de reconstituer un signal vocal en assemblant les briques élémentaires de signaux sonores synthétisés.
Comment exploiter le chronogramme et le sonagramme d’une phrase? Les mesures sur le sonagramme sont fournies par le logiciel de reconnaissance vocale: Praat
Phrase prononcée: « Qu’est-ce qui s’est passé? » Signal :énergie = f(t) Sonagramme: F= f(t)
Etape 1. Distinguer les voyelles des consonnes
On repère trois types de signaux: Des zones de SILENCE Des zones de grande intensité et périodiques: des VOYELLES (il y en a 5) Des zones de faible intensité et apériodiques: des CONSONNES (il y en a 6)
Etape2. Comment déterminer les consonnes ?
Etape 2: identifier les consonnes
Les 6 zones apériodiques peu intenses : les CONSONNES Le blanc ici est très court et correspond en fait à la séparation des 2 mots C V V V V V p,t,k b,d,g f,s,ch v,z,j f,s,ch v,z,j f,s,ch v,z,j Les consonnes fricatives (ou constrictives) sont produites avec une forte constriction (mais pas complète) dans le conduit vocal (un resserrement). Donc il y a une turbulence de l’air dans le conduit vocal et sur la courbe cette turbulence correspond au bruit de friction (plus intense qu’une occlusive): f,s,ch ou v,z,j Les consonnes occlusives sont produites par une fermeture complète du conduit vocal, donc pendant l’occlusion, l’air ne passe pas et sur la courbe, cela correspond à un silence. Puis l’énergie se libère d’un coup provoquant une explosion(peu intense) : p,t,k ou b,d,g
Pour notre sonagramme: Les consonnes occlusives : p,t,k ou b,d,g ? Les occlusives (toujours précédées par un silence) peuvent être: voisées(b,d,g) si barre de voisement Ou sourdes (p,t,k) : pas de barre de voisement et barre d’explosion + épaisse de p à t à k A vous de jouer :Quelles sont les consonnes 2,6,12 ? La 2 et la 6 sont les mêmes : pas de barre de voisement dans le blanc, +barre d’explosion épaisse , donc k La 12: pas de barre de voisement, +barre d’explosion fine, donc : p information
Les consonnes fricatives : f,s,ch ou v,z,j ? k p ? ? ? s A vous de jouer : Quelles sont les consonnes 4, 9, 14 ? Ce sont les mêmes : pas de barre de voisement et signal plus intense dans les aigus , donc information s
Etape 3 : identifier les voyelles
Rappel : les voyelles correspondent aux portions de signal périodiques et intenses
Pour chaque voyelle, T0=1/F0 l’évolution de la fréquence fondamentale F0 (celle de l’excitateur) va donner la mélodie de la voix les fréquences privilégiées par les résonateurs appelées formants (=multiples de F0) vont caractériser la voyelle
Que nous révèle la ligne de mélodie? (évolution de F0) Comment exploiter le sonagramme pour déterminer les voyelles ? F0 max=113 Hz F0 min = 88 Hz F0 varie selon le genre (masculin ou féminin) et l’âge du locuteur. De 80 à 200 Hz pour une voix masculine De 150 à 450 Hz pour une voix féminine De 200 à 600 Hz pour une voix d’enfant Le logiciel a mesuré, à chaque instant t, la fréquence F0 (ligne bleue) et les fréquences des formants (points rouges) Que nous révèle la ligne de mélodie? (évolution de F0) Donc le locuteur est … Un homme
Il faut ensuite déterminer les fréquences moyennes des formants (bandes noires sur le sonagramme)
Quelques Voyelles (homme): Les 3 premiers formants(F1-F2-F3) suffisent pour caractériser une voyelle y ( rue, truc) y
Formants des voyelles françaises (homme)
Retour à notre sonagramme… …Traité par un logiciel qui mesure les fréquences
Qu’est-ce qui s’est passé? Comment exploiter notre sonagramme pour déterminer les voyelles ? F0 max=113 H F0 min = 88 Hz e e i a e F1 (Hz) F2(Hz) F3(Hz) 590 1820 2580 F1 (Hz) F2(Hz) F3(Hz) 340 2250 3000 F1 (Hz) F2(Hz) F3(Hz) 430 2010 2680 F1 (Hz) F2(Hz) F3(Hz) 730 1290 2680 N°3 N°13 N°15 N°7 N°15 : en comparant avec la table de formants hommes on trouve… e Qu’est-ce qui s’est passé? On remarque que les voyelles N°3 et N°8 sont les mêmes (mêmes formants) La phrase prononcée est… a N°3 : en comparant avec la table de formants hommes on trouve… N°13 : en comparant avec la table de formants hommes on trouve… i e N°7 : en comparant avec la table de formants hommes on trouve…
Formants des voyelles françaises (homme) cliquer
Les consonnes occlusives : p,t,k ou b,d,g ? Occlusives sourdes:p,t,k du p au t puis au k , la zone d’explosion augmente en durée et en intensité (plus large et plus noire) Occlusives voisées:b,d,g Barre de voisement: vibration avant l’explosion Retour au sonagramme étudié Sonagrammes de référence
Les consonnes fricatives : f,s,ch ou v,z,j ? fricatives sourdes: f,s,ch Le bruit de friction du f est moins intense que le s et le ch (moins noir) Le s est plus intense (plus noir) dans les aigus (fréquences plus grandes) Le ch est plus intense dans les médiums Fricatives voisées:v,z,j Barre de voisement: vibration avec le bruit de friction Retour au sonagramme Sonagrammes de référence
Même phrase: Homme / femme F0 max=113 Hz F0 min = 88 Hz Femme
A vous de jouer …
Voici une copie d’écran de l’analyse par le logiciel d’une phrase prononcée par un locuteur mystère lors d’une conversation téléphonique…
Saurez-vous retrouver : si le locuteur est une femme ou un homme ? quelle est la phrase prononcée ? Tableau des formants relevés par le logiciel aux instants t repérés sur le graphe 730