Comment mon Iphone peut-il reconnaître mes paroles?

Slides:



Advertisements
Présentations similaires
Pr Anne Charloux Institut de Physiologie ULP, Strasbourg
Advertisements

Mesures dans le domaine fréquentiel
INTRODUCTION 1. Une représentation du signal où le bruit est isolé
 Quelques rappels théoriques.
Distinguer les sons de la parole
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Caractéristiques des ondes mécaniques
LE SON & L’ AUDITION Dr CHAKOURI M.
SECTION 3 L’INGÉNIERIE ÉLECTRIQUE
Propriétés et Classification
AKPOSSAN Johanne Barre d’explosion Bruit de friction Œil nasal 1800
Spectroscopie IR.
Classe 2 Phonétique - phonologie
BIENVENUE DANS LE MONDE DU CORPS HUMAIN.
Traitement du signal TD0 : Introduction.
Le cahier de charge d'un système de RAP
Introduction à l’acoustique
Acoustique musicale Mains dœuvres. Son pur Formule : X = sin ( 2 ft )
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
États du larynx Phonologie Théories et traits Règles phonologiques
Jeopardy - Révision Final Jeopardy Articulation Voyelles Consonnes
Consonnes Transcription Norme et variation Mécanique phonatoire
L'audition.
Comment fonctionne l'ampoule
Les ondes mécaniques.
Intensité – Ondes sonores
SONS & INSTRUMENTS IREM – stage du 28 mars 2013.
Attention, les intensités sonores sajoutent, mais pas les niveaux sonores.
Matière et énergie Sciences 8e année
OBSERVER : Ondes et matières Chapitre 2 : Caractéristiques des ondes
SIG3141 Partie I: Analyse de Fourier ESIEA D Kateb
Le français dans tous les sens
Traitement automatique de la langue
Master 1 – Sciences du Langage –
Transducteur d’entrée EnergieacoustiqueEnergieélectrique Console Transducteur de sortie Energieacoustique Oreille Stockage Périphériques→→ → → → → → ↕
Les Ondes Sonores.
Traitement de la parole : Synthèse et reconnaissance
Jeopardy L’amplitudeLa fréquenceLe corpsLes usages Méli-mélo 100 $ 200 $ 300 $ 400 $ 500 $ 100 $ 200 $ 300 $ 400 $ 500 $ Jeopardy Final.
La matière et l’énergie La lumière et le son
Caractéristiques des sons
Aspects de la phonétique française
L ’apport du son gt/isac_9920_04. Son/image L ’appréhension du phénomène auditif est plus abstrait que le phénomène visuel. Ex : le son d ’un galop de.
Les techniques spectroscopiques permettent de sonder la matière par différentes méthodes pour en déduire des informations sur la structure des molécules.
Reconnaissance automatique de la parole
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Classe 1 Phonétique - phonologie
Ch2 Caractéristiques des ondes
CHAPITRE 05 Caractéristiques des Ondes dans la Matière
Peut-on “voir” par les oreilles?
Présenté par Dr Selouani
Chapitre 3 suite Acoustique musicale
Lycée Hector Berlioz – Terminale S
Emetteurs et récepteurs sonores c-Caractéristiques et traitement du son.
Chapitre 6 : Acoustique musicale Les objectifs de connaissance :
Acoustique musicale.
Emetteurs et récepteurs sonores
I Qu’est ce que le son? Éléments de M.A.O. – support de cours
A. Lebrun. Principe de base Dans la logique combinatoire, les sorties dépendent des différentes entrées et peuvent être calculées par l’algèbre de Boole.
Ondes Sonores et ultrasons
Les ondes.
e-Caractéristiques des ondes sonores et ultrasonores
La lumière.
Qu'est-ce que le son ? Le son est une vibration de l'air, c'est-à-dire une suite de surpressions et de dépressions de l'air par rapport à une moyenne,
Brève révision de la terminologie articulatoire
2 La phonétique physique
2 La phonétique physique
Transcription de la présentation:

Comment mon Iphone peut-il reconnaître mes paroles? Comment peut-il me parler?

Reconnaissance vocale Qu’est-ce que la parole? Comment produire des sons avec la voix ? Quels outils pour étudier numériquement la voix? Comment lire un sonagramme? A vous de jouer…

Qu’est-ce que la parole? Aujourd’hui la parole, spécifique de l’humain, est de plus en plus étudiée et utilisée en tant que moyen de communication direct avec une machine. La parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les mécanismes de production des sons.

Comment sont produits les sons de la parole?

Comment produire les sons des mots? Quel est le système excitateur? Quel(s) est (sont) le(s) résonateur(s)? Comment ce système peut-il produire des sons différents?

Tout appareil vocal ou instrument de musique doit remplir deux rôles : vibrer et émettre.

L'appareil respiratoire pousse de l'air à travers la trachée-artère: Le mouvement du flux d'air est un premier excitateur … Excitateur …des cordes vocales: elles sont la source de l’onde sonore, le vibrateur.

LA CORDE VOCALE EST LE VIBRATEUR ET L’EXCITATEUR DE L’APPAREIL VOCAL Une fois en vibration, la corde vocale joue elle-même le rôle d’excitateur: excitateur de l’air intérieur aux cavités laryngo-pharyngienne, buccale et nasale… LA CORDE VOCALE EST LE VIBRATEUR ET L’EXCITATEUR DE L’APPAREIL VOCAL

Pour que le son ainsi créé soit audible, la vibration doit être transmise au milieu environnant, l’air extérieur ici…

Pour cela, la vibration de l’air intérieur se propage à travers les cavités pharyngienne, buccale et nasale, fait vibrer ces cavités.

Cette mise en vibration des parois de ces cavités agit en retour sur le son en l’amplifiant. C’est le phénomène de résonance.

LES CAVITES LARYNGOPHARYNGIENNE, BUCCALE ET NASALE SONT LES RESONATEURS DE L’APPAREIL VOCAL

NB. Le son va être renforcé par la cavité qu'il traverse, à la condition que le son ait la même fréquence que la fréquence propre (ou de résonance) de cette cavité. Si le son est complexe, c'est-à-dire constitué d'impulsions de plusieurs fréquences, une des composantes (harmoniques) est plus particulièrement renforcée par la cavité de résonance. Le résonateur agit donc comme un filtre, réduisant certains harmoniques, en renforçant d'autres.

Ainsi, selon leur position , les articulateurs (mâchoire, langue, palais, lèvre, bouche), modifient la forme des résonateurs. Les fréquences qui sont amplifiées peuvent changer et des sons de timbres différents sont produits.

En résumé… CORDE VOCALE extérieur. CORDE VOCALE CAVITES LARYNGO-PHARYNGIENNE, BUCCALE ET NASALE

L'unité de parole de plus petite taille est un phonème (voyelle ou consonne). Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante. Par ex. : 36 phonèmes dans la langue française .

Les phonèmes du français

Les phonèmes du français … …associés au lieu d’articulation

Les sons de parole peuvent être produits: • par les vibrations des cordes vocales (source de voisement), • et/ou par une turbulence créée par l'air intérieur (source de bruit) : - s’écoulant rapidement dans une constriction du conduit vocal ou - lors du relâchement d’une occlusion du conduit vocal

Signaux des sons de la parole Les sons voisés résultent d'une vibration quasi périodique des cordes vocales et ce sont des signaux quasi périodiques. Par contre les sons non voisés ne présentent pas de structure périodique, ils sont considérés comme des bruits.

Quels outils pour analyser la parole ?

Le chronogramme (enveloppe :énergie = f(t)…)

La Transformée de Fourier ou le spectre en fréquence … Fondamental

Le sonagramme Une représentation en 3 dimensions peut être obtenue en effectuant des analyses spectrales successives : Ici, le niveau des amplitudes est également codé en couleurs

sonagramme : vue de dessus avec l’amplitude en couleurs fréquence perspective temps sonagramme : vue de dessus avec l’amplitude en couleurs amplitude fréquence temps Chronogramme (enveloppe): énergie= f(t)

Autre exemple de sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme fréquence amplitude fréquence temps temps mise en évidence des formants (résonances du conduit vocal): Ici ,une zone d’amplitude plus forte est représentée par une zone plus noire

2 formes de signaux différents 2 sons perçus de la même façon Remarque: On dit généralement qu’à 2 formes de signal différentes, correspondent 2 timbres différents et donc 2 sons différents. Qu’en est-il ? 2 formes de signaux différents MAIS Mêmes fréquences du fondamental et des harmoniques présents donc même timbre 2 sons perçus de la même façon Le son "tut2.wav" correspondant Le son "tut1.wav" correspondant

Conclusion La forme du signal du chronogramme donne des informations mais partielles … …elle est avantageusement complétée par le spectre en fréquences pour l’analyse du timbre et l’analyse de la répartition d’ énergie dans les composantes spectrales …

Autre exemple 2 formes de signaux globalement similaires 2 sons différemment perçus Différences très nettes sur les sonagrammes

Conclusion: Le sonagramme est un autre outil pour analyser les sons avec efficacité et finesse

Exemple 1 signal et sonagramme d’un mot ph o n e t i c i an fréquence temps

Exemple 2:signal et sonagramme d’une phrase

Que peut-on tirer de ces signaux ? Les méthodes d’analyse numérique de la voix sont aujourd’hui automatisées pour permettre à la machine de décrypter le signal vocal, reconnaître le locuteur, etc… Inversement, ces méthodes permettent aussi de reconstituer un signal vocal en assemblant les briques élémentaires de signaux sonores synthétisés.

Comment exploiter le chronogramme et le sonagramme d’une phrase? Les mesures sur le sonagramme sont fournies par le logiciel de reconnaissance vocale: Praat

Phrase prononcée: « Qu’est-ce qui s’est passé? » Signal :énergie = f(t) Sonagramme: F= f(t)

Etape 1. Distinguer les voyelles des consonnes

On repère trois types de signaux: Des zones de SILENCE Des zones de grande intensité et périodiques: des VOYELLES (il y en a 5) Des zones de faible intensité et apériodiques: des CONSONNES (il y en a 6)

Etape2. Comment déterminer les consonnes ?

Etape 2: identifier les consonnes

Les 6 zones apériodiques peu intenses : les CONSONNES Le blanc ici est très court et correspond en fait à la séparation des 2 mots C V V V V V p,t,k b,d,g f,s,ch v,z,j f,s,ch v,z,j f,s,ch v,z,j Les consonnes fricatives (ou constrictives) sont produites avec une forte constriction (mais pas complète) dans le conduit vocal (un resserrement). Donc il y a une turbulence de l’air dans le conduit vocal et sur la courbe cette turbulence correspond au bruit de friction (plus intense qu’une occlusive): f,s,ch ou v,z,j Les consonnes occlusives sont produites par une fermeture complète du conduit vocal, donc pendant l’occlusion, l’air ne passe pas et sur la courbe, cela correspond à un silence. Puis l’énergie se libère d’un coup provoquant une explosion(peu intense) : p,t,k ou b,d,g

Pour notre sonagramme: Les consonnes occlusives : p,t,k ou b,d,g ? Les occlusives (toujours précédées par un silence) peuvent être: voisées(b,d,g) si barre de voisement Ou sourdes (p,t,k) : pas de barre de voisement et barre d’explosion + épaisse de p à t à k A vous de jouer :Quelles sont les consonnes 2,6,12 ? La 2 et la 6 sont les mêmes : pas de barre de voisement dans le blanc, +barre d’explosion épaisse , donc k La 12: pas de barre de voisement, +barre d’explosion fine, donc : p information

Les consonnes fricatives : f,s,ch ou v,z,j ? k p ? ? ? s A vous de jouer : Quelles sont les consonnes 4, 9, 14 ? Ce sont les mêmes : pas de barre de voisement et signal plus intense dans les aigus , donc information s

Etape 3 : identifier les voyelles

Rappel : les voyelles correspondent aux portions de signal périodiques et intenses

Pour chaque voyelle, T0=1/F0 l’évolution de la fréquence fondamentale F0 (celle de l’excitateur) va donner la mélodie de la voix les fréquences privilégiées par les résonateurs appelées formants (=multiples de F0) vont caractériser la voyelle

Que nous révèle la ligne de mélodie? (évolution de F0) Comment exploiter le sonagramme pour déterminer les voyelles ? F0 max=113 Hz F0 min = 88 Hz F0 varie selon le genre (masculin ou féminin) et l’âge du locuteur. De 80 à 200 Hz pour une voix masculine De 150 à 450 Hz pour une voix féminine De 200 à 600 Hz pour une voix d’enfant Le logiciel a mesuré, à chaque instant t, la fréquence F0 (ligne bleue) et les fréquences des formants (points rouges) Que nous révèle la ligne de mélodie? (évolution de F0) Donc le locuteur est … Un homme

Il faut ensuite déterminer les fréquences moyennes des formants (bandes noires sur le sonagramme)

Quelques Voyelles (homme): Les 3 premiers formants(F1-F2-F3) suffisent pour caractériser une voyelle y ( rue, truc) y

Formants des voyelles françaises (homme)

Retour à notre sonagramme… …Traité par un logiciel qui mesure les fréquences

Qu’est-ce qui s’est passé? Comment exploiter notre sonagramme pour déterminer les voyelles ? F0 max=113 H F0 min = 88 Hz e e i a e F1 (Hz) F2(Hz) F3(Hz) 590 1820 2580 F1 (Hz) F2(Hz) F3(Hz) 340 2250 3000 F1 (Hz) F2(Hz) F3(Hz) 430 2010 2680 F1 (Hz) F2(Hz) F3(Hz) 730 1290 2680 N°3 N°13 N°15 N°7 N°15 : en comparant avec la table de formants hommes on trouve… e Qu’est-ce qui s’est passé? On remarque que les voyelles N°3 et N°8 sont les mêmes (mêmes formants) La phrase prononcée est… a N°3 : en comparant avec la table de formants hommes on trouve… N°13 : en comparant avec la table de formants hommes on trouve… i e N°7 : en comparant avec la table de formants hommes on trouve…

Formants des voyelles françaises (homme) cliquer

Les consonnes occlusives : p,t,k ou b,d,g ? Occlusives sourdes:p,t,k du p au t puis au k , la zone d’explosion augmente en durée et en intensité (plus large et plus noire) Occlusives voisées:b,d,g Barre de voisement: vibration avant l’explosion Retour au sonagramme étudié Sonagrammes de référence

Les consonnes fricatives : f,s,ch ou v,z,j ? fricatives sourdes: f,s,ch Le bruit de friction du f est moins intense que le s et le ch (moins noir) Le s est plus intense (plus noir) dans les aigus (fréquences plus grandes) Le ch est plus intense dans les médiums Fricatives voisées:v,z,j Barre de voisement: vibration avec le bruit de friction Retour au sonagramme Sonagrammes de référence

Même phrase: Homme / femme F0 max=113 Hz F0 min = 88 Hz Femme

A vous de jouer …

Voici une copie d’écran de l’analyse par le logiciel d’une phrase prononcée par un locuteur mystère lors d’une conversation téléphonique…

Saurez-vous retrouver : si le locuteur est une femme ou un homme ? quelle est la phrase prononcée ? Tableau des formants relevés par le logiciel aux instants t repérés sur le graphe 730