Juillet 2001
Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais
Coopération de plusieurs organes: ◦ Les poumons produisent une pression d’air. ◦ Cet air circule au travers de l’épiglotte. ◦ Les cordes vocales vibrent et interrompent ainsi le débit d’air provoquant une variation de pression quasi-périodique.
Coopération de plusieurs organes: ◦ Pour certains sons dits voisés, vos cordes vocales vibrent (ouverture et fermeture). La vitesse à laquelle les cordes vocales vibrent détermine le ton de votre voix. Les femmes et les jeunes enfants ont tendance à avoir une grande hauteur (vibration rapide) tandis que les mâles adultes ont tendance à avoir une faible hauteur (de vibration lente). ◦ Pour certains sons fricatifs (ou non voisés), les cordes vocales ne vibrent pas mais restent constamment ouvertes.
Coopération de plusieurs organes: ◦ La forme de votre conduit vocal détermine le son que vous faites. ◦ Tandis que vous parlez, votre appareil vocal change de forme pour produire un son différent. ◦ Les modifications du conduit vocal sont relativement lentes (sur l'échelle de 10 ms à 100 ms). ◦ La quantité d'air provenant de vos poumons détermine le volume de votre voix.
Impulsions de pression: ◦ Impulsions de tonalité (pitch impulses). Fréquence du signal de pression: ◦ Fréquence de tonalité ou fondamentale. ◦ Fréquence constante = son monotone.
En pratique, la tonalité varie constamment.
L’impulsion de tonalité déplace l’air dans la cavité buccale (bouche). ◦ Pour certains sons, la cavité nasale est mise à contribution. ◦ La résonance de ces cavités entraîne la création d’une onde de son qui est le signal de la parole. ◦ Comme la langue et le palais permettent de modifier les cavités, cela nous permet de prononcer plusieurs sons.
Fréquence de résonance des cavités: ◦ Fréquence du formant. Que désigne formant ? ◦ Une des composantes qui permettent de distinguer un son complexe d'un autre, et par exemple un son vocal d'un autre son vocal; les formants sont les fréquences (ou les bandes de fréquence) les plus intenses; on les obtient en faisant l'analyse du son. Réf.: Grand Dictionnaire Terminologique
Production de « M » et de « T ».
Schéma bloc:
Paramètres d’un Vocoder: ◦ Articulations : H(z) – Filtre LPC; ◦ Air : u(n) ◦ Vibrations des cordes vocales : V (voisé) ◦ Période de vibration des cordes vocales : T ◦ Consonnes fricatives et plosives : UV (non voisé) ◦ Volume d’air expulsé : G - Gain
Filtre LPC: Signal de la parole s(n):
Vecteur du modèle LPC: Ce vecteur change à tous les 20 msec. Si l’échantillonnage est de 8 kH, cela représente 160 échantillons du signal s(n).
On transmet ce vecteur de 13 valeurs: Au lieu de ce vecteur de 160 valeurs: Donc 12.3 X moins de données…
160 valeurs de 8 bits à tout les 20 msec donne une cadence de 1280 bits/20 ms ou encore de 64 kbits/sec. Les paramètres a sont ramenés sur un total de 34 bits. Le gain G est sur 7 bits et le code U/UV,T est sur 7 bits. Donc 48 bits transmit à tous les 20 msec, ce qui donne une cadence de 2.4 kbits/sec. Compression de x…
Aucune différence perçue: ◦ Si le son est une voyelle ou une consonne non fricative ou non-plosive: Phase sans importance. ◦ Si le son est une consonne fricative ou plosive: Séquence de bruit blanc utilisé,
Pour un vecteur S donné, déduire le vecteur A. Soit S: Sachant que : On calcule alors l’innovation u(n)
Il faut trouver les a i. On va trouver les coefficients qui vont minimiser l’énergie contenue dans l’innovation u(n). Calcul de l’énergie contenue dans l’innovation:
L’énergie sera minimale si:
Cette dernière opération donne 10 équations à résoudre:
Fonction d’autocorrélation du signal s(n):
L’inversion de la matrice 10 X 10 peut être longue à faire (sauf dans MATLAB). L’algorithme récursif de Levinson-Durbin est plus rapide.
Les équations à traiter pour i allant de 1 à 10 inclusivement: i=i+1
Soit R(0)=2.4470x10 8, R(1)=2.2466x10 8 et R(2) = x10 8 : ◦ Itération #1:
◦ Itération #2: … et ainsi de suite …
Une fois cette série de calculs faits on pose: Reste à calculer les trois autres paramètres V/UV, G et T.
Équation proposée par Levinson-Durbin: Variante:
Résoudre cette équation: Et faire l’autocorrélation de u(n):
Spectre de l’autocorrélation: Son non voisé Son voisé
La structure en échelle du filtre IIR peut s’appliquer: ◦ Utilisation directe des coefficients k i calculés lors de l’algorithme précédent.
Oreille humaine – échelle logarithmique
La plage dynamique de l’oreille (inaudible à intolérable) est d’environ 20 bits. ◦ De 1 à En pratique, stocké sur 16 bits, dont 12 sont significatifs. Qualité téléphonique : ◦ 8 kHz et 12 bits.
Exemple: ◦ Fonction sinusoïdale échantillonnée. ◦ Fenêtre rectangulaire.
Exemple: ◦ Fonction sinusoïdale échantillonnée. ◦ Fenêtre de Hamming.