La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours Technologie Multimédia

Présentations similaires


Présentation au sujet: "Cours Technologie Multimédia"— Transcription de la présentation:

1 Cours Technologie Multimédia
Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando

2 Plan La nature La numérisation ou codage
La compression et formats d'audio La famille MPEG/audio Autres formats audio L'édition 2

3 Nature : généralités Le son est un phénomène physique, il se traduit par la variation de pression d'un milieu Propriétés physiques Fréquence Célérité Amplitude et longueur d'onde 3

4 Nature : généralités (2) Propriétés physiques: Fréquence et célérité
Fréquence: Nombre d’oscillations du signal sonore par secondes Chez l'homme elle est de 20Hz à 20KHz Les sons sont classés de la façon suivante: Célérité: Il s'agit de la vitesse de l'onde sonore 4

5 Nature : généralités (3) Propriétés physiques: Amplitude et longueur d'onde
L’Amplitude : Elle se mesure en décibels (dB). On définit à: 0 dB, le seuil d’audibilité de l’oreille Humaine. 120 dB, le seuil de douleur. La longueur d’onde: Distance parcourue par l’onde en un cycle complet. Elle se calcule en fonction du rapport : l = v/f . 5

6 Numérisation ou codage
Elle permet de transformer un signal sonore en fichier enregistré sur support numérique Les données sonores sont numérisées en passant par: L'échantillonnage La quantification 6

7 Numérisation ou codage (2) L'échantillonnage
Il s’agit de la discrétisation du signal sonore analogique (continu). Il se définit par sa fréquence, qui se calcule grâce au théorème de Nyquist-Shannon. 7

8 Numérisation ou codage (3) La quantification
C ’est le nombre de valeurs utilisées pour représenter l’information sous forme numérique. On parle aussi de résolution. Elle est essentielle pour la qualité du son Si on utilise 16 valeurs, chaque échantillon est codée sur 4 bits (24= 16)‏ 8

9 Numérisation ou codage (4): Poids d'un fichier
K : taille du fichier en Kilo-octets F : fréquence d'échantillonnage en KHz Q : nombre d'octets utilisés pour coder le signal (16 bits = 2 octets) P : nombre total de pistes mono T : temps de l'enregistrement en secondes K = P * F * Q * T 9

10 Numérisation ou codage (5)‏
Bitrate : débit binaire d’un fichier. D (kb/s)= fe . nbCanaux . nbBitsQuantif Plus il est élevé, plus la qualité est bonne. Il porte une information importante dans le domaine de l’internet: Ex : Pour lire un fichier son sur un site web par exemple il faut que le débit connexion modem soit supérieure au bitrate. 10

11 Numérisation ou codage (6): Pulse code modulation
Les principes de numérisation sont mentionnés sous la cadre de PCM (Pulse code Modulation)‏ C'est le format standard des sons numériques non compressés dans les ordinateurs : .AIF (Machintosh)‏ .WAV (Windows)‏ 11

12 Numérisation ou codage (7): Le wave
Format flexible pour garder plus ou moins tous les combinaisons d'échantillons Il décode tous les sons, soit du son complexe ou du silence Il se compose d'un en-tête de fichier, suivi des données. 12

13 Numérisation ou codage (8): Le wave
Structure des fichiers WAVE simples. Entête : Bloc Format : 13

14 Numérisation ou codage (9): Le wave
Bloc Données : 14

15 Compression Un exemple : CD-Audio
fe = 44,1 KHz son stéréo  2 canaux résolution de 16 bits: bitrate : 1376 kbps et connexion modem RTC : 56 kbps Il y a plusieurs pour comprimer sans sacrifiquer forcement la qualité: Algorithmes non destructifs Algorithmes destructifs Comment obtenir des fichiers audionumériques de taille acceptable, sans diminuer de trop sa qualité? C’est là qu’apparaît, l’importance des divers méthodes de compression employées. 15

16 Compression (2)‏ Algorithmes destructif : lossy compression algorithmes Retirer systématiquement des échantillons Principe de phycoacoustique : supprimer le son que l'auditeur ne peut pas percevoir et de bruits 16

17 Compression (3)‏ Fréquences audibles pour l'homme, de 20Hz à 20KHz, diminution raisonnable de la bande passante L'effet masque: dans un groupe de frequences voisine ou identiques, on supprime lesquels avec beaucoup amplitude Stéréo jointe: on enregistre la partie grave du spectre en monophonique. On fait 50% relativement à un enregistrement stéréomonophique 17

18 Famille MPEG Moving Picture Expert Group : définit les standards de compression pour la vidéo et l’audio Norme : ISO/IEC JTC1 SC29 WG11 Spécifications de 3 couches, appelés layers : du niveau 1 au niveau 3, les algorithmes d’encodage sont de plus en plus complexes (Note : MP3 = MPEG-1 layer 3). Point commun : l’utilisation conjointe d’un modèle psychoacoustique et d’une représentation fréquentielle du signal. 18

19 Famille MPEG (2)‏ 10:1 … 12:1 pour 128 … 112 Kbps en stéréo
conçu au départ pour un bitrate très bas (ex : MP3)‏ Layer 3 6:1 … 8:1 pour 256 … 196 Kbps en stéréo compromis entre complexité et performance Layer 2 4:1 pour 384 Kbps en stéréo destiné à la DCC (Digital Compact Cassette)‏ Layer 1 Taux de compression avec une qualité proche de celle du CD 19

20 Codec MPEG/audio Figure : vue globale du codec MPEG/audio. 20

21 Représentation fréquentielle
Figure : vue globale du codec MPEG/audio. 21

22 Représentation fréquentielle (2)‏
Pourquoi une représentation fréquentielle? Avantage : Une vision qualitative du signal. Inconvénient : Le temps de calcul. Comment? Le signal numérique temporel est découpé en segments de 26 ms (« frames »). On stocke le spectre fréquentiel de chaque frame. 22

23 Modèle phycoacoustique
Figure : vue globale du codec MPEG/audio. 23

24 Modèle phycoacoustique (2)‏
Pourquoi un modèle psychoacoustique? Constat : l’audition humaine est limitée: Dans le domaine fréquentiel (20 Hz-20KHz). Par son seuil de sensibilité (intensité sonore). Par l’attention que le cerveau lui accorde. Conséquence : des effets de masquage et des échantillons inaudibles, donc superflus! Idée : pouvoir identifier les échantillons inaudibles afin de les supprimer. 24

25 Modèle phycoacoustique (3)‏
Figure : l’être humain perçoit bien les fréquences proches de celle de la Voix, moins bien les autres! De plus : - Un son trop faible n’est pas perceptible par l’oreille d’un humain, même attentif (courbe du bas). - Au-delà d’une certaine intensité, le son n’est plus qu’une douleur (courbe du haut). © Xing Technology Corporation 25

26 Modèle psychoacoustique (4)‏
Figure : effet de masquage fréquentiel L’oreille ne peut pas distinguer un son faible si sa fréquence est trop proche d’un son plus fort. Attention, cette figure ne montre pas que la résolution en fréquence de l’oreille n’est pas la même pour toutes les fréquences ! 26

27 Modèle psychoacoustique (5)‏
Effet de masquage temporel Constat : les humains ont du mal à entendre un son de faible intensité s’il devance (ou suit) de très près (5 ms environ) un son de forte intensité. Idée : éliminer les échantillons proches temporellement d’un son plus fort qu’eux. Remarque : n’est utilisé que dans « Layer 3 ». 27

28 L’allocation des octets‏
Figure : vue globale du codec MPEG/audio. 28

29 L’allocation des octets (2)‏
Hypothèse : le débit binaire (« bitrate ») est supposé constant (vrai en mode CBR). Rappel : une frame a une durée fixe de 26 ms. Déduction : le nombre de bits disponibles pour coder les échantillons dans chaque frame est limité. Il faut les quantifier. Problème : la quantification va ajouter du bruit au signal (une erreur d’1 bit dans l’arrondi équivaut à ajouter 6 dB de bruit). Comment limiter ce bruit? 29

30 L’allocation des octets (3)‏
Première partie de la solution : Calculer le rapport masque/bruit de chaque sous-bande. Allouer juste ce qu’il faut de bits à chaque sous-bande pour que le bruit engendré par la quantification de ses échantillons soit masqué par les sous-bandes voisines. Si cela ne suffit pas : On sacrifie les fréquences les moins audibles. 30

31 Le réservoir d'octets (Layer 3)‏
Certaines frames peuvent être tellement riches (musicalement parlant) que les masques ne permettent pas d’éliminer de sous-bandes. Si le bitrate imposé est faible, on ne peut pas quantifier convenablement les intensités des sous-bandes sans introduire beaucoup de bruit dans le signal. Une solution : utilisation d’espaces laissés « libres » dans d’autres frames. Ce « réservoir d’octets » permet à l’encodeur de récupérer les espaces « libres » dans les frames précédentes pour y insérer les bits de la frame en cours. Si on ne peut pas trouver ce réservoir, alors les données sont simplement perdues  perte de qualité du signal. La meilleure solution : utiliser un bitrate plus grand. 31

32 Encodage final Figure : vue globale du codec MPEG/audio. 32

33 Le codage de Huffman (Layer 3)‏
Le MP3 utilise la technique classique de l’algorithme d’Huffman ; Pas de perte d’information pendant cette étape. Permet de compresser jusqu’à 50%. Vient en complément de l’encodage perceptif. 33

34 Le décodage‏ Figure : vue globale du codec MPEG/audio. 34

35 Le décodage (2)‏ Opération moins complexe Donc plus rapide :
Inverse du codage. Mais pas d’analyse psychoacoustique. Donc plus rapide : 35

36 LE MP3 36

37 Qu’est-ce que c’est? MPEG-1/2 Audio Layer 3
Algorithme de compression audio réduisant drastiquement la quantité de données nécessaires pour restituer l’audio Dérivé du layer 2 par ajouts de nouveaux outils technologiques, de même qualité que lui mais à 128Kbps Compression approximative de 1:4 à 1:12 37

38 Techniques de codage Système de compression partiellement destructif
Tres forte réduction de la qualité Exploitation d’un modèle psycho-acoustique de l’effet de masque Toutefois amélioration possible de la qualité par utilisation d’un VBR ( paramètres du CD utilisés comme références)‏ 38

39 L’entête d’une frame Purpose Length (in bits)‏ Frame sync 11
2 Emphasis (respects emphasis bit in the original recording; now largely obsolete)‏ 1 Original (off if copy of original, on if original)‏ Copyright (on or off)‏ Mode extension (used only with joint stereo, to conjoin channel data)‏ Channel mode (stereo, joint stereo, dual channel, single channel)‏ Private bit (on or off, allows for application-specific triggers)‏ Padding bit (on or off, compensates for unfilled frames)‏ Sampling rate frequency (44.1kHz, etc., determined by lookup table)‏ 4 Bitrate index (lookup table used to specify bitrate for this MPEG version and layer)‏ Protection (if on, then checksum follows header)‏ MPEG layer (Layer I, II, III, etc.)‏ MPEG audio version (MPEG-1, 2, etc.)‏ 11 Frame sync Length (in bits)‏ Purpose

40 Option 1 : la « joint » stéréo
1er constat : L’oreille humaine localise mal la provenance spatiale des sons graves. Idée : Couper le spectre en hautes et basses fréquences. Coder les hautes fréquences en stéréo, les basses en mono. 40

41 Option 1 : la « joint » stéréo (2)‏
2eme Constat : le signal à droite et le signal à gauche peuvent être proches Idée : création d’un canal de milieu (L+R), et un canal de coté (L-R)‏ on parle de M/S (middle/side) stéréo Stéréo d’origine sera restaurée par le décodeur 41

42 Option 2 : Le CBR/VBR CBR = Constant Bitrate : débit binaire constant (option par défaut). VBR = Variable Bitrate : débit binaire variable. le bitrate varie alors dynamiquement en fonction de la complexité du signal sur une « frame », afin de garantir toujours une qualité sonore optimale. passage complexe  augmentation du bitrate, et inversement. 42

43 Option 2 : Le CBR/VBR (2)‏ A qualité équivalente, les fichiers encodés en VBR sont plus petits. Inconvénients : Pas lisibles par les décodeurs les plus anciens. Problème de « timing » lors du décodage (fonction « seek » imprécise). 43

44 Les résultats(1)‏ Une minute d’un CD-audio (à une fréquence de 44.1 KHz, 16 bits, stéréo) ne prendra qu’un seul Mo en MP3. Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem. La décompression d’un fichier MP3 (i.e. la lecture) se fait en temps réel avec un P166, Mais nécessite une grande partie des ressources système. 44

45 Les résultats (2)‏ Le format ne contient pas seulement les musiques mais aussi les metadata Présence d’étiquettes enregistrées au format ID3 Évolutions : le mp3Pro 45

46 Autres formats de compression
MPEG-4 audio : 2x plus performant que MP3 bitrate de 64 kbps  qualité proche du CD peut descendre jusqu’à 2kbps gère 5 canaux séparés  son 3D, etc. WMA (Windows Media Audio) : proche du MP3 (de 8 kbps à 128 kbps)‏ mais format fermé taille : 1/3 d ’un fichier MP3 à bitrate égal encodage plus rapide 46

47 Autres formats de compression (2)‏
WMA (2) -possibilité de protéger les fichiers de sortie dès l’encodage -existe sous 4 formats: *WMA standard *WMA pro *WMA lossless *WMA voice

48 Autres formats de compression (3)‏
Ogg Vorbis : - Ogg + Vorbis Licence GPL (ou encore LGPL)‏ même catégorie que MPEG-1 layer 3(mais plus perfomant et pas compatible), MPEG-4, … aucune protection VQF (Vector Quantization Format) : Yamaha Wave 50 Mo  3.5 Mo à 96 kbps et 44,1 KHz 20 à 35 % plus léger que MP3 à bitrate égal encodage lent devrait être intégré au MPEG-4 48

49 Autres formats de compression (4)‏
AAC - compression 2fois plus qu’un MP3 - Musique haute qualité sur le web - Peut inclure jusqu’à 48 canaux - LC-AAC , AAC+ (HE-AAC) … - Format supporté dans l’iPod et l’iTunes

50 Comparaison 3 grandes catégories de format audio:
- les formats bruts : offrant les meilleurs qualités - les formats compressés : offrant les meilleurs débits pénalisant plus ou moins la qualité; * différences des formats au sein même de ce format dues aux techniques utilisées et - les formats de flux

51 Du côté de la Loi Légal : Illégal : l’utilisation d’un codec MP3.
l’encodage et l’échange de fichiers MP3 sans l’accord de l’artiste et versement de droits d’auteurs. 51

52 Autres formats Audio 52

53 Autres formats audio Les formats musicaux Le Streaming Le MIDI
Les fichiers « Tracker » Le multi-pistes Le Streaming 53

54 Le MIDI Introduction MIDI = Musical Instrument Digital Interface
A la fois une interface physique et une norme Avantage : taille des fichiers (~ 30ko)‏ 54

55 Le MIDI (2)‏ Description de l ’interface
Permet d ’établir une communication entre le langage du musicien et celui des microprocesseurs Tentative de reproduction des gestes du musicien ex : appui sur une touche de clavier Code machine Fichier = description des actions ex : hauteur de la note, durée, … Synthétiseur obligatoire Explication de la taille réduite 55

56 Le MIDI (3)‏ Définition matérielle
Interface série asynchrone à bauds Connections DIN 5 broches MIDI IN MIDI OUT MIDI THRU Pour éviter les délais, longueur des câbles < 15m. Branchement sur prise Joystick de la carte son 56

57 Le MIDI (4)‏ Le protocole de communication Les messages canaux
16 canaux (norme Roland)‏ Les messages systèmes Exclusifs (particuliers à chaque machines MIDI)‏ Communs (ex: se positionner à un endroit d ’un morceau)‏ Temps réel (ex: synchronisation des machines)‏ 57

58 Le MIDI (5)‏ Le standard GM (General MIDI)‏ 58 ………………...
Mapping Instruments 0=Acoustic Grand Piano 1=Bright Acoustic Piano 2=Electric Grand Piano 3=Honky-tonk Piano 4=Rhodes Piano 5=Chorused Piano 6=Harpsichord 7=Clavinet …………… Mapping Drums sur Canal 10 35=Acoustic Bass Drum 36=Bass Drum =Side Kick 38=Acoustic Snare 39=Hand Clap 40=Electric Snare ………………... 120=Guitar Fret Noise 121=Breath Noise 122=Seashore 123=Bird Tweet 124=Telephone Ring 125=Helicopter 126=Applause 127=Gunshot 76=High Wood Block 77=Low Wood Block 78=Mute Cuica 79=Open Cuica 80=Mute Triangle 81=Open Triangle 58

59 Le MIDI (6)‏ 59

60 Le format « Tracker » Introduction Quelques logiciels
Taille de fichier ~500Ko pour 3 min Principe du sampling Analogie avec le MIDI Problème : pas normalisé Quelques logiciels FastTracker, Impulse Tracker, MadTracker ... 60

61 Le format « Tracker » (2)‏
61

62 Entre le MIDI et le Tracker : la norme Beatnik!!

63 L’édition Audionumérique.
63

64 L’édition Audionumérique.
Les fonctions de Base. L’équalisation. Les effets. 64

65 L’édition Audionumérique.
Le son Numérique ne peut pas être amélioré. La fréquence d’échantillonnage, le nombre de bits de quantification définissent sa qualité. Cette dernière ne peut ensuite que diminuer suite aux manipulations que l’on réalise sur les fichiers (compression, conversion à d’autres formats, ...). On peut cependant y appliquer diverses fonctions permettant de manipuler les fichiers sons. 65

66 L’édition Audionumérique: Les fonctions de base.
Les fonctions appliquées sur les fichiers sons sont réalisées par des processeurs DSP ( Digital Signal Processor ). On trouve parmi les fonctions de base : La normalisation le changement de durée La conversion stéréo/mono et mono/stéréo reverse, etc... 66

67 L’édition Audionumérique: L’équalisation.
Elle est nécessaire, parce que la perception des sons varie en fonction des goûts et des humeurs de chacun. Elle permet de renforcer ou d’atténuer certaines fréquences en ajoutant ou en enlevant quelques décibels.

68 L’édition Audionumérique: Les effets.
On désigne par effets tous les dispositifs de traitement du son. Dans les grandes familles, on trouve : - La réverbération - Le délai - Le chorus - Le Trémolo - Le vocoder - Le noise gate - Le flanger - le phasing 68

69 L’édition Audionumérique: Démonstration

70 Conclusion

71 Bibliographie [1] C. Grégoire, M. Guionneau, O. Le Blouch, Y. Yerro. Rapport par le cours Technologie Multimédia: L'audio. Novembre 2002. [2] I. Roxin, D. Mercier. Multimédia: Les fondamentaux, introduction à la représentation numérique. Vuibert, Paris, [3] J. Terrason. Les outils du multimédia. Armand Colin Éditeur. Paris, 1992. 71

72 Bibliographie (2) [4] La norme MIDI : [5] Article : «A tutorial on MPEG/audio compression», par Davis Pan Première publication dans IEEE Multimedia Journal, numéro d’été 1995. [6] Article : «Digital Audio Compression», par Davis Yen Pan Première publication dans Digital Technical Journal, Vol. 5 No. 2, été 1993.

73 Bibliographie (3) [7] Wikipédia : Digital Audio. Dernière modification: le 17 septembre 2008. [8] Wikipédia : Audio Compression (Data). Dernière modification : le 24 septembre 2008. [9] La compression numérique du son. 1.html. Dernière modification : le 18 octobre 2002. [10] Wikipédia: Audio File Format. Dernière modification : le 11 septembre 2008. [11] Le Son Numérique.

74 Bibliographie (4) [12] Wikipédia : WaveForm audio format. format. Dernière modification : le 22 octobre [13] Wikipédia : Audacity. Dernière modification : le 25 septembre 2008. [14] Logiciel Audacity.


Télécharger ppt "Cours Technologie Multimédia"

Présentations similaires


Annonces Google