La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours Technologie Multimédia.

Présentations similaires


Présentation au sujet: "Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours Technologie Multimédia."— Transcription de la présentation:

1 Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours Technologie Multimédia

2 Plan La nature La numérisation ou codage La compression et formats d'audio La famille MPEG/audio Autres formats audio L'édition 2

3 Nature : généralités Le son est un phénomène physique, il se traduit par la variation de pression d'un milieu Propriétés physiques Fréquence Célérité Amplitude et longueur d'onde 3

4 Fréquence: Nombre doscillations du signal sonore par secondes Chez l'homme elle est de 20Hz à 20KHz Les sons sont classés de la façon suivante: Nature : généralités (2) Propriétés physiques: Fréquence et célérité Célérité: Il s'agit de la vitesse de l'onde sonore 4

5 LAmplitude : Elle se mesure en décibels (dB). On définit à: 0 dB, le seuil daudibilité de loreille Humaine. 120 dB, le seuil de douleur. La longueur donde: Distance parcourue par londe en un cycle complet. Elle se calcule en fonction du rapport : l = v/f. Nature : généralités (3) Propriétés physiques: Amplitude et longueur d'onde 5

6 Numérisation ou codage Elle permet de transformer un signal sonore en fichier enregistré sur support numérique Les données sonores sont numérisées en passant par: L'échantillonnage La quantification 6

7 Numérisation ou codage (2) L'échantillonnage Il sagit de la discrétisation du signal sonore analogique (continu). Il se définit par sa fréquence, qui se calcule grâce au théorème de Nyquist-Shannon. 7

8 Numérisation ou codage (3) La quantification C est le nombre de valeurs utilisées pour représenter linformation sous forme numérique. On parle aussi de résolution. Elle est essentielle pour la qualité du son Si on utilise 16 valeurs, chaque échantillon est codée sur 4 bits (2 4 = 16 ) 8

9 Numérisation ou codage (4): Poids d'un fichier K : taille du fichier en Kilo-octets F : fréquence d'échantillonnage en KHz Q : nombre d'octets utilisés pour coder le signal (16 bits = 2 octets) P : nombre total de pistes mono T : temps de l'enregistrement en secondes K = P * F * Q * T 9

10 Bitrate : débit binaire dun fichier. D (kb/s)= fe. nbCanaux. nbBitsQuantif 1024 Plus il est élevé, plus la qualité est bonne. Il porte une information importante dans le domaine de linternet: Ex : Pour lire un fichier son sur un site web par exemple il faut que le débit connexion modem soit supérieure au bitrate. Numérisation ou codage (5) 10

11 Numérisation ou codage (6): Pulse code modulation Les principes de numérisation sont mentionnés sous la cadre de PCM (Pulse code Modulation) C'est le format standard des sons numériques non compressés dans les ordinateurs :.AIF (Machintosh).WAV (Windows) 11

12 Numérisation ou codage (7): Le wave Format flexible pour garder plus ou moins tous les combinaisons d'échantillons Il décode tous les sons, soit du son complexe ou du silence Il se compose d'un en-tête de fichier, suivi des données. 12

13 Structure des fichiers WAVE simples. – Entête : – Bloc Format : Numérisation ou codage (8): Le wave 13

14 Bloc Données : Numérisation ou codage (9): Le wave 14

15 Un exemple : CD-Audio fe = 44,1 KHz son stéréo 2 canaux résolution de 16 bits: bitrate : 1376 kbps et connexion modem RTC : 56 kbps Il y a plusieurs pour comprimer sans sacrifiquer forcement la qualité: Algorithmes non destructifs Algorithmes destructifs Compression 15

16 Compression (2) Algorithmes destructif : lossy compression algorithmes Retirer systématiquement des échantillons Principe de phycoacoustique : supprimer le son que l'auditeur ne peut pas percevoir et de bruits 16

17 Compression (3) Fréquences audibles pour l'homme, de 20Hz à 20KHz, diminution raisonnable de la bande passante L'effet masque: dans un groupe de frequences voisine ou identiques, on supprime lesquels avec beaucoup amplitude Stéréo jointe: on enregistre la partie grave du spectre en monophonique. On fait 50% relativement à un enregistrement stéréomonophique 17

18 Moving Picture Expert Group : définit les standards de compression pour la vidéo et laudio Norme : ISO/IEC JTC1 SC29 WG11 Spécifications de 3 couches, appelés layers : du niveau 1 au niveau 3, les algorithmes dencodage sont de plus en plus complexes (Note : MP3 = MPEG-1 layer 3). Point commun : lutilisation conjointe dun modèle psychoacoustique et dune représentation fréquentielle du signal. Famille MPEG 18

19 Famille MPEG (2) 10:1 … 12:1 pour 128 … 112 Kbps en stéréo conçu au départ pour un bitrate très bas (ex : MP3) Layer 3 6:1 … 8:1 pour 256 … 196 Kbps en stéréo compromis entre complexité et performance Layer 2 4:1 pour 384 Kbps en stéréo destiné à la DCC (Digital Compact Cassette) Layer 1 Taux de compression avec une qualité proche de celle du CD 19

20 Figure : vue globale du codec MPEG/audio. Codec MPEG/audio 20

21 Figure : vue globale du codec MPEG/audio. Représentation fréquentielle 21

22 Pourquoi une représentation fréquentielle? Avantage : Une vision qualitative du signal. Inconvénient : Le temps de calcul. Comment? Le signal numérique temporel est découpé en segments de 26 ms (« frames »). On stocke le spectre fréquentiel de chaque frame. Représentation fréquentielle (2) 22

23 Figure : vue globale du codec MPEG/audio. Modèle phycoacoustique 23

24 Pourquoi un modèle psychoacoustique? Constat : laudition humaine est limitée: Dans le domaine fréquentiel (20 Hz-20KHz). Par son seuil de sensibilité (intensité sonore). Par lattention que le cerveau lui accorde. Conséquence : des effets de masquage et des échantillons inaudibles, donc superflus! Idée : pouvoir identifier les échantillons inaudibles afin de les supprimer. Modèle phycoacoustique (2) 24

25 Figure : lêtre humain perçoit bien les fréquences proches de celle de la Voix, moins bien les autres! De plus : - Un son trop faible nest pas perceptible par loreille dun humain, même attentif (courbe du bas). - Au-delà dune certaine intensité, le son nest plus quune douleur (courbe du haut). © Xing Technology Corporation Modèle phycoacoustique (3) 25

26 Modèle psychoacoustique (4) Figure : effet de masquage fréquentiel Loreille ne peut pas distinguer un son faible si sa fréquence est trop proche dun son plus fort. Attention, cette figure ne montre pas que la résolution en fréquence de loreille nest pas la même pour toutes les fréquences ! 26

27 Modèle psychoacoustique (5) Effet de masquage temporel Constat : les humains ont du mal à entendre un son de faible intensité sil devance (ou suit) de très près (5 ms environ) un son de forte intensité. Idée : éliminer les échantillons proches temporellement dun son plus fort queux. Remarque : nest utilisé que dans « Layer 3 ». 27

28 Figure : vue globale du codec MPEG/audio. Lallocation des octets 28

29 Lallocation des octets (2) Hypothèse : le débit binaire (« bitrate ») est supposé constant (vrai en mode CBR). Rappel : une frame a une durée fixe de 26 ms. Déduction : le nombre de bits disponibles pour coder les échantillons dans chaque frame est limité. Il faut les quantifier. Problème : la quantification va ajouter du bruit au signal (une erreur d1 bit dans larrondi équivaut à ajouter 6 dB de bruit). Comment limiter ce bruit? 29

30 Lallocation des octets (3) Première partie de la solution : Calculer le rapport masque/bruit de chaque sous-bande. Allouer juste ce quil faut de bits à chaque sous-bande pour que le bruit engendré par la quantification de ses échantillons soit masqué par les sous-bandes voisines. Si cela ne suffit pas : On sacrifie les fréquences les moins audibles. 30

31 Certaines frames peuvent être tellement riches (musicalement parlant) que les masques ne permettent pas déliminer de sous-bandes. Si le bitrate imposé est faible, on ne peut pas quantifier convenablement les intensités des sous-bandes sans introduire beaucoup de bruit dans le signal. Une solution : utilisation despaces laissés « libres » dans dautres frames. Ce « réservoir doctets » permet à lencodeur de récupérer les espaces « libres » dans les frames précédentes pour y insérer les bits de la frame en cours. Si on ne peut pas trouver ce réservoir, alors les données sont simplement perdues perte de qualité du signal. La meilleure solution : utiliser un bitrate plus grand. Le réservoir d'octets (Layer 3) 31

32 Figure : vue globale du codec MPEG/audio. Encodage final 32

33 Le MP3 utilise la technique classique de lalgorithme dHuffman ; Pas de perte dinformation pendant cette étape. Permet de compresser jusquà 50%. Vient en complément de lencodage perceptif. Le codage de Huffman (Layer 3) 33

34 Figure : vue globale du codec MPEG/audio. Le décodage 34

35 Le décodage (2) Opération moins complexe Inverse du codage. Mais pas danalyse psychoacoustique. Donc plus rapide : 35

36 LE MP3 36

37 Quest-ce que cest? MPEG-1/2 Audio Layer 3 Algorithme de compression audio réduisant drastiquement la quantité de données nécessaires pour restituer laudio Dérivé du layer 2 par ajouts de nouveaux outils technologiques, de même qualité que lui mais à 128Kbps Compression approximative de 1:4 à 1:12 37

38 Techniques de codage Système de compression partiellement destructif Tres forte réduction de la qualité Exploitation dun modèle psycho-acoustique de leffet de masque Toutefois amélioration possible de la qualité par utilisation dun VBR ( paramètres du CD utilisés comme références) 38

39 Lentête dune frame 2 Emphasis (respects emphasis bit in the original recording; now largely obsolete) 1 Original (off if copy of original, on if original) 1 Copyright (on or off) 2 Mode extension (used only with joint stereo, to conjoin channel data) 2 Channel mode (stereo, joint stereo, dual channel, single channel) 1 Private bit (on or off, allows for application-specific triggers) 1 Padding bit (on or off, compensates for unfilled frames) 2 Sampling rate frequency (44.1kHz, etc., determined by lookup table) 4 Bitrate index (lookup table used to specify bitrate for this MPEG version and layer) 1 Protection (if on, then checksum follows header) 2 MPEG layer (Layer I, II, III, etc.) 2 MPEG audio version (MPEG-1, 2, etc.) 11 Frame sync Length (in bits) Purpose

40 Option 1 : la « joint » stéréo 1 er constat : Loreille humaine localise mal la provenance spatiale des sons graves. Idée : Couper le spectre en hautes et basses fréquences. Coder les hautes fréquences en stéréo, les basses en mono. 40

41 Option 1 : la « joint » stéréo (2) 2 eme Constat : le signal à droite et le signal à gauche peuvent être proches Idée : création dun canal de milieu (L+R), et un canal de coté (L-R) on parle de M/S (middle/side) stéréo Stéréo dorigine sera restaurée par le décodeur 41

42 Option 2 : Le CBR/VBR CBR = Constant Bitrate : débit binaire constant (option par défaut). VBR = Variable Bitrate : débit binaire variable. le bitrate varie alors dynamiquement en fonction de la complexité du signal sur une « frame », afin de garantir toujours une qualité sonore optimale. passage complexe augmentation du bitrate, et inversement. 42

43 Option 2 : Le CBR/VBR (2) A qualité équivalente, les fichiers encodés en VBR sont plus petits. Inconvénients : Pas lisibles par les décodeurs les plus anciens. Problème de « timing » lors du décodage (fonction « seek » imprécise). 43

44 Les résultats(1) Une minute dun CD-audio (à une fréquence de 44.1 KHz, 16 bits, stéréo) ne prendra quun seul Mo en MP3. Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem. La décompression dun fichier MP3 (i.e. la lecture) se fait en temps réel avec un P166, Mais nécessite une grande partie des ressources système. 44

45 Les résultats (2) Le format ne contient pas seulement les musiques mais aussi les metadata Présence détiquettes enregistrées au format ID3 Évolutions : le mp3Pro 45

46 Autres formats de compression MPEG-4 audio : 2x plus performant que MP3 bitrate de 64 kbps qualité proche du CD peut descendre jusquà 2kbps gère 5 canaux séparés son 3D, etc. WMA (Windows Media Audio) : proche du MP3 (de 8 kbps à 128 kbps) mais format fermé taille : 1/3 d un fichier MP3 à bitrate égal encodage plus rapide 46

47 Autres formats de compression (2) WMA (2) -possibilité de protéger les fichiers de sortie dès lencodage -existe sous 4 formats: *WMA standard *WMA pro *WMA lossless *WMA voice

48 Autres formats de compression (3) Ogg Vorbis : - Ogg + Vorbis Licence GPL (ou encore LGPL) même catégorie que MPEG-1 layer 3(mais plus perfomant et pas compatible), MPEG-4, … aucune protection VQF (Vector Quantization Format) : Yamaha Wave 50 Mo 3.5 Mo à 96 kbps et 44,1 KHz 20 à 35 % plus léger que MP3 à bitrate égal encodage lent devrait être intégré au MPEG-4 48

49 Autres formats de compression (4) AAC - compression 2fois plus quun MP3 - Musique haute qualité sur le web - Peut inclure jusquà 48 canaux - LC-AAC, AAC+ (HE-AAC) … - Format supporté dans liPod et liTunes

50 Comparaison 3 grandes catégories de format audio: - les formats bruts : offrant les meilleurs qualités - les formats compressés : offrant les meilleurs débits pénalisant plus ou moins la qualité; * différences des formats au sein même de ce format dues aux techniques utilisées et - les formats de flux

51 Du côté de la Loi Légal : lutilisation dun codec MP3. Illégal : lencodage et léchange de fichiers MP3 sans laccord de lartiste et versement de droits dauteurs. 51

52 Autres formats Audio 52

53 Autres formats audio Les formats musicaux – Le MIDI – Les fichiers « Tracker » – Le multi-pistes Le Streaming 53

54 Le MIDI Introduction – MIDI = Musical Instrument Digital Interface – A la fois une interface physique et une norme – Avantage : taille des fichiers (~ 30ko) 54

55 Le MIDI (2) Description de l interface – Permet d établir une communication entre le langage du musicien et celui des microprocesseurs – Tentative de reproduction des gestes du musicien ex : appui sur une touche de clavier Code machine – Fichier = description des actions ex : hauteur de la note, durée, … Synthétiseur obligatoire Explication de la taille réduite 55

56 Le MIDI (3) Définition matérielle – Interface série asynchrone à bauds – Connections DIN 5 broches MIDI IN MIDI OUT MIDI THRU – Pour éviter les délais, longueur des câbles < 15m. – Branchement sur prise Joystick de la carte son 56

57 Le MIDI (4) Le protocole de communication – Les messages canaux 16 canaux (norme Roland) – Les messages systèmes Exclusifs (particuliers à chaque machines MIDI) Communs (ex: se positionner à un endroit d un morceau) Temps réel (ex: synchronisation des machines) 57

58 Le MIDI (5) Le standard GM (General MIDI) Mapping Instruments 0=Acoustic Grand Piano 1=Bright Acoustic Piano 2=Electric Grand Piano 3=Honky-tonk Piano 4=Rhodes Piano 5=Chorused Piano 6=Harpsichord 7=Clavinet …………… 120=Guitar Fret Noise 121=Breath Noise 122=Seashore 123=Bird Tweet 124=Telephone Ring 125=Helicopter 126=Applause 127=Gunshot Mapping Drums sur Canal 10 35=Acoustic Bass Drum 36=Bass Drum 1 37=Side Kick 38=Acoustic Snare 39=Hand Clap 40=Electric Snare ………………... 76=High Wood Block 77=Low Wood Block 78=Mute Cuica 79=Open Cuica 80=Mute Triangle 81=Open Triangle 58

59 Le MIDI (6) 59

60 Le format « Tracker » Introduction – Taille de fichier ~500Ko pour 3 min – Principe du sampling – Analogie avec le MIDI – Problème : pas normalisé Quelques logiciels – FastTracker, Impulse Tracker, MadTracker... 60

61 Le format « Tracker » (2) 61

62 Entre le MIDI et le Tracker : la norme Beatnik!!

63 Lédition Audionumérique. 63

64 Lédition Audionumérique. Les fonctions de Base. Léqualisation. Les effets. 64

65 Lédition Audionumérique. Le son Numérique ne peut pas être amélioré. La fréquence déchantillonnage, le nombre de bits de quantification définissent sa qualité. Cette dernière ne peut ensuite que diminuer suite aux manipulations que lon réalise sur les fichiers (compression, conversion à dautres formats,...). On peut cependant y appliquer diverses fonctions permettant de manipuler les fichiers sons. 65

66 Lédition Audionumérique: Les fonctions de base. Les fonctions appliquées sur les fichiers sons sont réalisées par des processeurs DSP ( Digital Signal Processor ). On trouve parmi les fonctions de base : La normalisation le changement de durée La conversion stéréo/mono et mono/stéréo reverse, etc... 66

67 Lédition Audionumérique: Léqualisation. Elle est nécessaire, parce que la perception des sons varie en fonction des goûts et des humeurs de chacun. Elle permet de renforcer ou datténuer certaines fréquences en ajoutant ou en enlevant quelques décibels.

68 Lédition Audionumérique: Les effets. On désigne par effets tous les dispositifs de traitement du son. Dans les grandes familles, on trouve : - La réverbération - Le délai - Le chorus - Le Trémolo - Le vocoder - Le noise gate - Le flanger - le phasing 68

69 Lédition Audionumérique: Démonstration

70 Conclusion

71 Bibliographie [1] C. Grégoire, M. Guionneau, O. Le Blouch, Y. Yerro. Rapport par le cours Technologie Multimédia: L'audio. Novembre [2] I. Roxin, D. Mercier. Multimédia: Les fondamentaux, introduction à la représentation numérique. Vuibert, Paris, [3] J. Terrason. Les outils du multimédia. Armand Colin Éditeur. Paris,

72 Bibliographie (2) [4] La norme MIDI : [5] Article : «A tutorial on MPEG/audio compression», par Davis Pan Première publication dans IEEE Multimedia Journal, numéro dété [6] Article : «Digital Audio Compression», par Davis Yen Pan Première publication dans Digital Technical Journal, Vol. 5 No. 2, été 1993.

73 Bibliographie (3) [7] Wikipédia : Digital Audio. Dernière modification: le 17 septembre 2008.http://en.wikipedia.org/wiki/Digital_audio. [8] Wikipédia : Audio Compression (Data). Dernière modification : le 24 septembre [9] La compression numérique du son. 1.html. Dernière modification : le 18 octobre html [10] Wikipédia: Audio File Format. Dernière modification : le 11 septembre [11] Le Son Numérique.

74 Bibliographie (4) [12] Wikipédia : WaveForm audio format. format. Dernière modification : le 22 octobre format [13] Wikipédia : Audacity. Dernière modification : le 25 septembre [14] Logiciel Audacity.


Télécharger ppt "Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours Technologie Multimédia."

Présentations similaires


Annonces Google