Chapitre 3 : Le son en multimédia

Chapitre 3 : Le son en multimédia
Site Web :

I. Compression du Son Objectif de la compression
Nous avons pu voir que l'opération d'échantillonnage effectuée avec des paramètres utilisés pour les CD (16 bit, 44.1KHz) produit KB à la seconde, il s'ensuit donc que quelques minutes de musique équivalent à une quantité élevée de données. Le but d’une compression est d’optimiser les données, de réduire le débit d’informations binaires, tout en conservant une qualité sonore la plus élevée possible. Dans le cas de l’audio numérique le flux de données est considérable: une minute de données audio en qualité CD (16 bits, 44.1kHz) représente env. 10 MB de données. Une compression de ces dernières s’avère indispensable pour le stockage et la transmission.

I. Compression du Son Objectif de la compression
Dans certains contextes, ceci peut représenter un problème comme par exemple dans le cas où on désire mémoriser une grande quantité de morceaux ou alors dans le cas où on accède à un morceau mémorisé sur un ordinateur en utilisant un emplacement à distance. Dans le premier cas, plus grande est la quantité des données qu'on doit mémoriser, plus grande sera la dimension du support utilisé, ce qui sera naturellement plus onéreux. Dans le deuxième cas, le transfert de données sur un réseau se produit à une vitesse relativement réduite et le transfert d'un morceau demanderait beaucoup de temps pour être effectué, sans compter que les ressources du réseau lui-même en seraient visiblement alourdies. C'est pour ces raisons que l'on a souvent recours à une compression des données qui composent le signal sonore numérique.

Compression sans perte
I. Compression du Son Compression sans perte Ce type de compression est non destructif : le signal restitué est exactement identique au signal d'origine. On l'a vu, la numérisation du signal telle qu'elle a été décrite précédemment n'introduit aucune perte, si ce n'est les défauts produits par des caractéristiques de numérisation insuffisants. Un exemple de ce type de compression est donné avec la méthode DPCM (Differential Pulse Code Modulation). Par rapport à la numérisation de type PCM décrite précédemment, au lieu de coder intégralement chacun des échantillons numériques (sur 256 niveaux par exemple avec un échantillonnage sur 8 bits) on ne code que la différence entre deux échantillons successifs plutôt que le valeur elle même. Excepté lorsque les variations de niveaux sont importantes, le codage de la différence va nécessiter un nombre de bits beaucoup moins important.

I. Compression du Son Principe de la compression avec pertes
Les codecs de compression audio fonctionnent selon divers modes qui s’appuient tous sur des études de psychoacoustique de l’oreille humaine. Il est en effet indispensable de comprendre le fonctionnement de notre système auditif pour pouvoir développer des techniques audionumériques. Ces connaissances permettent de développer un modèle de représentation du phénomène audio. Dans le cas du signal sonore, les caractéristiques à exploiter pour la compression sont différentes de ceux de l’imagerie. La grande partie des algorithmes de compression du signal sonore se basent sur le principe du masquage, autrement dit « sur le fait que si une certaine fréquence du signal en question a une ampleur suffisamment élevée, elle aura pour effet de masquer les fréquences voisines si celles-ci ont une ampleur réduite ».

I. Compression du Son Principe de la compression avec pertes
Les algorithmes les plus connus qui opèrent selon les critères qu'on vient de décrire sont ATRAC et MP3 largement utilisés pour le transfert des fichiers audio. Dans le second, la compression est réalisée en utilisant un algorithme appelé MPEG1 Layer III qui opère en se servant du principe du masquage. Il permet d'atteindre des rapports de compression de l'ordre de 12:1. MPEG est l'acronyme de Moving Picture Expert Group. Il s'agit d'un groupe de travail qui opère sous la direction de l'ISO (International Standard Organization) et de l'IEC (International Electro-Technical Commission). A ne pas confondre l'MP3 (MPEG 1 Layer III) avec l'MPEG 3 qui est un système de compression du signal vidéo.

I. Compression du Son 1 - Phénomène de masquage :
a)- Courbe de sensibilité : La compression audio repose complètement sur des études psycho-acoustiques et la connaissance du système auditif humain. Tout d’abord, les principes de compression vont tenir compte de la courbe de sensibilité de l’oreille humaine en fonction de la fréquence. L’étude psycho-acoustique fait apparaître une bande critique à l’intérieur de laquelle un son devient audible. En pratique un codeur audio utilise des modèles psychoacoustiques pour déterminer les composantes inaudibles du signal, ce qui revient à éliminer ce que nous n’entendons pas. La difficulté de cette opération provient du fait que cette largeur de bande n’est pas constante. Cette courbe représente le seuil de sensibilité en fonction de la fréquence : des composantes fréquentielles du signal audio qui auraient des énergies inférieures à ce seuil ne sont pas utiles à transmettre puisque inaudibles.

1 - Phénomène de masquage :
I. Compression du Son 1 - Phénomène de masquage :

I. Compression du Son 1 - Phénomène de masquage :
b) - Masquage Fréquentiel et temporel : Nous avons vu que le fonctionnement mécanique de l’oreille est modifié par l’intensité du son qui arrive sur le tympan. On comprend donc que la perception d’un son de faible intensité soit modifiée par la présence ou l’absence d’un autre son plus intense . Un son intense pourra même empêcher la perception de sons de faible intensité : c’est le phénomène de masquage qui se manifeste dans une plage de fréquence autour du son intense (masquage fréquentiel) pendant la durée du son intense et même un peu plus ( masquage temporel ). Ce phénomène de masquage est tellement courant qu’on n’y prête plus guère attention . Par exemple, le passage d’une voiture nous empêche momentanément d’entendre le gazouillis des oiseaux.

I. Compression du Son 1-Phénomène de masquage :
Masquage fréquentiel : Un son d’énergie élevé (par exemple une sinusoïde pure à 1kHz) produit une zone de masquage s’étendant légèrement en dessous et surtout au dessus de cette fréquence. Les sons d’énergie plus faibles à l’intérieur de cette zone de masquage sont inaudibles. Les zones de masquage sont plus étendues pour les fréquences élevées.

I. Compression du Son 1 - Phénomène de masquage :

1-Phénomène de masquage :
I. Compression du Son 1-Phénomène de masquage : Masquage temporel : En présence d’un son d’énergie élevée, il faut un certain délai (environ 100 ms) à l’oreille pour entendre à nouveau des sons plus faibles. Mais le masquage se produit également avant ! En effet, le système auditif présente une certaine inertie (lenteur) (2 à 5 ms pour détecter un changement de 40 dB) qui fait que seuls les sons ayant une certaine durée sont audibles. Ils peuvent donc être masqués par un signal ultérieur.

I. Compression du Son 1- Phénomène de masquage
Signal à comprimer Signal comprimé La première figure montre un signal à diverses fréquences et le cheminement du seuil d'écoute de l'oreille, en correspondance des fréquences à ampleur plus élevée: La seconde figure montre le résultat de la compression obtenue en éliminant les fréquences à ampleur limitée voisines aux fréquences à ampleur élevée. Comme on peut le voir, les informations à mémoriser ont visiblement diminué.

2- Joint Stereo : I. Compression du Son
Une autre technique issue du modèle psychoacoustuique consite à enregistrer certaines fréquences en mono. Dans beaucoup de chaînes hi-fi, il y a un boomer unique (qui produit les basses fréquences). Cependant on n'a pas l'impression que le son vient de ce boomer mais plutôt des haut-parleurs satellites. Notre oreille est en effet incapable, dans les basses fréquences, de localiser l'origine des sons. Le format MP3 par exemple prévoit d'exploiter cette faiblesse en recodant certains passages en monophonie et en leur associant des informations qui permettent de reconstituer une stéréo simplifiée lors du décodage. C'est-à-dire que certaines fréquences sont enregistrées en mono mais elles sont accompagnées d'informations complémentaires afin de restituer un minimum d'effet spatial.

3- Reserve Bytes : I. Compression du Son
Souvent, certains passages d'une musique peuvent être encodés différemment sans altérer la qualité. Le codage basé sur l’effet de masque tient compte des courbe de masquage en procédant à une allocation dynamique des bits de l’échantillonnage en fonction de la fréquence. Cette technique permet d’adapter localement l’échantillonnage tout en minimisant le bruit de quantification. Le codeur s’appuie sur une bibliothèque (base de données) comprenant des schémas de quantification adaptés au contenu. Par exemple, le modèle 1 de la norme ISO-MPEG-AUDIO, qui permet un rapport de compression de l'ordre de 6, procède par une mesure à intervalles réguliers (24 ms). Le spectre obtenu permet de définir une courbe de masquage pour chacune des mesures et, après synthèse de toutes les courbes, on obtient une courbe globale indiquant pour chaque fréquence la quantité de bruit de quantification maximale inaudible. C’est ce type de codage qui est mis en oeuvre dans le format miniDisk, en téléphonie mobile, en radio numérique, dans les formats MPEG-audio etc… On parle de quantification dynamique : DBR (dynamique bit rate) ou constante CBR.

4- Codage de Huffman : I. Compression du Son
Cette technique de codage intervient après la compression en créant des blocs d’information de longueur variable qui, par tables de correspondance permet de minimiser les redondances. Lorsque les sons sont « purs » (lorsqu'il n'y a pas de masquage) l'algorithme Huffman est très efficace car le son digitalisé contient de nombreux sons redondants. Ce type d'encodage permet de gagner en moyenne un peu moins de 20% d'espace.

I. Compression du Son La compression MPEG Audio
Il existe 3 modes de compression, ce sont les Layers I, II, et III exigeant plus ou moins de temps de calcul. Pour chaque mode, le débit de données est fixé (fréquence échantillonnage et bruit de quantification). Le choix d'un très bas débit entraîne inévitablement une perte de qualité du signal original, en particulier dans la diminution de la bande passante du signal restitué. La structure même des données permet aussi, à la lecture, d'utiliser une bande passante restreinte ou de travailler en mono, ceci afin de permettre à une machine moins puissante de toujours réaliser un décodage en temps réel mais à qualité amoindrie. Les 3 types de codecs sont compatibles sur le plan hiérarchique : un décodeur de niveau 3 décodera les layers 1, 2 ou 3 mais un décodeur prévu pour le layer 2 n'acceptera de décoder que les layers 1 et 2. La complexité des codecs et les performances croissent avec chacun des layers : pour un débit donné, la qualité de la restitution sera meilleure avec un layer 3 qu'avec un layer 1 mais le codeur du layer 3 sera plus complexe.

Layer I est le plus simple qui vise une utilisation domestique. Il utilise un filtrage à 32 sous-bandes de même largeur, une allocation de bits adaptative, et une compensation de bloc. Le débit varie de 32 Kbps à 448 Kbps. En fonction de la complexité de l'encodeur, une haute qualité audio (proche du CD), implique un débit entre 256 et 384 Kbps pour un programme stéréo. Layer I est notamment utilisé dans le système de cassette numérique DCC (Philips). Layer II permet une compression plus élevée que Layer I et se destine aussi bien aux domaines audio domestique que professionnel, comme l'émission radio et télévision et les télécommunications. Le débit varie de 32 à 192 Kbps pour la mono, et 64 à 384 Kbps pour la stéréo. En fonction de la complexité de l'encodeur, une haute qualité audio (CD) implique un débit entre 192 et 256 Kbps pour un programme stéréo. La complexité du décodeur est d'environ 25 % plus haute que pour un décodeur Layer I. Layer III ajoute des filtres hybrides, une quantification non-uniforme, et un codage de type Huffman. C’est le mode qui offre le plus de compression. Layer III étend les applications du MPEG dans les télécommunications à bande étroite ou bien à certains domaines spécialisés de l'audio professionnelle. Il a été banalisé par l’usage des fichiers MP3.

Débit : = (largeur de bande passante × 2) × NbbitsQuant

I. Compression du Son La compression MPEG Audio MPEG I
Codage en sous-bandes : Pour profiter des phénomènes de masquage, le signal d'entrée est filtré dans le domaine fréquentiel en 32 bandes de fréquences, appelées sous-bandes (subbands). Chaque signal dans une sous-bande est quantifié de manière telle que le bruit de quantification (quantisation noise) introduit par le codage ne dépasse pas la courbe de masquage pour cette sous-bande. Le spectre du bruit de quantification est donc dynamiquement adapté au spectre du signal. Les paramètres concernant les quantifieurs (quantisers) utilisés dans chaque sous-bande est transmise avec les échantillons de la sous-bande codée. Le décodeur peut ainsi décoder le flux de bits sans connaître la manière dont l'encodeur a déterminé ces paramètres. Ceci permet l'utilisation d'encodeurs de différentes qualités et différentes complexités, ainsi que de proposer de futures améliorations aux encodeurs. Encodeurs et décodeurs ne sont donc pas de la même complexité, on parle de systèmes asymétriques.

I. Compression du Son La compression MPEG Audio MPEG I
Découpage en blocs : En MPEG Layer I, le signal est découpé selon l’axe des temps en des blocs d'égale longueur de 384 échantillons (soit 8 ms de signal à 48 kHz) ce qui correspond dans le domaine fréquentiel à 12 échantillons dans chacune des 32 bandes. A l'intérieur de chaque bande, le niveau est amplifié par multiplication jusqu'à sa valeur maximale. Le gain nécessaire est constant pour la durée du bloc et un seul facteur d'échelle est transmis avec chaque bloc, pour chaque bande, de façon à pouvoir renverser le processus au décodage. Une analyse permet de réaliser le modèle de masquage permettant de déterminer le degré de masquage (seuil de masquage), que l'on peut attendre dans chaque bande. Dans chaque bande, plus le masquage est agissant, moins l'échantillon doit être précis. La précision des échantillons est alors réduite par re-quantification en vue de diminuer la longueur des mots. Cette re- quantification est constante pour tous les mots d’une même bande, mais les différentes bandes peuvent utiliser des longueurs de mot différentes. La longueur de mots doit être transmise comme un code d'affectation de bits afin de permettre au décodeur de dé-sérialiser convenablement le flux de bits.

I. Compression du Son Le modèle que l'on utilise dans le codage en sous-bande se réfèrent à la manière dont une personne perçoit les sons. Le modèle utilisé lors du codage détermine quelles sont les fréquences sensées masquer d'autres fréquences. A la lecture, le décodeur retrouvera les paramètres concernant le modèle utilisé dans le flux du signal même. Plusieurs modèles existent (Musicam, AT&T), qui sont plus ou moins adaptés au type de données audio à compresser.

I. Compression du Son MPEG I La compression MPEG Audio
Les 384 échantillons de chaque bloc forment une trame comprenant un mot de synchronisation et un en- tête, suivis de 32 codes d'affectation de bits de 4 bits chacun. Ces codes décrivent la longueur des mots des échantillons dans chaque sous- bande. Viennent ensuite les 32 facteurs d'échelle utilisés par la compression dans chaque bande, indispensables pour rétablir le bon niveau au décodage. Ces facteurs d'échelle sont indispensables pour rétablir le bon niveau au décodage. Les facteurs d'échelle sont suivis des données audio de chaque bande.

I. Compression du Son MPEG I La compression MPEG Audio
Le mot de synchronisation est détecté par le générateur de temps qui dé-sérialise les bits d'affectation et les données de facteur d'échelle. L'affectation de bits permet ensuite la dé-sérialisation des échantillons à longueurs variables. La re- quantification inverse et la multiplication par l'inverse du facteur d’échelle sont appliquées de façon à ramener le niveau de chaque bande à sa bonne valeur. Les 32 bandes sont ensuite rassemblées dans un filtre de recombinaison pour rétablir la sortie audio.

I. Compression du Son La compression MPEG Audio MPEG II
En Layer I, l'analyse du spectre n'est pas très précise dans la mesure où cette analyse utilise simplement les 32 sous-bandes du codage. Cette figure montre que, lorsque le filtre de séparation de bandes est utilisé pour créer le modèle de masquage, l'analyse de spectre n'est pas très précise dès que l'énergie est répartie dans la totalité d’une bande. Une analyse spectrale plus précise autoriserait un facteur de compression plus élevé. Dans la layer II, pour améliorer la précision de la résolution de fréquence, il faut augmenter l'exécution temporelle de la transformée, ce qui est effectué en portant la taille du bloc à 1152 échantillons ce qui correspond à 36 échantillons pour chaque bande.

I. Compression du Son La compression MPEG Audio MPEG II

MPEG Layer III Le MP3 (« MPEG-1 Audio layer 3 ») est un format de compression de données audio par destruction de données, développé par l'organisation de standardisation internationale (ISO - International Standard Organization). Ce format permet de compresser à un taux de 1:12 les formats audio habituels. Il permet de faire tenir l'équivalent en fichiers de douze albums de musique sur un seul CD-ROM. De plus, le format MP3 n'altère que faiblement le son pour l'oreille humaine. Comme pour les couches 1 et 2 du MPEG, la couche 3 utilise de son côté un codage à par séparation de bandes. Pour obtenir un facteur de compression élevé, la technique du joint stéréo et appliquée et un recodage des coefficients à longueur variable est effectué selon l’algorithme de Huffman. Cette technique attribue les mots les plus courts aux valeurs de code les plus fréquentes. Ce niveau complexe de codage n'est en réalité utilisé que lorsque les facteurs de compression les plus élevés sont nécessaires. Il comporte quelques points communs avec la couche 2.

I. Compression du Son La compression MPEG Audio MPEG Layer III
Ainsi, une minute d'un CD-audio (à une fréquence de 44.1 kHz, 16 bits, stéréo) ne prendra qu'un seul Mo. Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible même avec un modem. Le décodage d'un fichier MP3 est relativement peu coûteuse en utilisation du processeur, tandis que l'encodage est plus gourmand.

I. Compression du Son Applicabilité de la compression Il faut néanmoins se rappeler que la conversion au numérique du signal sonore analogique introduit une dégradation (due à l'opération de quantification). Les 16 bit de quantification du format standard du Compact Disc sont à peine suffisants pour arriver è une qualité acceptable dans le domaine professionnel. Donc la possibilité d'introduire une compression de type lossy sur les données n'est même pas à tenir en compte. Dans d'autres contextes, où la qualité ne représente pas un facteur fondamental, il se trouve que la meilleure solution est la compression. Comme par exemple sur Internet ou sur les lecteurs MP3 portables qui permettent de mémoriser des centaines de morceaux dans une mémoire RAM (sur un CD il est possible de mémoriser 74 minutes de musique pour une moyenne de 10 à 12 morceaux; sur le même support, on peut mémoriser une centaine de morceaux en forme de données de type MP3).

II. Les Formats AUDIO numériques
Le format d'un fichier audio prend en considération un ensemble de facteurs liés à la numérisation de la source : Fréquence d'échantillonnage du signal sonore analogique Codage de chaque échantillon (1, 2 ou 3 octets soit : 8, 16 ou 24 bits) Nombre de canaux ("pistes") utilisés (son mono = 1, stéréo = 2, multipiste = 3 et plus). L'utilisation de plusieurs pistes audio permet de restituer le son sur un système comportant plusieurs enceintes (une par piste). Une piste est un canal d'enregistrement réservé à un son, pour une durée déterminée, avant le mixage. Plus on augmente la fréquence d'échantillonnage, la valeur de codage ou/et le nombre de canaux, plus la qualité sera bonne ... et le poids du fichier audio lourd.

Poids du fichier (kilooctets/seconde) = Fréquence x Codage x Nb de pistes. à la compression utilisée (codec): Pour réduire la taille du fichier (pour permettre son stockage et faciliter sa transmission), les données sont, en effet, généralement compressées. Mais, plus le fichier est compressé, moins la qualité sonore sera bonne. La compression est indispensable si la séquence sonore doit être écoutée en temps réel, pendant son téléchargement (streaming). Dans ce cas, les taux de compression peuvent être élevés. Ils sont parfois différenciés selon le débit de la liaison. à l'organisation des octets dans le fichier : Certains formats sont adaptés à un usage local sur l'ordinateur, d'autres, au streaming.

Les formats audio sont en général du type auto-décrit, c’est à dire que le fichier contient un en-tête qui décrit les particularités du codage (échantillonnage, nombre de canaux, type de compression, etc.). Le choix du format est lié à l’utilisation qui sera faite du fichier (transfert sur lecteur MP3, montage audio "musical", postproduction vidéo, streaming, podcasting,...). Les formats sont nombreux et pour la plus grande partie liés à une utilisation spécifique, respectivement à un support dédié:

Formats non compressés : CDA (Compact Disc Audio) Extension : .cda Format des pistes des CD audio. PCM (Pulse Code Modulation) Extension : .pcm Codec audio non compressé utilisé pour les disques compacts audio (CD), pour l'enregistrement sur bandes DAT, les disques optiques à haute capacité, ainsi que pour les fichiers WAV standard. Il Peut contenir jusqu'à 8 canaux et supporte les résolutions : 16, 20 ou 24 bits WAV (ou WAVE) Extension : .wav est le format natif des systèmes Windows. Format propriétaire et ouvert, mono ou stéréo, mis au point par Microsoft et IBM. Fichier conteneur le plus courant pour l'audio non compressé sur les plates-formes de Microsoft, mais il est également courant sur les systèmes GNU/Linux aussi. Il est le codage le plus couramment utilisé pour la compression, car il confère au format un encodage et un décodage immédiats avec une qualité sonore excellente. Cependant la taille des fichiers est très importante. Il n y a pas de gestion de métadonnées. Le Fichier est limité à 2 Go et est Compatible avec tous les lecteurs audio.

Formats non compressés : AIFF (Audio Interchange File) Extension : .aif ou .aiff est à l’origine développé par Apple, ce format permet une grande variété de codage de fréquences et résolutions d’échantillonnage. Utilisé pour le mixage et l’encodage des données destinées au CD audio (44100 Hz, 16 bit, stéréo ). Fichier conteneur. propriétaire et ouvert. Equivalent du format Wav dans le monde Macintosh. Les fichiers sont très volumineux. Le format AIFF-C (ou AIFC) supporte une compression. Résolutions possibles : 8, 16, 20, 24 et 32 bits. Peut être lu avec les lecteurs audio : Quicktime, iTunes, Winamp, Audacity. µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité audio est donc réduite.

Les formats compressés Ce sont en principe des fichiers de type AIF, WAV ou AU auquel on à appliqué un algorithme de compression. Les principales normes de codecs sont: Real Audio Extension : .ra (real audio), .rv (real video), .rm (real media), .ram (real audio metadata) Famille de codecs audio propriétaires (RealNetworks). Très ancien. Il permet de diffuser de la musique sur internet en utilisant la technique du streaming. Les fichiers RealAudio sont compressés selon différents formats. Lisible avec RealPlayer. MACE : très rapide, elle ne demande pas beaucoup de ressources processeur. Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls les fichiers 8 bits sont supportés. L’environnement Macintosh la propose à l’enregistrement de tout fichier faisant appel au format Quicktime. Utile uniquement pour sons système. IMA: solution intermédiaire entre qualité et espace, le ratio de compression est de 4:1 et l’encodage est possible sur 8 ou 16 bits.

Les formats compressés MP3 (MPEG-1 Layer 3) Extension : .mp3 Cette norme garantit une bonne qualité et permet des taux de compression importants allant jusque à un facteur de 12:1. (format très répandu sur le web, Ipod, Mini-Disc). Le format fichier est propriétaire et ouvert et fait l'objet d'une licence. Il représente le Codec audio le plus répandu. La couche (layer) 3 de la norme MPEG-1 (compression destructive) est dédiée à des applications nécessitant des débits faibles. MP3 est devenu ainsi idéal pour la diffusion libre sur internet. Un encodage de 128 ou 192 kilobits par seconde (kbit/s) permet de bénéficier d'une qualité audio acceptable pour un morceau de musique. Compatible avec presque tous les logiciels existants. Il supporte 2 canaux maximum en stéréo et le stockage et la gestion des métadonnées. Elles permettent de contenir des informations comme le nom de l'artiste, le titre, l'auteur-compositeur. Il ne supporte pas la gestion des droits d'accès (DRM) et le streaming. Le codec MP3Pro est une évolution de mp3 et présente un meilleur ratio qualité/poids.

Les formats compressés OGG Vorbis Extension : .ogg Format ouvert et libre (concurrent des formats propriétaires MP3, WMA et AAC). OGG est un fichier conteneur qui peut contenir des pistes sonores (codec Vorbis), audio sans perte (codec FLAC), audio parlées (codec Speex) ou/et vidéo (codec Theora). OGG Vorbis contient des pistes sonores au format Vorbis. Vorbis est un codec audio ouvert et libre. Il utilise une compression destructive, et un encodage VBR. Il est plus performant en terme de qualité et taux de compression que le format MP3 car il offre une bonne compression jumelée avec une très bonne qualité sonore. Sa qualité est estimé sur une échelle de 1 à 10. Ce format est sans doute le meilleur dans les très hauts niveaux d’encodage (de q5 à q10). Une équivalence avec le MP3 peut être approximativement donnée : Ogg q5  Mp3 160 Kbps Ogg q7  Mp3 224 Kbps Ogg q9  Mp3 320 Kbps , Ogg q10: Mp3 500 Kbps La structure en paquet le rend bien adapté à une utilisation en streaming sur l'internet. Il Permet un enregistrement polyphonique (jusqu'à 255 canaux son). Peut être lu avec les lecteurs audio : MPlayer, Winamp, VLC (VideoLAN Client), Windows Media Player, Audacious, Whamb, etc. Cependant, il est non pris en charge par les baladeurs numériques iPod de chez Apple.

Les formats compressés AAC (Advanced Audio Coding) Extension : .aac, .mp4, .m4a Format propriétaire et fermé ; il est le Codec concurrent direct du WMA. Il représente l’un des formats successeurs au MP3. Utilise une compression audio avec perte de données (extension du MPEG-2 et amélioré en MPEG-4). Format des fichiers audio supportés par Apple pour son baladeur numérique iPod et son logiciel iTunes. Possibilité de gérer des sons sur 48 canaux différents. Il supporte la gestion des droits d'accès (DRM) et la fonction « Gapless », qui permet ne plus avoir de coupure entre 2 morceaux. Peut être lu avec les lecteurs audio : iTunes, Winamp. FLAC (Free Lossless Audio Codec) Extension : .flac ou .fla Format ouvert et libre. Il utilise un Codec de compression audio non destructive ("lossless" : sans perte acoustique). Compression faible par rapport au MP3. Ce format est utilisé pour l'archivage ou l'édition. Il utilise un format VBR. Il autorise le Streaming (la décompression se faisant par blocs). Il supporte la Gestion des métadonnées et est caractérisé par une grande rapidité de décodage, mais moins performant à l'encodage. Il peut être lu avec les lecteurs (après ajout d'un plug-in) : Adobe Audition, Audacity, Winamp, XMMS, etc. Il offre les résolutions de 4 à 32 bits.

Les formats compressés Monkey's Audio Extension : .ape Format fermé. Il utilise un Codec de compression audio sans perte. Taux de compression légèrement meilleur que celui de FLAC : division par deux de la taille des fichiers audio. MPC (Musepack) Extension : .mpc Format ouvert et libre. Il utilise un Codec de compression audio destructive, basé sur le format MPEG-2. Grande qualité sonore bien supérieure au MP3 ou à l'Ogg. Il supporte aussi, comme le format AAC, le « GapLess », qui permet de ne pas faire de coupure entre 2 morceaux. Codage et encodage très rapides. WMA (Windows Media Audio) Extension : .wma Format propriétaire et fermé de compression audio destructive développé par Microsoft. Uniquement compatible avec Microsoft. Alternative au MP3 : plus souple mais moins répandu. A la fois codec et fichier conteneur. Différentes déclinaisons : compressé, non compressé, avec ou sans DRM (gestion des droits d'accès ). Il supporte le streaming et bien adapté à la diffusion par internet (si compressé). Il permet 2 canaux maximum en stéréo. Format CBR ou VBR. Peut être lu avec les lecteurs audio : Media Player, Winamp.

Formats Hybrides QUICKTIME : méta-format Apple qui permet d’encapsuler, de compresser et d’interfacer l’accès à divers types de média permet de lire et de traiter les formats les plus courants : AIFF, WAV, AU, MP3, etc.… MOD (.mod) ce format est proche du MIDI dans son principe à la différence près qu’il inclus les échantillons sonores utilisés dans la partition. Utilisé dans l’environnement "Reason" Rich music Format (.rmf), développé par Headspace pour la diffusion web, ce format permet d’encapsuler les échantillons audio, les données MIDI et les données d’arrangement à l’intérieur d’un seul fichier. La restitution est faite par un plug-in.

Extension Type Accès Plateforme Usage Codec Conteneur Propriétaire Ouvert Libre PCM .pcm X Mac Windows Linux Audio non compressé. WAV .wav - Windows Linux Couramment le plus utilisé pour l'audio non compressé (PCM). AIFF .aif, .aiff Mac Linux Audio non compressé (PCM). RealAudio .ra, .ram Streaming MP3 .mp3 Idéal pour la diffusion libre sur internet WMA .wma Adapté à la diffusion par internet. Compression avec ou sans pertes.

Extension Type Accès Plateforme Usage Codec Conteneur Propriétaire Ouvert Libre AAC .aac, .mp4, .m4a X - Mac Linux Un des formats successeurs au MP3. OGG Vorbis .ogg Mac Windows Linux Alternative à MP3, WMA et AAC. Très bonne qualité sonore. MPC .mpc, .mp+ Qualité sonore bien supérieure au Mp3 ou encore à l’Ogg. FLAC .flac, .fla X. Compression sans pertes. Monkey'Audio .ape

II. Les Format s AUDIO numériques
Le format MIDI Le terme MIDI est l'acronyme de Musical Instrument Digital Interface, et c'est un protocole de communication conçu en 1983, qui permet de piloter un dispositif musical à travers un appareil contrôleur. A l'aide de ce protocole de contrôler en même temps une série d'appareils de manière synchronisée. Le MIDI (Musical Instruments Digital Interface):n’est pas à proprement parler un format audio mais un système complet d’interface et d’édition numérique. Un document MIDI contient une description d’un morceau de musique sous la forme d’une partition. Celle-ci inclue des indications sur la hauteur, la durée, la modulation, etc… ainsi que l’attribution d’un instrument. C'est un protocole de communication pour l'échange de données musicales entre instruments de musique électronique. Ces instruments peuvent être des synthétiseurs, des ordinateurs, des contrôleurs d'expressions comme le saxophone midi, etc... Ces instruments sont raccordés entre eux par une prise DIN à 5 broches. Le document midi est un format texte, il est donc extrêmement compact. Les informations qu’il contient permettent de synthétiser la musique sur tout instrument conforme à cette norme: synthé, piano etc… ou en recourant à un synthétiseur du type quick-time. Le format midi offre une alternative à la diffusion de musique. La qualité de reproduction du morceau est liée au synthétiseur utilisé. Un éditeur midi permet de travailler directement sur la partition musicale

Introduisons le principe de fonctionnement en nous basant sur un clavier-synthétiseur pourvu d'une interface MIDI contrôlée par un ordinateur. L'ordinateur est doté d'un logiciel en mesure "d'enregistrer les impulsions issues du clavier-synthétiseur en mémorisant également les laps de temps de leur arrivée; on peut donc exécuter un morceau musical sur le clavier-synthétiseur et "l'enregistrer" sur l'ordinateur. Il est important de comprendre que l'ordinateur n'enregistre pas en fait les sons issus du clavier-synthétiseur, mais des codes correspondants aux notes qui sont jouées ainsi que leur durée. Durant la phase de reproduction, l'ordinateur envoie au clavier-synthétiseur les codes qu'il a mémorisées précédemment et le clavier-synthétiseur les interprète exactement comme si un musicien avait effectivement joué à ce moment-là les notes correspondantes. Le protocole n'a pas subi de variations depuis sa création (même si en fait il a subi plusieurs extensions) et donc même de très vieux dispositifs sont en mesure de communiquer avec des dispositifs modernes. Nous verrons en détail au cours de cette section comment fonctionne le protocole MIDI et les contextes dans lesquels on l'utilise. De nos jours, les dispositifs sont souvent pilotés par les ordinateurs et par conséquent, la partie de protocole concernant la couche physique (câbles, connecteurs) a changé, passant au standard USB. En d'autres termes, la connexion MIDI est effectuée à travers les câbles et connecteurs de type USB. Cependant, la partie applicative du protocole (celle concernant les messages) est restée invariée.

Exemple de branchement de plusieurs machines synchronisées par la norme MIDI

III. Traitement du Son Compresseur : processeur de signal (électronique ou logiciel) permettant de manipuler le niveau, la dynamique du signal audio. En général utilisé pour diminuer l'écart entre les sons forts et faibles, mais permet également bien d'autres possibilités. Compresseur multibande : une variante du compresseur permettant de traiter la dynamique du signal sur plusieurs bandes de fréquences simultanément, ce qui permet par exemple de réduire le volume d'un son de basse sans affecter un son de flûte. Egaliseur : l'égaliseur permet de corriger une certaine gamme de fréquence en lui appliquant un gain ou une atténuation. Le choix et le nombre de bandes de fréquences ainsi que les réglages possibles déterminent le type d'égaliseur auquel on a affaire : égaliseur passe-bas ou passe-haut qui permet de filtrer les fréquences au- dessus ou en-dessous d'un fréquence donnée, égaliseur graphique qui permet de régler le gain d'un certain nombre de fréquences fixes, et égaliseur paramétrique, qui permet de choisir précisément la fréquence et l'étendue de la correction. Echo ou Delay : Effet basé sur une simple répétition du son avec un retard réglable. Les versions évoluées de cet effet peuvent comporter des réglages supplémentaires tels que plusieurs réglages de retards différents, variation des retards dans l'espace stéréo, filtrage fréquentiels des retards, etc...

III. Traitement du Son Chorus : Effet temporel basé sur une réinjection d'une partie du signal d'origine retardée et traitée avec une léger désaccord de hauteur variable, de manière à faire apparaître le son plus « riche », plus ample. Fader : Potentiomètre linéaire logarithmique utilisé en audio pour le contrôle de volume d'une piste audio. (Fade in ou Fade out) Flanger : Le flanger est un effet temporel basé sur un réinjection d'une partie du signal d'origine avec une variation en fréquence, elle-même variant périodiquement à une fréquence très faible, généralement de quelques hertz. Réverbération : La réverbération ou « reverb » est un effet cherchant à restituer l'ambiance acoustique d'un lieu plus ou moins grand, de la salle de bains à la salle de concert. Elle permet de donner de l'ampleur à un son. Elle peut être simulée dans les processeurs d'effets (électroniques ou logiciels) à partir d'une somme de très nombreux échos simples, ou enregistrée dans le lieu à l'aide de micros et de haut-parleurs. Généralement, une unité de réverbération possède de nombreux réglages permettant d'adapter l'effet aux souhaits de l'ingénieur du son.

Chapitre 3 : Le son en multimédia

Présentations similaires

Présentation au sujet: "Chapitre 3 : Le son en multimédia"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Chapitre 3 : Le son en multimédia

Présentations similaires

Présentation au sujet: "Chapitre 3 : Le son en multimédia"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back