Le traitement des essences vidéo & audio : Du MPEG 1 au MPEG 4 Formation Koan
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
La normalisation numérique : trois opérations différentes et successives La quantification : échantillonnage et transformation d’un signal en valeur numérique binaire le codage de source : représenter de manière compacte les grandeurs quantifiées (compression numérique) le codage de canal : stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, réseaux informatiques, …)
La quantification : transformer une valeur en codage binaire 26 27 24 25 22 23 20 21 64 128 16 32 4 8 2 1 + 64 + 8 + 2 Total : 74
La quantification sur 8 bits : de 0 à 256 valeurs Valeur minimum : + 0 + 1 1 = 001 Valeur maximum : + 64 128 + 16 + 32 + 4 + 8 + 0 + 2 1 = 256
La quantification sur 8 bits : de 0 à 256 valeurs : Un Bit peut connaître deux états: 0 ou 1. Les Bits en informatique sont généralement placés en série de 8 BITS appelés BYTES ou OCTET. Avec 8 BITS dans un BYTE ou OCTET, on peut différentier 256 valeurs numériques différentes comprises entre 0 et 255. 1 = 0 = 1 = 2 = 254 = 255
La quantification sur 9,10,11,12,14 bits : A chaque fois que l’on ajoute un bit supplémentaire, le nombre de combinaisons (et donc de valeurs) double : 9 Bits possèdent 512 états 10 Bits possèdent 1.024 états 11 Bits possèdent 2.048 états 12 Bits possèdent 4.096 états 13 Bits possèdent 8.192 états 14 Bits possèdent 16.384 états 15 Bits possèdent 32.768 états 16 Bits possèdent 65.536 états Pour un nombre supérieur à 2.500, il faut un codage sur au moins 12 bits, pour 50.000, il en faut au moins 16 bits.
Le codage binaire : l’inflation des ressources ! 1 1 1 1 1 128 64 32 16 8 4 2 1 128 + 0 + 32 + 0 + 8 + 4 + 0 + 1 Nombre entier : 173 (3 digit) - codage binaire : 10101101 (8 digit)
La normalisation numérique : trois opérations différentes et successives La quantification : échantillonnage et transformation d’un signal en valeur numérique binaire le codage de source : représenter de manière compacte les grandeurs quantifiées (compression numérique) le codage de canal : stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, lignes téléphoniques)
Le Codage de source : la compression numérique des images Objectif de la compression numérique : réduire le débit en comprimant fortement le poids des images à stocker ou à transmettre Exploitation de : Les redondances spatiales: intra image. Les redondances temporelles: inter images Les redondances subjectives: vision de détails Les redondances statistiques: codages entropiques. But : réduire le débit et conserver autant que possible la qualité des images originales.
La normalisation numérique : trois opérations différentes et successives La quantification : échantillonnage et transformation d’un signal en valeur numérique binaire le codage de source : représenter de manière compacte les grandeurs quantifiées (compression numérique) le codage de canal : stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, lignes téléphoniques)
Le codage de source & le codage de canal Analogique Numérique Source : ISO Canal : DVB NTSC PAL SECAM PAL + D2MAC HDMAC M P E G 2 / 4 DVBS : QPSK DVBT : COFDM DVB-C : QAM XDSL
Codage source - Codage de canal : Codage de source Codage de canal Codage de l’image du son n°1 du son n°... Codage des données Modulation Multiplexage pour 1 programme Embrouillage Multiplexage des divers programmes Autres Programmes
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
La Fréquence d’échantillonnage Un signal est numérisé par un convertisseur analogique / numérique. Il est découpé à un rythme régulier ou période. On défini ainsi sa fréquence d’échantillonnage. La loi de Nyquist détermine que la fréquence d’échantillonnage doit être au moins le double de la plus haute fréquence reproductible. La fréquence d’échantillonnage est au minimum de 13,5 Mhz, c’est-à-dire au moins deux fois supérieure à la fréquence maximale du signal qui est de 5,5 Mhz. A chaque période le signal est quantifié et converti en valeurs binaires 0 ou 1.
Le système couleur en télévision : 1 pixel = 3 valeurs Composants couleur = R + V + B = Blanc R V - G B
Le système couleur en télévision : RGB – RVB Composants couleur = codage sur 8 bits Red - Rouge = 256 niveaux de Rouge Green - Vert = 256 niveaux Vert Blue - Bleu = 256 niveaux Bleu
Le système couleur en télévision : Y = 0,3 R + 0,59 V + 0,11 B Vert Bleu Rouge Système RVB R - Y B - Y Y Composants couleur
Le système couleur en télévision : 1 pixel = 3 valeurs Composants couleur Y = luminance = chrominance B - Y = chrominance R - Y
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
Avis de l’UIT : CCIR 601 Définition d’une image Tv en format 4/3 : 25 images/seconde 720 pixels/ ligne 576 lignes/ Pal ou Secam
Une Image Vidéo numérique Tv SD: 6.480 Macro-Blocs 8 x 8 pixels = 1 macro-bloc 720 pixels/ ligne 576 lignes/ Pal ou Secam
Echantillonnage luminance : Macro- bloc 8 x 8 pixels 132 132 121 132 132 132 142 132 132 133 134 135 132 137 142 140 132 130 133 135 132 135 145 141 123 129 123 135 132 137 142 138 132 130 133 136 132 135 142 140 132 130 133 135 132 135 142 121 21 23 23 21 22 21 21 21 137 137 137 137 137 137 137 137
Le système couleur en télévision : échantillonnage en 4.4.4 : 137 147 127 133 97 128 125 157 141 R - Y B - Y Y 137 147 127 133 97 128 125 157 141 137 147 127 133 97 128 125 157 141
Les différents modes d’échantillonnage en Tv numérique : 4.2.2. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B et R) tous les deux pixels. C ’est le format D1, Betacam numérique, DVC-Pro 50. 4.1.1. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B et R) tous les quatre pixels. C ’est le format DVC-Pro 25. 4.2.0. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B ou R) tous les deux pixels. C ’est le format du Dv et Dv-Cam
Echantillonnage chrominance : Macro- bloc 8 x 8 pixels : 4 1 1 42 32 42 39 32 35 23 32 32 32 32 32 21 22 37 37
Echantillonnage chrominance : Macro- bloc 8 x 8 pixels – 4 2 0 32 21 32 42 42 34 32 42 42 33 32 45 53 23 32 42 42 33 32 42 42 33 32 42 21 23 22 21 37 37 37 37
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
La compression spatiale vs la compression temporelle : Compression temporelle = GOP : Group of pictures
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
Les formats de Compression : La DCT (Discrete Cosinus Transform) La DCT est utilisée pour le Jpeg en image fixe et pour le Mpeg-1, Mpeg-2, ou le Mpeg-4. Division de l’image en Macro Blocs par bloc de 8 x 8 pixels. 2. La DCT opère une transformation du domaine spatial de pixels en domaine d’espace de fréquence. Elle utilise une fonction mathématique basée sur la transformée de Fourier. On aboutit à une matrice dont les différentes valeurs vont directement représenter la quantité de détails dans la portion d’image concernée.
Les formats de Compression : la DCT (Discrete Cosinus Transform) 135 136 152 132 130 147 155 138 137 151 134 145 139 141 142 143 153 154 140 144 156 150 122 124 148 128 172 -18 15 -8 23 -9 -14 19 38 -34 25 -10 11 14 12 21 9 -6 3 -5 8 5 -1 6 4 -4 -2 -3 -7 1 2 DCT La quantification est non conservatrice et contrôle le débit. Elle applique des coefficients afin de réduire les écarts de niveaux dans les hautes fréquences où l'œil est moins sensible. Cette réorganisation s’effectue par ordre croissant, les détails les plus fins étant situés en bas et à droite de la matrice, la première valeur en haut à gauche, représentant la valeur moyenne de la matrice.
Le traitement des essences : du MPEG 1 au MPEG 4 Principes de numérisation : Quantification, échantillonnage Le codage source (Compresssion numérique) Codage de canal Le système de représentation des couleurs en télévision L’échantillonnage des images La compression : spatiale et temporelle Les algorithmes de compression : DCT, Ondelettes, fractales, … Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4
Organisation ISO - IEC Joint Technical Committee of Information Technology (JTC 1) - Joint ISO/IEC activities : SC 29 : Codage audio, image, multimédia et hypermedia : WG 1 : Joint Photographic Experts Group (JPEG) WG 11 : Moving Picture Experts Group (MPEG) WG 12 : Multimédia Hypermedia Experts Group (MHEG)
Les normalisations ISO : JPEG - MPEG Joint Picture Experts Group Image fixe => JPEG (ISO/IEC IS 10918) Moving Picture Experts Group Video => MPEG1 (ISO/IEC IS 11172) MPEG2 (ISO/IEC IS 13818) MPEG4 (ISO/IEC 14496 )
Codage source : les technologies de compression numériques Le codage Jpeg (intra image) basé sur la DCT (Discret Cosine Transform) Le codage Mpeg (inter-image) basé sur la DCT (Discret Cosine Transform), des images de base (codée en intra-image), des images prédites, des intermédiaires, des vecteurs de mouvements, …. Le codage «ondelettes» - MJPEG 2000 Le codage «fractale»
Le système de codage MPEG-2 Décompose Temporal Prédiction Transform Quantifié Entropy code 1620 Blocs de 64 pixels Discrete Cosine Transform (DCT) Fréquence spatiale Complexité du bloc Débit maximum Bitstream Longueur des mots Inversement proportion. à la fréquence d’apparition Group of pictures GOP : 12 - 16 I B P I Intracoded frame P Forward/predicted frame B Bi-directional/interpolated frame
Le système MPEG-2 : 4 Levels – 5 Profiles HP@HL Mb/s 100 MP@HL HP@H14L 80 MP@H14L SSP@H14L 60 LEVELS 40 HP@ML 1920x1152x25 High MP@ML SNRP@ML 20 SP@ML 1440x1152x25 High 1440 720x576x25 Main MP@LL SNRP@LL 352x288x25 Low Simple Main SNR scalable Spatially High PROFILES
La norme MPEG-2 Vidéo : les différents «profile» “Un «profile» est une séquence définie de la syntaxe totale de l’information numérique” 5 profiles : Simple profile (SP) (faible consommation de mémoire) Main profile (MP) (grande efficacité de codage) SNR profile (SNR) = MP + dégradation tolérable (SPATIAL) = SNR + compatibilité TV/ HDTV High profile (High) = Spatial + options spéciales
MPEG 2 - Audio L R C Ls Rs LFE ML/Com M A T R I X T0 T1 T2 T3 T4 D E M n c o d e r Basic Stereo M C - E n c o d e r + MC-Extension Information LFE : low frequency enhancement ML/C : multilingual channels
Les différentes normalisations MPEG 4 : Moving Picture Experts Group : Video => MPEG 4 SP Simple profile MPEG 4 ASP Advanced Simple Profile MPEG 4 AVC Advanced Video Coding
MPEG 4 : GPO variable et Macroblocks groupés GOP : en synchronisation avec les plans (segmentation de l’objet AV
MPEG 4: concept numérique ISO MPEG-4 AVC= H.264, MPEG-4 part 10, Encodage numérique descriptif d'objets audiovisuels, des rapports entre ces objets et un contexte : L'encodage MPEG4 exploite une "boite à outils" générique pour segmenter automatiquement et figurer une vidéo dynamique tout en localisant et en caractérisant les objets de manière compacte et individualisée Exemple de segmentation d'une scène mobile par un encodeur MPEG4: reconnaissance des personnages en mouvement relatif.
MPEG 4 : concept numérique ISO Acquisition MPEG 4 L'acquisition exploite un système de maillage automatique produit par l'encodeur lequel découpe et structure les images 2D et 3D La modélisation se fait par la projection d'un maillage 3D composé de polygones dont la finesse est déterminée par la structure du maillage et par une liste plus ou moins importante de nœuds (déterminé à l'acquisition en fonction du flux MPEG4 souhaité en final) A gauche maillage automatique et à droite l'image "reconstruite" avec 3200 nœuds (c'est trop peu!). Dans ce cas 95% des échantillons ont été éliminés..
MPEG 4 : concept numérique ISO Exemple d'un traitement MPEG 4 : segmentation et fusion d'ingrédients L'encodeur isole le fond et recrée un pano du fond de scène complet (estimation et compensation de mouvement par blocs de 8 ou 16 pixels) L'encodeur extrait le personnage en mouvement Le fond est encodé une fois, seules les variations formelles y sont ré-encodées en fonction des besoins. L'encodeur incruste le joueur en mouvement tenant compte des zones masquées. Les zones non reconnues sont représentés par de la DCT Le décodeur recrée la scène grâce aux paramètres de la caméra pour le fond et au joueur envoyé dans sa position à chaque image
MPEG 4 : cartes de segmentation Objets répertoriés, localisés, temporisés, à échelle variable Pour chaque objet vidéo et pour chaque séquence l'encodeur crée des répertoires hiérarchiques qui comprennent des couches d'informations successives pour décrire les objets (topologie, mouvement, formes, couleurs, textures, sons associés) La localisation est spatiale et temporelle selon une grille auto produite. Le maillage s'anime dans l'espace et le temps. La topologie est évolutive selon des cartes de segmentation qui prennent en compte diverses caractéristiques spatio-temporelles des mouvements Une autre caractéristique est la scalabilité = structuration multi échelle du travail d'analyse et de découpage : Scalabilité des objets eux-mêmes Scalabilité spatiale Scalabilité temporelle Scalabilité de la représentation Scalabilité de la distribution (en termes de flux vers l'usager)
MPEG 4 : la qualité à la demande Les flux MPEG 4 : Les flux sont variables, progressifs et hiérarchiquement emboités. Les flux entrants dans les décodeurs usagers sont lus en fonction des caractéristiques des décodeurs - le consommateur pouvant intervenir sur des ingrédients de la composition séquentielle - c'est la qualité à la demande qui permet d'utiliser MPEG 4 sur des réseaux diversifiés à capacité ≠ entre 1Mbps (xDSL) et 1000 Mbps (HD) Les versions successives MPEG 4 sont "survitaminées" l'une par rapport à l'autre. L' "intelligence" des dernières versions s'est déployée dans plusieurs dimensions… .
MPEG 4 : concept numérique ISO Les flux MPEG 4 La compression MPEG 4 est qualitativement très performante ! Si on compare la qualité des images d'un match de tennis encodé en MPEG 4 AVC et MPEG 2 sur des machines comparables à 30 fps, l'indice PSN est déjà au maximum pour un débit de 1,5Kbps alors que pour la même qualité MPEG 2 nécessite un débit de 3000 Kbps *! *In Broadcast Engineering, october 2003, by Mario Rainville & Amir Segev (pp 22-27) www.broadcastengineering.com
L'univers MPEG 4 : en développement permnanent ! Amélioration du codage des visuels "naturels" Animation des corps Codage en maillage des objets 3D Améliorations audio Améliorations systèmes BIFS avancé* (Binary Format for Scene Description) Définition d'un format de fichier M4F Améliorations protocolaires MPEG 4 est une norme "en mouvement" régulièrement améliorée, certains développements pouvant être adressés aux décodeurs des usagers par les diffuseurs. *Binary Format for Scene Description (descripteur de la synchronisation dynamique des objets dans une scène encodée/décodée)
Relations entre les différentes normes MPEG 1, 2, 4, et 7 Voix Ordinateur Femme Homme assis ... MPEG-7 Extraction d’objets MPEG-4 Télévision géométrique basée sur le pixel MPEG-1 MPEG-2
Relations entre les différentes normes MPEG 1, 2, 4 et 7 Du pixel à l’objet avec un codage sémantique : MPEG-7 Sémantique Extraction d’objets MPEG-4 Représentation orientée objet Formation Traçage des objets MPEG-1 MPEG-2 Représentation orientée pixel
Univers MPEG : compatible et MPEG 4 "comprend" donc MPEG 2 et MPEG 1 interopérable MPEG 2 MPEG 4 MPEG 7 MPEG 21 MPEG 1 1991 1994 1998 2001 2005 Le groupe ISO MPEG veille à la compatibilité entre les nouvelles normes et celles antérieurement définies. MPEG 4 "comprend" donc MPEG 2 et MPEG 1
Le MPEG 4 choisit par la France pour les autres types de diffusion: Satellite, HD, Multimédia, etc. Le MPEG-4 est né pour permettre l’intégration du multimédia, la sémantique et l’interaction. En plus de son développement pour le Digital Cinema le MPEG-4 propose une réponse à des besoins pour des champs d'applications variés comme des services audiovisuels interactifs à la télésurveillance en bas débit, mais aussi pour répondre au souhait de l’industrie audiovisuelle de disposer de chaînes de production virtuelle et cela avec des débits importants plus de 300 Mb/sec. Le MPEG 4 couvre un grand champ d’action allant de l’application Internet très haut débit avec WINDOWS MEDIA PLAYER 10 de MICROSOFT aux caméras comme la Varicam de chez Panasonic ou la XDCam SR de chez Sony mais aussi dans le segment DVCAM HD. Elle est, avec le MPEG 7 et MPEG 21, la clé de voûte de la convergence entre l’informatique, le cinéma, la télévision et les télécommunications.
Avec les collaborations de : Guy Maréchal gmarechal@brutele.be Christian Dumont chrisdumont@belgacom.net Jacques Jacobs jacobs.jacques@skynet.be
Questions et …. Réponses ! La suite à l’écran …. Vendredi 6 mai ! Questions et …. Réponses !