Comprendre la vidéo numérique Pierre Vernel Décembre 2010
Autrefois De la prise de vue Un seul support A la visualisation
Aujourd’hui… Une multitude de supports (invisibles !)
Plan Le problème Généralités Prise de vue: caméscope Montage, postproduction: ordinateur Archivage, diffusion Conclusions Questions ?
C’est un problème de codage Le problème Film …00011101110001001111… Suite de bits C’est un problème de codage
Un film ? images sons sous titres Conteneur 001110000011 001110110011 001101000011 Codec vidéo Codec audio Codec Conteneur
Codec ? Chaise (FR) Stuhl (DE) Chair (EN) Silla (ES) Sedia (IT) …. langues 11100110011001111100000… 01010101011100000111101… 00110110001110001001111… codecs Il existe plusieurs centaines de codecs ! (K-Lite Codec Pack Full)
Un film autrefois Format: N & B Couleur Son Support 35 mm 16 mm 9,5 mm Super 8 8 mm N & B Couleur Son Optique magnétique Support Kodack Fuji Agfa …..
Caractéristiques d’un film vidéo
Mediainfo: un outil indispensable
+ La vision Qui rendent possible cinéma et vidéo ! Des imperfections Persistance rétinienne Pouvoir séparateur Sensibilité aux couleurs Temps d’analyse d’une image …….. Qui rendent possible cinéma et vidéo !
Quelques illusions d’optique
Vidéo numérique Généralités Convergence télévision informatique Un ensemble de pixels Gestion de la couleur Compression Spatiale Temporelle (films) Entrelacée ou progressive Convergence télévision informatique
Un ensemble de pixels Pixel Nombre de lignes Luminosité couleurs constantes Nombre de points par lignes
Caractérisation d’un pixel Un pixel peut être Carré Rectangulaire Représenté par un nombre (image en N&B) De 8bits (256 nuances – le plus fréquemment) De 10 bits (1024 nuances) Représenté par 3 nombres (image en couleur) Intensité du rouge (R) Intensité du vert (G) Intensité du bleu (B)
Gestion de la couleur Origine: télévision couleur Conséquences: La télévision couleur doit être compatible avec télé N&B Oeil humain moins sensible à la chrominance qu’à la luminance Conséquences: On ne transmet pas l’intensité R, G et B Mais Y (luminance), U et V Formules (empiriques) Y = 0,30R + 0,59G + 0,11B (l’ oeil est plus sensible dans le vert) U = R - Y V = B - Y
Sous échantillonnage de la chrominance Conséquences pour l’image numérique: La chrominance n’est pas systématiquement prise en compte pour chaque pixel ! 4:4:4 En théorie 4:2:2 En studio 4:2:0 Le plus souvent Pixel échantillonné Pixel non échantillonné
Conséquences: Une image N&B peut paraître plus nette qu’une image couleur ! Une caméra tri-capteur ne donne pas forcément de plus belles couleurs qu’une caméra mono-capteur ! (sauf très haut de gamme)
La compression (1) Objectif: représenter une image, un son avec un minimum de bits (stockage, transmission) Deux types de compression: Sans pertes (lossless): Exemples: fichiers .zip ou .rar Avec pertes: en général pour l’image ou le son Exemple image: .jpg ou .jpeg Exemple son: .mp3 Exemple vidéo: .mpg ou .mpeg En général compression (et décompression) nécessitent des calculs importants
La compression spatiale (image) On ne parlera que de la compression JPEG, la plus répandue Terme exact: ISO/IEC IS 10918-1 | ITU-T Recommendation T.81 (1991) Principe:
Exemple de compression jpeg (1) Exemples réalisés avec le logiciel JPEG Wizard Taux de compression : 6,7 (appareil photo)
Exemple de compression jpeg (2) Taux de compression : 57,8
Exemple de compression jpeg (3) Taux de compression : 175
Exemple de compression jpeg (4) Taux de compression : 6,7 Taux de compression :175
La compression temporelle (vidéo) Principe: dans un film deux images successives diffèrent « assez » peu La deuxième image n’est pas encodée en totalité On ne transmet que les différences entre les deux images Ce principe a ses limites: au bout de quelques images on doit retransmettre la totalité d’une image On utilise donc la notion de G.OP. (groupe of pictures) On peut ainsi obtenir une forte compression (avec pertes)
Mpeg: principe de base
Encode et décodage mpeg Mpeg demande de très nombreux calculs surtout pour l’encodage
Constitution d’un G.O.P. Un G.O.P.: est constitué par 3 types d’images I (–Frame): image complète, spatialement compressée P: image interpolée d’après 2 images « I » (celle qui précède et celle qui suit) B: image estimée (d’après image I ou P qui précède) Exemple G.O.P. du HDV: 12 images – près d’une demie seconde G.O.P. I B B B B B P B B B B I B B B B P
Transmission de la DCT ? L’image n’est pas transmise directement, mais sa transformée DCT Par groupe de pixels (8X8), on transmet d’abord la valeur moyenne, puis détails de plus en plus fins A l’émission, il est possible de régler le niveau de détails souhaités Entre deux images: Si la transmission est incomplète Si le décodage est lui aussi incomplet Une image est néanmoins affichée (moins nette!)
Conséquences: Un diffuseur peut choisir la qualité de sa transmission Si espace de stockage insuffisant (DVD), en réduisant la qualité de l’image une gravure reste possible Diffusion par ADSL (débit fonction de la distance au central): une réception de l’image reste possible Décodage en réception: Tous les décodeurs ne se valent pas ! Différences de qualité entre téléviseurs, lecteurs DVD ou multimédia
Exemples de débits (mesurés) Arte HD (TNT)
En résumé: Utilisation du logiciel: biglab_dct_1.6.exe Trouvé sur le site: www.savoirnumerique.com
Cas des panoramiques Posent de nombreux problèmes: Si on filme en « entrelacé » : on obtient 2 trames différentes Si encodage « mpeg » : le principe de base du « mpeg » (peu de différences entre deux images) n’est plus vérifié, car il y a un décalage complet entre deux images L’encodeur peut « saturer » et l’image obtenue être mauvaise Dans ces conditions => éviter les panoramiques Sinon les réaliser (très) lentement
Normes de compression vidéo Principalement le MPEG MPEG: Moving Picture Experts Group, est le groupe de travail SC 29/WG 11 du comité technique mixte JTC 1 de l’ISO et de la CEI pour les technologies de l’information. Ce groupe d’experts est chargé du développement de normes internationales pour la compression, la décompression, le traitement et le codage de la vidéo, de l’audio et de leur combinaison, de façon à satisfaire une large gamme d’applications Principales « normes »: MPEG 1: ISO/CEI 11172 pour mémoire (1993) MPEG 2: ISO/IEC 13818 (1995) MPEG 4: ISO/IEC 14496 (1898) Chaque norme se décline en de nombreuses recommandations ou directives en fonction des applications. Parfois les industriels utilisent des « quasi-normes » pour ne pas payer de royalties ! Exemple: pour le MPEG 4, c’est la révision 10 dite aussi AVC pour Advance Video Coding qui est la plus utilisée. Elle est aussi très connue sous le nom de H264 Autres types de compression: sont souvent « propriétaires », comme par exemple le divx, mais les principes sont semblables
Image entrelacée (I) ou progressive (P) ? Un souvenir du tube cathodique ! Image télé (25 im/s)= deux demi-images (50 1/2im/s) Lignes impaires Puis lignes paires L’image est dite entrelacée ou I Moniteur informatique: toute l’image est affichée en totalité entre deux rafraichissements Elle est dite progressive ou P
Rappels sur l’image télévision analogique L’image est reconstituée par un point lumineux (spot) Le spot balaie l’écran de haut en bas, de gauche à droite 625 lignes sont analysées et reproduites (Europe) En fait seules 576 lignes sont visibles En GB, USA, Japon l’image n’a que 525 lignes dont 480 visibles En fait l’image est transmise en 2 demie-images D’abord les lignes impaires(1-265-…) puis paires => trames 50 trames par seconde L’image est dite entrelacée (i)
Problème des images entrelacées Trame 1 Trame 2 Image finale Image I Image P
Images vidéo et informatique Format DV: 576 lignes de 720 points 4/3 ou 16/9 (forme du pixel change) Format HDV: 1080 lignes de 1440 points Images amorphisme pour 16/9 Image entrelacée Format HD: 720 lignes de 1280 points (USA, Japon) Image « progressive) 1080 lignes de 1920 points (Europe) Format UHD 2160 lignes de 3840 points Format 4K: (cinéma) 3072 lignes de 4096 points VGA: 480 lignes de 640 points SVGA: 600lignes de 800 points XGA: 768 lignes de 1024 points WXGA: 800 lignes de 1280 points SXGA: 1024 lignes de 1280 points WUXGA: 1200 lignes de 1920 points Et bien, bien d’autres !
Le son numérique Principe: le son est « échantillonné »
Le son numérique (2) L’échantillonnage se fait: Avec une précision donnée (12 ou 16 bits) À une cadence constante: 44,1 KHz: CD numérique 48 KHz: DVD 96 ou 192 KHz: SACD (échec commercial) Certaines caméras: 32kHz Plus ces chiffres sont élevés, meilleur sera le rendu sonore
Transmission du son numérique Transmission de chaque échantillon: PCM ou fichier .wav Transmission sans perte (lossles) Le son peut aussi être compressé: .mp3 .wma (propriété de Micrososoft) .ogg (vorbis) format libre Le taux de compression peut être variable (souvent de l’ordre de 10)
Combien de canaux ? Son monophonique: 1 seul canal Son stéréophonique: 2 canaux droit et gauche Son 5.1: 6 canaux, nécessite équipement spécial Avant stéréo Voie centrale Arrière stéréo Voie des basses AC3: son 5.1 avec compression Dolby (très répandu)
Les conteneurs Manière d’associer des images, du son, du texte (sous titres) dans un même fichier Les plus connus: .avi format propriétaire Microsoft .mkv (Matroska) format libre Il en existe beaucoup d’autres !! Le conteneur est souvent responsable d’un décalage entre l’image et le son
Décalage image – son, exemple: Encodage AVCH de Vegas pro décalage son image après dizaine de minutes Traitement: ajouter un peu de « noir » après le film et remettre dans le conteneur !!!
A propos des suffixes … Bonne nouvelle: Mauvaise nouvelle: Un fichier donné peut avoir n’importe quel suffixe ! Mauvaise nouvelle: Le suffixe ne renseigne absolument pas sur la nature du fichier (type de codec par exemple) Certains logiciels et matériels (DD multimédia) se fondent sur le suffixe pour décider s’ils vont lire ou non un fichier …! Exemple: fichier.vob (DVD) pas lisible Fichier.vob fichier.mpg Fichier.mpg est devenu « lisible » !!!
C’est le b…….. Attention ! Mpg, mp4, etc sont aussi des conteneurs ! Autrement dit : C’est le b……..
Remarque: PS ou TS ? Avant d’être encapsulé dans le conteneur, des bits supplémentaires sont ajoutés pour pouvoir: Détecter d’éventuelles erreurs Corriger d’éventuelles erreurs On en rajoute plus ou moins suivant le taux de correction à atteindre Exemple format « mpeg » Sur DVD: peu risque erreur -> peu de bits de contrôle -> Program Stream (PS) Avec TNT plus de risque d’erreurs -> plus de bits de contrôle -> Transport Stream (TS) Sur une camera: en général transport stream (TS) est utilisé Des logiciels gratuits permettent de passer de l’un à l’autre, comme HDTVtoMPEG2
Récapitulatif des codecs Codecs à utiliser de préférence en vidéo
Les caméras (1): Caméra mini DV: Par défaut format 4/3, 576 lignes de 720 points Encodage vidéo: « motionjpeg » Pas de compression temporelle Encodage spatial: chaque image est compressée (type jpeg), taux de l’ordre de 6 Encodage son: PCM (sans perte) taux d ’échantillonnage: 32 khz, 44,1 khz ou 48 kHz Mono ou stéréo Enregistrement: Sur mini cassette DV débit constant: 25 Mbits/s Si format 16/9: Au mieux; pixel rectangulaire Au pire: diminution du nombre de lignes
Exemple mini DV Général Nom complet : E:\Manu\irlande.avi Format : AVI Format/Info : Audio Video Interleave Format_Commercial_IfAny : DVCPRO Profil du format : OpenDML Taille du fichier : 7,35 Gio Durée : 36mn 32s Débit global moyen : 28,8 Mb/s Vidéo ID : 0 Format : DV Format_Commercial_IfAny : DVCPRO Durée : 36mn 32s Type de débit : Constant Débit : 24,4 Mb/s Largeur : 720 pixels Hauteur : 576 pixels Format à l'écran : 16/9 Type d'images/s : Constant Images par seconde : 25,000 Im/s Norme : PAL Sous-échantillonnage de la chroma : 4:2:0 Profondeur des couleurs : 8 bits Type d'image : Entrelacé Bits/(Pixel*Image) : 2.357 Taille du flux : 7,35 Gio (100%) Paramètres d'encodage : ae mode=full automatic / wb mode=automatic / white balance= / fcm=manual focus Audio #1 ID : 0-0 Format : PCM Type de muxing : DV Type de muxing, plus d'info : Muxed in Video #1 Durée : 36mn 32s Type de débit : Constant Débit : 768 Kbps Canaux : 2 canaux Echantillonnage : 32,0 KHz Profondeur des couleurs : 12 bits Taille du flux : 0,00 Octet (0%)
Les caméras (2): Caméra HDV: obligatoirement format 16/9, 1080 lignes de 1920 points, (Europe) image entrelacée (format dit 1080i) En fait anamorphose de l’image: seuls 1440 points par lignes sont enregistrés Encodage vidéo: « mpeg2 » GOP de 12 images (1/2 seconde) En général format transport stream (TS) Encodage son: Mpeg2 audio (avec perte) taux d ’échantillonnage: 48 kHz Débit audio 384 kbits/s (stéréo) Enregistrement: Sur mini cassette DV débit constant: 25 Mbits/s
Exemple HDV Audio ID : 2068 (0x814) ID de menu : 100 (0x64) Général ID : FF Nom complet : E:\Noel_Nancy_08\films\Clip 001.m2t Format : MPEG-TS Taille du fichier : 32,9 Mio Durée : 10s 680ms Heure de début : UTC 2008-12-07 17:49:17 Débit global moyen : 25,8 Mb/s Débit global maximum : 33,0 Mb/s Date d'encodage : UTC 2008-12-07 17:49:17 Vidéo ID : 2064 (0x810) ID de menu : 100 (0x64) Format : MPEG Video Version du format : Version 2 Profil du format : Main@High 1440 Paramètres du format, BVOP : Oui Paramètres du format, Matrice : Par défaut Paramètres du format, GOP : M=3, N=12 Durée : 10s 440ms Type de débit : Constant Débit : 25,0 Mb/s Largeur : 1 440 pixels Hauteur : 1 080 pixels Format à l'écran : 16/9 Images par seconde : 25,000 Im/s Norme : Component Espace de couleurs : YUV Sous-échantillonnage de la chroma : 4:2:0 Profondeur des couleurs : 8 bits Type d'image : Entrelacé Ordre des images : Ligne du haut d'abord Bits/(Pixel*Image) : 0.643 Taille du flux : 30,0 Mio (91%) Audio ID : 2068 (0x814) ID de menu : 100 (0x64) Format : MPEG Audio Version du format : Version 1 Profil du format : Layer 2 Durée : 10s 296ms Type de débit : Constant Débit : 384 Kbps Canaux : 2 canaux Echantillonnage : 48,0 KHz Délai par rapport Vidéo : -80ms Taille du flux : 483 Kio (1%)
Les caméras (3): Caméras « full HD – AVCHD » obligatoirement format 16/9, 1080 lignes de 1920 points, (Europe) image entrelacée (format dit 1080i) pas d’ anamorphose de l’image ! encodage vidéo: une version mpeg4 à partir d’ H264 (peut varier suivant les marques !) GOP de 26 images (~1 seconde) En général format transport stream (TS) Encodage son: mp3 audio (avec perte) taux d ’échantillonnage: 48 kHz Débit audio 448 kbits/s (enregistrement 5.1) Enregistrement: Sur disque dur Sur carte mémoire débit constant: le plus souvent 8, 16, 24 Mbits/s
Exemple AVCHD Audio ID : 4352 (0x1100) ID de menu : 1 (0x1) Général ID : 0 Nom complet : E:\walibi\video\01113.MTS Format : BDAV Format/Info : Blu-ray Video Taille du fichier : 51,8 Mio Durée : 25s 436ms Débit global moyen : 17,1 Mb/s Débit global maximum : 18,0 Mb/s Vidéo ID : 4113 (0x1011) ID de menu : 1 (0x1) Format : AVC Format/Info : Advanced Video Codec Profil du format : High@L4.0 Paramètres du format, CABAC : Oui Paramètres du format, RefFrames : 2 images Paramètres du format, GOP : M=1, N=26 Durée : 25s 400ms Type de débit : Variable Débit : 15,9 Mb/s Débit maximum : 16,0 Mb/s Largeur : 1 920 pixels Hauteur : 1 080 pixels Format à l'écran : 16/9 Images par seconde : 25,000 Im/s Espace de couleurs : YUV Sous-échantillonnage de la chroma : 4:2:0 Profondeur des couleurs : 8 bits Type d'image : Entrelacé Ordre des images : Ligne du haut d'abord Bits/(Pixel*Image) : 0.308 Taille du flux : 48,3 Mio (93%) Audio ID : 4352 (0x1100) ID de menu : 1 (0x1) Format : AC-3 Format/Info : Audio Coding 3 Extension du mode : CM (complete main) Durée : 25s 472ms Type de débit : Constant Débit : 448 Kbps Canaux : 6 canaux Position des canaux : Front: L C R, Side: L R, LFE Echantillonnage : 48,0 KHz Profondeur des couleurs : 16 bits Délai par rapport Vidéo : -80ms Taille du flux : 1,36 Mio (3%)
Logiciel fourni par constructeur du caméscope Logiciel de montage Transfert Logiciel fourni par constructeur du caméscope Logiciel de montage Transfert impérativement sans transcodage En général: Format DV fichier .avi (codec mjpeg) Format HDV fichier mpeg (codec mpeg2) Format AVCHD: fichier .m2ts (codec H264)
Connectique pour transfert DV et HDV: Connecteur firewire ou IEE1394 Logiciel indispensable Durée de transfert long et en 1 seul fichier Connecteurs en voie de disparition Rares sur PC portables AVCHD Connecteur USB Caméscope vu comme DD, logiciel facultatif Transfert rapide en de nombreux fichiers Possibilité de ne transférer que les fichiers valables
Montage « natif » Principe: le montage s’effectue avec le codec du fichier issu du caméscope Exemples: Mjpeg pour DV Mpg2 pour HDV Avantage: conserve la qualité de l’image et son A utiliser de préférence ! Inconvénient: Peut demander de grosses ressources informatique (PC puissant) AVCHD demande une configuration « musclée »
Montage avec « proxy » Si puissance du processeur insuffisante Principe: création d’une copie du film avec des images de dimensions réduites(ex au ¼ en pixels) Montage effectué au format réduit, avec cette copie Effets visualisés au format réduit… Au rendu passage aux dimensions réelles, avec images d’origine Avis: solution « d’attente », peu pratique
Montage avec codec intermédiaire Principe: le film est ré-encodé avec un codec performant, n’utilisant pas la compression temporelle Le montage et le rendu s’effectuent avec ce codec Le film est ensuite ré-encodé avec le codec voulu Nécessite gros disques durs! En pratique un seul codec utilisé: « cineform » Solution préférée des professionnels Pour amateurs une solution à 129$
Spécifications cineform
Aujourd’hui… Des processeurs plus puissants Intel core i7 ou AMD Phenom X6, des logiciels améliorés permettent le montage natif même en AVCHD Autres possibilités: utilisation des processeurs de la carte graphique (GPU) Les nouveaux processeurs INTEL (arch. « sandy bridge » contiennent (en plus) des processeurs dédiés au codage et décodage vidéo, les logiciels devraient prochainement en tirer parti…
Le rendu (film terminé) Indispensable: faire une rendu avec le format et le codec d’origine Le sauvegarder, éventuellement sur cassette DV Rendus pour diffusion: En SD DVD En HD DVD (mais en SD) Blue Ray ?? fichier encodé en H264 pour DDmultimédia
Création DVD Graver le DVD à la vitesse la plus lente possible Rappel: uniquement en SD (576 x 720) 4/3 ou 16/9 Utilisation encodeur de qualité (ils ne se valent pas tous!) Choisir option CBR (Constant Bit Rate) , max 9Mbits/s Privilégier la qualité à la rapidité de conversion Si espace insuffisant sur le DVD: Vérifier que le son est bien compressé (min de 128kbits/s) Choisir option VBR (Variable Bit Rate) , encodage plus lent, nécessite 2 passes Graver le DVD à la vitesse la plus lente possible N’utiliser que des DVD de marques reconnues (Maxcell, Verbatim,…)
Diffusion en HD Codec à privilégier: H264 (TNT HD pérennité) Gravure Blue Ray: ????????? Solution personnelle: disques durs doublés (sécurité !) + lecteur multimédia Rappel: 1 DD de 1 Tera octets permet de stocker plus de 80 heures de vidéo HD …. pour un coût < 300€ (2 DD)
En conclusion: Toujours connaître le codec utilise (mediainfo) Éviter les transcodages, utiliser le moins de codecs possibles N’utiliser que des codecs normalisés en vidéo En SD: motionjpeg (Mjpeg) En HDV: mpeg2 En AVCHD: H264 Proscrire les codecs « informatiques »(dvix, real, wmv,…) Utiliser des outils performants et de qualité Vous maintiendrez ainsi la qualité d’origine de vos films
Pour approfondir le sujet Internet: http://en.wikipedia.org/wiki/Video ( en anglais) http://fr.wikipedia.org/wiki/Video (en français) Bibliographie: Les secrets de l’image vidéo de Ph Bellaïche Editions Eyrolles
Vos questions…