UE 303.a cours n°5 Conception de système d’information multimédia : Représentation des informations multimédias – images et sons UE 303.a cours n°5 Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche SITE – LORIA sahbi.sidhom@loria.fr cours n°5 UE303 (M2.isitie) : S. Sidhom
Cours n°5 : C’est quoi le multimédia (définitions) ? Comment il est né et comment il prospère (évolutions) ? Quelle est la morphologie du multimédia ? A.6. Vidéo numérique C’est quoi l’analyse du multimédia ? Comment analyser un document multimédia ? cours n°5 UE303 (M2.isitie) : S. Sidhom
A.6. Vidéo numérique Sur l’image numérique, lorsqu’un rayon lumineux frappe notre rétine, des terminaisons nerveuses spécialisées (ou bâtonnets) réagissent à la quantité de lumière alors que d’autres cellules (ou cônes) réagissent sélectivement au rouge, au vert et au bleu, permettant ainsi la perception des couleurs grâce à l’analyse colorimétrique de la lumière blanche. Nos yeux décomposent donc la lumière en intensité et en couleurs, ce qui signifie la décomposition en informations de luminance et de chrominance : cette 1ere étape est réalisée quasiment à l’identique par une caméra vidéo (analogique ou numérique) par d’autres moyens, la lumière issue de l’objectif est décomposée, grâce à un procédé de filtrage, en ses 3 composantes primaires RVB. chaque composante est ensuite envoyée sur un capteur qui réagit à l’énergie lumineuse reçue (en émettant des électrons) : le signal lumineux est alors transformé en signal électrique analogue. Dans les années 1950, les 1eres caméras vidéo utilisaient des tubes cathodiques à balayage pour convertir l’énergie lumineuse en énergie électrique : que des images en N&B, plus exactement en niveaux de gris. cours n°5 UE303 (M2.isitie) : S. Sidhom
vision humaine : De forme approximativement sphérique, l'oeil est l'organe de base de la vision. Il comporte un ensemble d'éléments destinés à recevoir le rayonnement incident, former l'image des objets perçus et traiter (transférer) les informations recueillies au cerveau. L'iris: il fonctionne comme un diaphragme en dosant la quantité de lumière qui pénètre dans l'oeil. Son ouverture centrale est la pupille. Le cristallin: il fonctionne comme une lentille à focale variable, grâce à sa capacité de modifier sa courbure. La rétine: c'est sur elle que se forment les images provenant de l'extérieur. La rétine contient deux types de cellules photosensibles: les cônes et les bâtonnets. La macula: appelée également tache jaune, contient en son centre une petite dépression, la fovéa. Cette dernière est la zone d'acuité maximum de l'oeil. Le nerf optique: il conduit les informations au cerveau, en passant par un relais très important, le corps genouillé latéral, chargé d'effectuer une première analyse des données. cours n°5 UE303 (M2.isitie) : S. Sidhom
cellules sensibles : La rétine de l'oeil contient deux types de cellules sensibles: les cônes et les bâtonnets. Les bâtonnets sont responsables de la vision nocturne (vision scotopique) et possèdent un maximum de sensibilité vers 510 nm. Leur sensibilité est liée à un colorant, la rhodopsine, qui blanchit à la lumière du jour, expliquant par là leur insensibilité la journée. Les bâtonnets ne fournissent qu'une réponse photométrique et ne permettent donc pas de déterminer les couleurs: la nuit, tous les chats sont gris. Les cônes fournissent une réponse photométrique et chromatique, grâce à des pigments dont les maximums d'absorption se situent dans le bleu, le vert ou le rouge. C'est là la base de la vision des couleurs et son aspect trichromatique. cours n°5 UE303 (M2.isitie) : S. Sidhom
Quand l’image réelle s’introduit dans l’œil Des quantités de rayons lumineux diffusés par les objets extérieurs pénètrent dans l’œil jusqu’à la rétine située au fond de celui-ci : Un rayon lumineux traverse tout d’abord à la vitesse de 300 000 km/s la cornée, principale lentille de l’œil et qui assure 80% de la réfraction de la lumière. La rétine est parfois considérée comme une partie de « cerveau » car elle se situe à l’extrémité du nerf optique conduisant une quantité d’informations au cerveau. Les 800 000 fibres du nerf optique transmettent un tel flux d’informations au cerveau qu’elles sont considérées comme le canal de communication le plus dense de l’univers ! aucun appareil technologique n’égalise cette merveille du corps humain. le rayon lumineux arrive dans le nerf optique sous forme chimique : il est entièrement décodé de sorte à parvenir jusqu’au cerveau en une fraction de seconde. Si le rayon vient de l’œil gauche, il passera principalement dans l’hémisphère droite du cerveau, via les fibres du nerf optique, et vice-versa. Au centre du cerveau, non loin de l’hypothalamus, se trouve le « chiasma optique », faisceau de fibres nerveuses qui assurent la liaison entre les informations provenant des moitiés « gauches » et « droites » de chacune des deux rétines. Ce centre permet la formation d’une image CONTINUE au niveau de la « frontière » entre les 2 champs de vision. cours n°5 UE303 (M2.isitie) : S. Sidhom
Signal vidéo Sur un récepteur de télévision, une image est obtenue par balayage électronique successif des lignes de luminophores constituant l’écran. Un écran au standard PAL ou SECAM comprend 625 lignes, alors qu’un écran au standard NTSC n’en possède que 525. On sait que, pour donner à l’œil humain une impression d’éclairement continu à l’aide d’une source lumineuse émettant de façon discontinue (vidéo projecteur, projecteur de cinéma, écran TV, … ), il faut au moins 40 éclats par seconde : Une fréquence de 20 à 40 éclats provoque une impression de scintillement Une fréquence au-dessous de 20 éclats, l’éclairement paraît saccadé Pour obtenir une impression de continuité parfaite avec 25 images/s, on divise chaque image en 2 demi-images projetées successivement, provoquant ainsi 50 sensations différentes par seconde. cours n°5 UE303 (M2.isitie) : S. Sidhom
NTSC : standard de diffusion TV du continent nord-américain et du Japon, la fréquence du courant électrique est 60Hz, la fréquence d’affichage est de 30 images/s (exactement 29,97 im/s) sur 525 lignes. PAL : standard de diffusion TV couleur, qui a été mis point en Allemagne vers 1960. Son principal avantage relativement au standard américain dont il est très proche, est de remédier aux erreurs de phase dont souffre ce dernier. SECAM : standard français, il comporte 625 lignes et 25 images/s. la fréquence du courant électrique distribué en Europe est en effet de 50Hz. Standard CCIR 601 : comité international des radiocommunications. Cet organisme a été remplacé par le secteur de radiocommunication de l’union internationale des télécommunications (UIT) : standard concernant la vidéo numérique. cours n°5 UE303 (M2.isitie) : S. Sidhom
Image en continuité parfaite : Les demi-images ou trames sont obtenues par balayage des seules lignes paires dans un 1er temps, puis des lignes impaires dans un 2e temps. l’image complète est obtenue par entrelacement des 2 trames. Exemple : le signal vidéo analogique est donc découpé en 25 ou 29,97 images/s (en. frames), elles-mêmes divisées en 25 x 2 = 50 ou en 29,97 x 2 = 59,94 trames (en. fields) , celles-ci étant à leur tour analysées en 312,5 ou 262,5 lignes. + = Trame paire Trame impaire image cours n°5 UE303 (M2.isitie) : S. Sidhom
Ce découpage est essentiel car il constitue un échantillonnage préalable du signal en lignes et trames. Cela signifie que, pour numériser le signal vidéo, il suffira d’ échantillonner la ligne qui constitue la 3e dimension du signal. t (trames) x (points par lignes) y (lignes) cours n°5 UE303 (M2.isitie) : S. Sidhom
Échantillonnage vidéo Échantillonner la ligne : en vidéo analogique, l’unité minimale est la ligne, car le signal est conçu pour piloter en continu les déplacements du triple faisceau d’électrons (RVB) et NON pour exprimer la couleur spécifique de chaque point de l’image. Résolution verticale : le nombre de lignes sur un écran (résolution verticale) est exactement déterminé par chaque standard : Résolution verticale I S PAL et SECAM distinguent 625 lignes dont 576 seulement sont destinées au balayage réel de l’image, le reste étant affecté à divers « services » de synchronisation et de positionnement des faisceaux (changement de ligne et de trame) NTSC n’affecte quant à lui que 480 lignes sur 525 à l’affichage de l’image cours n°5 UE303 (M2.isitie) : S. Sidhom
Résolution horizontale : la résolution horizontale quant à elle n’est pas un paramètre fixe du signal vidéo analogique: elle dépend de la bande passante allouée à la vidéo et à la qualité du moniteur sur laquelle elle viendra s’afficher. L’image télévisée standard obéit à un ratio de 4:3 (ie. largeur de l’image est 1,33 fois plus grande que sa hauteur), on peut ‘estimer’ le nombre de points par ligne (ie. estimer la largeur de l’image en nombre de points) : PAL, SECAM : L’image ayant une hauteur de 575 lignes, sa largeur sera : 575 x 1,33 = 768 points NTSC : L’image ayant une hauteur de 480 lignes, sa largeur sera de 640 points. La résolution théorique du standard NTSC est à l’origine du célèbre affichage VGA de 640 x 480 sur les moniteurs informatiques. cours n°5 UE303 (M2.isitie) : S. Sidhom
Au cours des années 1970, les industriels commencent à prendre conscience de l’avenir de la vidéo en passant par le numérique. En conséquence, ils commencent à s’intéresser aux techniques de numérisation applicables au secteur des télécommunications, télédiffusions, télédétections, etc. Pour éviter l’anarchie dans les formats propriétaires, en 1982, le standard CCIR 601 a été adapté par l’UIT pour la télévision numérique : Le nombre de points actifs par ligne est de 720 (pour tous les autres standards) Le nombre total des points par ligne (ppl) est de : 858 ppl en NTSC (525 lignes / 59,94 trames par seconde) 864 ppl en PAL et SECAM (575 lignes / 50 trames par seconde). cours n°5 UE303 (M2.isitie) : S. Sidhom
Exemples : Dans le standard PAL, à raison de 625 lignes par image, de 864 points par ligne et de 25 images/seconde, on obtient : 625 lignes/image x 864 points/ligne x 25 images/s = 13 500 000 points/s Dans le standard NTSC, on obtient exactement le même nombre de points par seconde : 858 points/ligne x 525 lignes/s x 30 images/s x 1000/1001 si 1 seconde de vidéo correspond à 13 500 000 points et si l’on veut conserver toute l’information concernant ces points alors il est nécessaire de les décrire individuellement. pour 1 seconde vidéo, on doit définir 13 500 000 échantillons : la fréquence d’échantillonnage requise dans ces conditions est donc de 13,5 MHz Quantifier directement les valeurs RVB issues des capteurs CCD (l'acronyme de "Charged Coupled Device« ou capteurs de lumière qui constituent la "pellicule numérique"), soit 3 valeurs/échantillon avec un codage de 8 bits/valeur, le débit nécessaire au transport du signal numérique serait : 13 500 000 échantillons/s x 3 valeurs/échantillon 8 bits/s = ~40 Mo/s cours n°5 UE303 (M2.isitie) : S. Sidhom
Questions : Q1 : Appréhender la quantité de mémoire totale nécessaire au stockage d’un film standard de 90 minutes ? Q2 : si un DVD 5 (simple face, simple couche) a une capacité de 4,7 Go, combien il faudra prévoir ? = 44 DVD Réponse 2 : = ~ 210 Go/film = 90 mn/film x 60 s/mn x 40 Mo/s Réponse 1: cours n°5 UE303 (M2.isitie) : S. Sidhom
Compression vidéo Dans de nombreuses séquences vidéos, de nombreuses scènes sont fixes ou bien changent très peu, c'est ce que l'on nomme la redondance temporelle. Exemple : Lorsque seules les lèvres de l'acteur bougent, il suffit donc de décrire seulement le changement d'une image à l'autre. Le groupe MPEG (Moving Pictures Experts Group) a été établi en 1988 dans le but de développer des standards internationaux de compression, décompression, traitement et codage d'image animées et de données audio. Il existe plusieurs standards MPEG : de 1 à 7 cours n°5 UE303 (M2.isitie) : S. Sidhom
CoDec (pour COmpression / DECompression) Problème : Une image d'une vidéo non compressée occupe une taille d'environ 1 Mo. Afin d'obtenir une vidéo paraissant fluide il est nécessaire d'avoir une fréquence d'au moins 25 ou 30 images par seconde, ce qui produit un flux de données d'environ 30 Mo/s, soit plus de 1.5 Go par minute. Il est évident que ce type de débit est peu compatible avec les espaces de stockage des ordinateurs personnels ni même avec les connexions réseau de particuliers ou de petites ou moyennes entreprises. Solution : Afin de pallier cette difficulté, il est possible de recourir à des algorithmes permettant de réduire significativement les flux de données en compressant / décompressant les données vidéos. On appelle ces algorithmes CoDec (pour COmpression / DECompression). cours n°5 UE303 (M2.isitie) : S. Sidhom
Le M-JPEG (Motion JPEG ) La première idée qui vient à l'esprit après s'être interessé à la compression d'images est d'appliquer ce type de méthode à une succession d'images numériques (animation ou vidéo). Le principe du Motion JPEG (noté MJPEG ou M-JPEG, à ne pas confondre avec le MPEG) consiste à appliquer successivement l'algorithme de compression JPEG aux différentes images d'une séquence vidéo. Etant donné que le M-JPEG code séparément chaque image de la séquence il permet d'accéder aléatoirement à n'importe quelle partie d'une vidéo. Ainsi son débit de 8 à 10 Mbps le rend utilisable dans les studios de montage numérique. cours n°5 UE303 (M2.isitie) : S. Sidhom
Le MPEG (Moving Pictures Experts Group) Dans de nombreuses séquences vidéos, de nombreuses scènes sont fixes ou bien changent très peu, c'est ce que l'on nomme la redondance temporelle. Lorsque seules les lèvres de l'acteur bougent, presque seuls les pixels de la bouche vont être modifiés d'une image à l'autre, il suffit donc de ne décrire seulement le changement d'une image à l'autre. C'est là la différence majeure entre le MPEG (Moving Pictures Experts Group) et le M-JPEG. Cependant cette méthode aura beaucoup moins d'impact sur une scène d'action. cours n°5 UE303 (M2.isitie) : S. Sidhom
Standards et normes vidéos le MPEG-1, développé en 1988, est un standard pour la compression des données vidéos et des canaux audio associés (jusqu'à 2 canaux pour une écoute stéréo). Il permet le stockage de vidéos à un débit de 1.5Mbps dans une qualité proche des cassettes VHS sur un support CD appelé VCD (Vidéo CD). le MPEG-2, un standard dédié originalement à la télévision numérique (HDTV) offrant une qualité élevé à un débit pouvant aller jusqu'à 40 Mbps, et 5 canaux audio surround. Le MPEG-2 permet de plus une identification et une protection contre le piratage. Il s'agit du format utilisé par les DVD vidéos. le MPEG-4, un standard destiné à permettre le codage de données multimédia sous formes d'objets numériques, afin d'obtenir une plus grande interactivité, ce qui rend son usage particulièrement adapté au Web et aux périphériques mobiles. le MPEG-7, un standard visant à fournir une représentation standard des données audio et visuelles afin de rendre possible la recherche d'information dans de tels flux de données. Ce standard est ainsi également intitulé Multimedia Content Description Interface. le MPEG-21, en cours d'élaboration, dont le but est de fournir un cadre de travail (en anglais framework) pour l'ensemble des acteurs du numériques (producteurs, consommateurs, ...) afin de standardiser la gestion de ces contenus, les droits d'accès, les droits d'auteurs, ... cours n°5 UE303 (M2.isitie) : S. Sidhom
Caractéristiques du MPEG-1 La norme MPEG-1 représente chaque image comme un ensemble de blocs 16 x 16. Elle permet d'obtenir une résolution de: 352x240 à 30 images par seconde en NTSC 352x288 à 25 images par seconde en PAL/SECAM Le MPEG-1 permet d'obtenir des débits de l'ordre de 1.2 Mbps (exploitable sur un lecteur de CD-ROM). Le MPEG-1 permet d'encoder une vidéo grâce à plusieurs techniques : Intra coded frames (Frames I, correspondant à un codage interne): les images sont codées séparément sans faire référence aux images précédentes Predictive coded frames (Frames P ou codage prédictif): les images sont décrites par différence avec les images précédentes Bidirectionally predictive coded frames (Frames B): les images sont décrites par différence avec l'image précédente et l'image suivante DC Coded frames: les images sont décodées en faisant des moyennes par bloc cours n°5 UE303 (M2.isitie) : S. Sidhom
Frames I : Ces images sont codées uniquement en utilisant le codage JPEG, sans se soucier des images qui l'entourent. De telles images sont nécessaires dans une vidéo MPEG car ce sont elles qui assurent la cohésion de l'image (puisque les autres sont décrites par rapport aux images qui les entourent), elles sont utiles notamment pour les flux vidéo qui peuvent être pris en cours de route (télévision), et sont indispensables en cas d'erreur dans la réception. Il y en a donc une ou deux par seconde dans une vidéo MPEG. cours n°5 UE303 (M2.isitie) : S. Sidhom
Frames P : Ces images sont définies par différence par rapport à l'image précédente. L'encodeur recherche les différences de l'image par rapport à la précédente et définit des blocs, appelés macroblocs (16x16 pixels) qui se superposeront à l'image précédente. L'algorithme compare les deux images bloc par bloc et à partir d'un certain seuil de différence, il considère le bloc de l'image précédente différent de celui de l'image en cours et lui applique une compression JPEG. C'est la recherche des macroblocs qui déterminera la vitesse de l'encodage, car plus l'algorithme cherche des "bons" blocs, plus il perd de temps... Par rapport aux frames-I (compressant directement), les frames-P demandent d'avoir toujours en mémoire l'image précédente. cours n°5 UE303 (M2.isitie) : S. Sidhom
Frames B : De la même façon que les frames P, les frames B sont travaillées par différences par rapport à une image de référence, sauf que dans le cas des frames B cette différence peut s'effectuer soit sur la précédente (comme dans les cas des frames P) soit sur la suivante, ce qui donne une meilleure compression, mais induit un retard (puisqu'il faut connaître l'image suivante) et oblige à garder en mémoire trois images (la précédente, l'actuelle et la suivante). cours n°5 UE303 (M2.isitie) : S. Sidhom
Frames D : Ces images donnent une résolution de très basse qualité mais permettent une décompression très rapide, cela sert notamment lors de la visualisation en avance rapide car le décodage "normal" demanderait trop de ressources processeur. Dans la pratique : Afin d'optimiser le codage MPEG, les séquences d'images sont dans la pratique codées suivant une suite d'images I, B, et P (D étant comme on l'a dit réservé à l'avance rapide) dont l'ordre a été déterminé expérimentalement. La séquence type appelée GOP (Group Of Pictures ou en français groupes d'images) est la suivante: IBBPBBPBBPBBI Une image I est donc insérée toutes les 12 frames. cours n°5 UE303 (M2.isitie) : S. Sidhom
Formats vidéos Le format DivX est un format de compression/décompression vidéo permettant d'obtenir des vidéos compressées très peu volumineuses avec une perte de qualité très raisonnable. Ainsi le format DivX permet de stocker un film complet sur un CD-ROM de 650 ou 700 Mo Le format XviD est une implémentation OpenSource du codec Divx, développée à partir de 2001, à l'occasion du passage du format DivX original (porté par le groupe Project Mayo) à un format propriétaire. Le format XviD propose ainsi une compression de très bonne qualité. Le format VP3 est un format alternatif Open Source développé par la société On2. La qualité des vidéos est moindre qu'en DivX mais le format VP3 est avant tout destiné à une utilisation en streaming. cours n°5 UE303 (M2.isitie) : S. Sidhom
Le format 3ivX est un format de compression vidéo alternatif permettant une compression MPEG-4 dans des fichiers Apple QuickTime (extension .mov), ce qui le rend particulièrement apprécié des utilisateurs de Mac. Le format 3ivX souffre toutefois d'une qualité bien moindre que le format DivX. Le format MKV (Matroska Video) est un format vidéo entièrement libre. Plus exactement il s'agit d'un conteneur (d'où le nom Matroska, en référence aux poupées russes) permettant de contenir de la vidéo (DivX, Xvid,RV9, etc.), du son (MP3, MP2, AC3, Ogg, AAC, DTS, PCM), ainsi que des sous-titres (SRT, ASS, SSA, USF, etc.) dans un même fichier. Le format MKV est basé sur une structure dérivée de XML, appelée EBML (Extensible Binary Meta Language). Ainsi grâce au format Matroska, il est notamment possible de réaliser des fonctions de chapitrage, de créer des menus, de faire des recherches dans le fichier, de sélectionner une source sonore ou bien de choisir un sous-titrage. cours n°5 UE303 (M2.isitie) : S. Sidhom
DivX et légalité Le format DivX et le concept de légalité (à partir des versions 4 et supérieures) ainsi que les autres formats vidéos ne sont pas illégaux en soi, mais leur utilisation peut l'être en raison du droit d'auteur qui s'applique sur les oeuvres compressées. Ainsi les articles L122-5-2 et L211-3 du code de la propriété intellectuelle autorisent la copie privée d'une oeuvre à partir d'un original acquis légalement (par exemple un DVD de location), pour un usage privé et dans un cercle familial. Une taxe a ainsi été appliquée aux supports de stockage (CD-R) afin de compenser le manque à gagner des artistes provoqué par le droit à la copie privée. En contrepartie la diffusion (mise en partage sur Internet, envoi par messagerie ou tout autre moyen ou via un logiciel d'échange de fichiers) et le téléchargement d'oeuvres protégées par le droit d'auteur sont interdits par la loi et le cas échéant sanctionnés pour contrefaçon. cours n°5 UE303 (M2.isitie) : S. Sidhom
Histoire du format DivX Le format DivX a été mis au point en 1999 par un développeur français de 27 ans, du nom de Jérome ROTA, à partir du codec MPEG-4 v.3 de Microsoft. En effet le codec MPEG-4 fourni en standard avec la version Bêta du lecteur multimédia Windows Media Player était parfaitement opérationnel mais à la sortie de la version officielle, celui-ci ne fonctionnait plus correctement, c'est la raison pour laquelle Jérôme ROTA décida de le corriger ainsi que d'y ajouter la possibilité de compresser le son au format MP3 et mit au point ce qui allait devenir le format "DivX ;-)" (avec un D et un X majuscules), un clin d'oeil au système divx (Digital Video Express) dont l'objectif était de protéger les DVD contre les copies illégales mais qui ne vit jamais le jour dans la mesure où les DVD ainsi protégés devenaient illisibles au bout de quelque temps. Le codec, jusqu'à sa version 3.11 alpha, était un projet OpenSource (appelé OpenDivX et porté par le Project Mayo) basé sur un "hack" du codec de Microsoft. En 2001, Jérôme ROTA fonda l'entreprise DivX Networks afin de produire un nouveau codec propriétaire entièrement réécrit afin de s'affranchir de la dépendance des droits vis-à-vis de la firme Microsoft, ce qui déboucha sur la version 4 du codec, baptisée DivX4. Lors du passage à la version 5 du codec (nommée DivX5), le codec de compression DivX est devenu payant (DivX®) ou bien contient un spyware dans sa version gratuite (DivXTM). cours n°5 UE303 (M2.isitie) : S. Sidhom