La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Cours n°5UE303 (M2.isitie) : S. Sidhom UE 303.a cours n°5 Conception de système dinformation multimédia : Représentation des informations multimédias –

Présentations similaires


Présentation au sujet: "Cours n°5UE303 (M2.isitie) : S. Sidhom UE 303.a cours n°5 Conception de système dinformation multimédia : Représentation des informations multimédias –"— Transcription de la présentation:

1 cours n°5UE303 (M2.isitie) : S. Sidhom UE 303.a cours n°5 Conception de système dinformation multimédia : Représentation des informations multimédias – images et sons Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche SITE – LORIA

2 cours n°5UE303 (M2.isitie) : S. Sidhom2 Cours n°5 : 1. Cest quoi le multimédia (définitions) ? 2. Comment il est né et comment il prospère (évolutions) ? 3. Quelle est la morphologie du multimédia ? A.6. Vidéo numérique 4. Cest quoi lanalyse du multimédia ? 5. Comment analyser un document multimédia ?

3 cours n°5UE303 (M2.isitie) : S. Sidhom3 A.6.Vidéo numérique Sur limage numérique, lorsquun rayon lumineux frappe notre rétine, des terminaisons nerveuses spécialisées (ou bâtonnets) réagissent à la quantité de lumière alors que dautres cellules (ou cônes) réagissent sélectivement au rouge, au vert et au bleu, permettant ainsi la perception des couleurs grâce à lanalyse colorimétrique de la lumière blanche. Nos yeux décomposent donc la lumière en intensité et en couleurs, ce qui signifie la décomposition en informations de luminance et de chrominance : cette 1ere étape est réalisée quasiment à lidentique par une caméra vidéo (analogique ou numérique) par dautres moyens, la lumière issue de lobjectif est décomposée, grâce à un procédé de filtrage, en ses 3 composantes primaires RVB. chaque composante est ensuite envoyée sur un capteur qui réagit à lénergie lumineuse reçue (en émettant des électrons) : le signal lumineux est alors transformé en signal électrique analogue. Dans les années 1950, les 1eres caméras vidéo utilisaient des tubes cathodiques à balayage pour convertir lénergie lumineuse en énergie électrique : que des images en N&B, plus exactement en niveaux de gris.

4 cours n°5UE303 (M2.isitie) : S. Sidhom4 vision humaine : De forme approximativement sphérique, l'oeil est l'organe de base de la vision. Il comporte un ensemble d'éléments destinés à recevoir le rayonnement incident, former l'image des objets perçus et traiter (transférer) les informations recueillies au cerveau. 1. L'iris: il fonctionne comme un diaphragme en dosant la quantité de lumière qui pénètre dans l'oeil. Son ouverture centrale est la pupille. 2. Le cristallin: il fonctionne comme une lentille à focale variable, grâce à sa capacité de modifier sa courbure. 3. La rétine: c'est sur elle que se forment les images provenant de l'extérieur. La rétine contient deux types de cellules photosensibles: les cônes et les bâtonnets. 4. La macula: appelée également tache jaune, contient en son centre une petite dépression, la fovéa. Cette dernière est la zone d'acuité maximum de l'oeil. 5. Le nerf optique: il conduit les informations au cerveau, en passant par un relais très important, le corps genouillé latéral, chargé d'effectuer une première analyse des données.

5 cours n°5UE303 (M2.isitie) : S. Sidhom5 cellules sensibles : La rétine de l'oeil contient deux types de cellules sensibles: les cônes et les bâtonnets. 1. Les bâtonnets sont responsables de la vision nocturne (vision scotopique) et possèdent un maximum de sensibilité vers 510 nm. Leur sensibilité est liée à un colorant, la rhodopsine, qui blanchit à la lumière du jour, expliquant par là leur insensibilité la journée. Les bâtonnets ne fournissent qu'une réponse photométrique et ne permettent donc pas de déterminer les couleurs: la nuit, tous les chats sont gris. 2. Les cônes fournissent une réponse photométrique et chromatique, grâce à des pigments dont les maximums d'absorption se situent dans le bleu, le vert ou le rouge. C'est là la base de la vision des couleurs et son aspect trichromatique.

6 cours n°5UE303 (M2.isitie) : S. Sidhom6 Quand limage réelle sintroduit dans lœil Des quantités de rayons lumineux diffusés par les objets extérieurs pénètrent dans lœil jusquà la rétine située au fond de celui-ci : Un rayon lumineux traverse tout dabord à la vitesse de km/s la cornée, principale lentille de lœil et qui assure 80% de la réfraction de la lumière. La rétine est parfois considérée comme une partie de « cerveau » car elle se situe à lextrémité du nerf optique conduisant une quantité dinformations au cerveau. Les fibres du nerf optique transmettent un tel flux dinformations au cerveau quelles sont considérées comme le canal de communication le plus dense de lunivers ! aucun appareil technologique négalise cette merveille du corps humain. le rayon lumineux arrive dans le nerf optique sous forme chimique : il est entièrement décodé de sorte à parvenir jusquau cerveau en une fraction de seconde. Si le rayon vient de lœil gauche, il passera principalement dans lhémisphère droite du cerveau, via les fibres du nerf optique, et vice-versa. Au centre du cerveau, non loin de lhypothalamus, se trouve le « chiasma optique », faisceau de fibres nerveuses qui assurent la liaison entre les informations provenant des moitiés « gauches » et « droites » de chacune des deux rétines. Ce centre permet la formation dune image CONTINUE au niveau de la « frontière » entre les 2 champs de vision.

7 cours n°5UE303 (M2.isitie) : S. Sidhom7 Signal vidéo Sur un récepteur de télévision, une image est obtenue par balayage électronique successif des lignes de luminophores constituant lécran. Un écran au standard PAL ou SECAM comprend 625 lignes, alors quun écran au standard NTSC nen possède que 525. On sait que, pour donner à lœil humain une impression déclairement continu à laide dune source lumineuse émettant de façon discontinue (vidéo projecteur, projecteur de cinéma, écran TV, … ), il faut au moins 40 éclats par seconde : Une fréquence de 20 à 40 éclats provoque une impression de scintillement Une fréquence au-dessous de 20 éclats, léclairement paraît saccadé Pour obtenir une impression de continuité parfaite avec 25 images/s, on divise chaque image en 2 demi-images projetées successivement, provoquant ainsi 50 sensations différentes par seconde.

8 cours n°5UE303 (M2.isitie) : S. Sidhom8 NTSC : standard de diffusion TV du continent nord-américain et du Japon, la fréquence du courant électrique est 60Hz, la fréquence daffichage est de 30 images/s (exactement 29,97 im/s) sur 525 lignes. PAL : standard de diffusion TV couleur, qui a été mis point en Allemagne vers Son principal avantage relativement au standard américain dont il est très proche, est de remédier aux erreurs de phase dont souffre ce dernier. SECAM : standard français, il comporte 625 lignes et 25 images/s. la fréquence du courant électrique distribué en Europe est en effet de 50Hz. Standard CCIR 601 : comité international des radiocommunications. Cet organisme a été remplacé par le secteur de radiocommunication de lunion internationale des télécommunications (UIT) : standard concernant la vidéo numérique.

9 cours n°5UE303 (M2.isitie) : S. Sidhom9 Image en continuité parfaite : Les demi-images ou trames sont obtenues par balayage des seules lignes paires dans un 1er temps, puis des lignes impaires dans un 2e temps. limage complète est obtenue par entrelacement des 2 trames. Exemple : le signal vidéo analogique est donc découpé en 25 ou 29,97 images/s (en. frames), elles-mêmes divisées en 25 x 2 = 50 ou en 29,97 x 2 = 59,94 trames (en. fields), celles-ci étant à leur tour analysées en 312,5 ou 262,5 lignes. += Trame paire Trame impaireimage

10 cours n°5UE303 (M2.isitie) : S. Sidhom10 Ce découpage est essentiel car il constitue un échantillonnage préalable du signal en lignes et trames. Cela signifie que, pour numériser le signal vidéo, il suffira d échantillonner la ligne qui constitue la 3e dimension du signal. t (trames) x (points par lignes) y (lignes)

11 cours n°5UE303 (M2.isitie) : S. Sidhom11 Échantillonnage vidéo Échantillonner la ligne : en vidéo analogique, lunité minimale est la ligne, car le signal est conçu pour piloter en continu les déplacements du triple faisceau délectrons (RVB) et NON pour exprimer la couleur spécifique de chaque point de limage. Résolution verticale : le nombre de lignes sur un écran (résolution verticale) est exactement déterminé par chaque standard : PAL et SECAM distinguent 625 lignes dont 576 seulement sont destinées au balayage réel de limage, le reste étant affecté à divers « services » de synchronisation et de positionnement des faisceaux (changement de ligne et de trame) NTSC naffecte quant à lui que 480 lignes sur 525 à laffichage de limage Résolution verticale I S S

12 cours n°5UE303 (M2.isitie) : S. Sidhom12 Résolution horizontale : la résolution horizontale quant à elle nest pas un paramètre fixe du signal vidéo analogique: elle dépend de la bande passante allouée à la vidéo et à la qualité du moniteur sur laquelle elle viendra safficher. Limage télévisée standard obéit à un ratio de 4:3 (ie. largeur de limage est 1,33 fois plus grande que sa hauteur), on peut estimer le nombre de points par ligne (ie. estimer la largeur de limage en nombre de points) : PAL, SECAM : Limage ayant une hauteur de 575 lignes, sa largeur sera : 575 x 1,33 = 768 points NTSC : Limage ayant une hauteur de 480 lignes, sa largeur sera de 640 points. La résolution théorique du standard NTSC est à lorigine du célèbre affichage VGA de 640 x 480 sur les moniteurs informatiques.

13 cours n°5UE303 (M2.isitie) : S. Sidhom13 Au cours des années 1970, les industriels commencent à prendre conscience de lavenir de la vidéo en passant par le numérique. En conséquence, ils commencent à sintéresser aux techniques de numérisation applicables au secteur des télécommunications, télédiffusions, télédétections, etc. Pour éviter lanarchie dans les formats propriétaires, en 1982, le standard CCIR 601 a été adapté par lUIT pour la télévision numérique : Le nombre de points actifs par ligne est de 720 (pour tous les autres standards) Le nombre total des points par ligne (ppl) est de : 858 ppl en NTSC (525 lignes / 59,94 trames par seconde) 864 ppl en PAL et SECAM (575 lignes / 50 trames par seconde).

14 cours n°5UE303 (M2.isitie) : S. Sidhom14 Exemples : Dans le standard PAL, à raison de 625 lignes par image, de 864 points par ligne et de 25 images/seconde, on obtient : 625 lignes/image x 864 points/ligne x 25 images/s = points/s Dans le standard NTSC, on obtient exactement le même nombre de points par seconde : 858 points/ligne x 525 lignes/s x 30 images/s x 1000/1001 = points/s si 1 seconde de vidéo correspond à points et si lon veut conserver toute linformation concernant ces points alors il est nécessaire de les décrire individuellement. pour 1 seconde vidéo, on doit définir échantillons : la fréquence déchantillonnage requise dans ces conditions est donc de 13,5 MHz Quantifier directement les valeurs RVB issues des capteurs CCD ( l'acronyme de "Charged Coupled Device« ou capteurs de lumière qui constituent la "pellicule numérique"), soit 3 valeurs/échantillon avec un codage de 8 bits/valeur, le débit nécessaire au transport du signal numérique serait : échantillons/s x 3 valeurs/échantillon 8 bits/s = ~40 Mo/s

15 cours n°5UE303 (M2.isitie) : S. Sidhom15 Questions : Q1 : Appréhender la quantité de mémoire totale nécessaire au stockage dun film standard de 90 minutes ? Q2 : si un DVD 5 (simple face, simple couche) a une capacité de 4,7 Go, combien il faudra prévoir ? Réponse 1: = 90 mn/film x 60 s/mn x 40 Mo/s = ~ 210 Go/film Réponse 2 : = 44 DVD

16 cours n°5UE303 (M2.isitie) : S. Sidhom16 Compression vidéo Dans de nombreuses séquences vidéos, de nombreuses scènes sont fixes ou bien changent très peu, c'est ce que l'on nomme la redondance temporelle. Exemple : Lorsque seules les lèvres de l'acteur bougent, il suffit donc de décrire seulement le changement d'une image à l'autre. Le groupe MPEG (Moving Pictures Experts Group) a été établi en 1988 dans le but de développer des standards internationaux de compression, décompression, traitement et codage d'image animées et de données audio. Il existe plusieurs standards MPEG : de 1 à 7

17 cours n°5UE303 (M2.isitie) : S. Sidhom17 CoDec (pour COmpression / DECompression) Problème : Une image d'une vidéo non compressée occupe une taille d'environ 1 Mo. Afin d'obtenir une vidéo paraissant fluide il est nécessaire d'avoir une fréquence d'au moins 25 ou 30 images par seconde, ce qui produit un flux de données d'environ 30 Mo/s, soit plus de 1.5 Go par minute. Il est évident que ce type de débit est peu compatible avec les espaces de stockage des ordinateurs personnels ni même avec les connexions réseau de particuliers ou de petites ou moyennes entreprises. Solution : Afin de pallier cette difficulté, il est possible de recourir à des algorithmes permettant de réduire significativement les flux de données en compressant / décompressant les données vidéos. On appelle ces algorithmes CoDec (pour COmpression / DECompression).

18 cours n°5UE303 (M2.isitie) : S. Sidhom18 Le M-JPEG (Motion JPEG ) La première idée qui vient à l'esprit après s'être interessé à la compression d'images est d'appliquer ce type de méthode à une succession d'images numériques (animation ou vidéo). Le principe du Motion JPEG (noté MJPEG ou M-JPEG, à ne pas confondre avec le MPEG) consiste à appliquer successivement l'algorithme de compression JPEG aux différentes images d'une séquence vidéo.JPEG Etant donné que le M-JPEG code séparément chaque image de la séquence il permet d'accéder aléatoirement à n'importe quelle partie d'une vidéo. Ainsi son débit de 8 à 10 Mbps le rend utilisable dans les studios de montage numérique.

19 cours n°5UE303 (M2.isitie) : S. Sidhom19 Le MPEG (Moving Pictures Experts Group) Dans de nombreuses séquences vidéos, de nombreuses scènes sont fixes ou bien changent très peu, c'est ce que l'on nomme la redondance temporelle. Lorsque seules les lèvres de l'acteur bougent, presque seuls les pixels de la bouche vont être modifiés d'une image à l'autre, il suffit donc de ne décrire seulement le changement d'une image à l'autre. C'est là la différence majeure entre le MPEG (Moving Pictures Experts Group) et le M-JPEG. Cependant cette méthode aura beaucoup moins d'impact sur une scène d'action.

20 cours n°5UE303 (M2.isitie) : S. Sidhom20 Standards et normes vidéos le MPEG-1, développé en 1988, est un standard pour la compression des données vidéos et des canaux audio associés (jusqu'à 2 canaux pour une écoute stéréo). Il permet le stockage de vidéos à un débit de 1.5Mbps dans une qualité proche des cassettes VHS sur un support CD appelé VCD (Vidéo CD). le MPEG-2, un standard dédié originalement à la télévision numérique (HDTV) offrant une qualité élevé à un débit pouvant aller jusqu'à 40 Mbps, et 5 canaux audio surround. Le MPEG-2 permet de plus une identification et une protection contre le piratage. Il s'agit du format utilisé par les DVD vidéos. le MPEG-4, un standard destiné à permettre le codage de données multimédia sous formes d'objets numériques, afin d'obtenir une plus grande interactivité, ce qui rend son usage particulièrement adapté au Web et aux périphériques mobiles. le MPEG-7, un standard visant à fournir une représentation standard des données audio et visuelles afin de rendre possible la recherche d'information dans de tels flux de données. Ce standard est ainsi également intitulé Multimedia Content Description Interface. le MPEG-21, en cours d'élaboration, dont le but est de fournir un cadre de travail (en anglais framework) pour l'ensemble des acteurs du numériques (producteurs, consommateurs,...) afin de standardiser la gestion de ces contenus, les droits d'accès, les droits d'auteurs,...

21 cours n°5UE303 (M2.isitie) : S. Sidhom21 Caractéristiques du MPEG-1 La norme MPEG-1 représente chaque image comme un ensemble de blocs 16 x 16. Elle permet d'obtenir une résolution de: 352x240 à 30 images par seconde en NTSC 352x288 à 25 images par seconde en PAL/SECAM Le MPEG-1 permet d'obtenir des débits de l'ordre de 1.2 Mbps (exploitable sur un lecteur de CD-ROM).CD-ROM Le MPEG-1 permet d'encoder une vidéo grâce à plusieurs techniques : Intra coded frames (Frames I, correspondant à un codage interne): les images sont codées séparément sans faire référence aux images précédentes Predictive coded frames (Frames P ou codage prédictif): les images sont décrites par différence avec les images précédentes Bidirectionally predictive coded frames (Frames B): les images sont décrites par différence avec l'image précédente et l'image suivante DC Coded frames: les images sont décodées en faisant des moyennes par bloc

22 cours n°5UE303 (M2.isitie) : S. Sidhom22 Frames I : Ces images sont codées uniquement en utilisant le codage JPEG, sans se soucier des images qui l'entourent. JPEG De telles images sont nécessaires dans une vidéo MPEG car ce sont elles qui assurent la cohésion de l'image (puisque les autres sont décrites par rapport aux images qui les entourent), elles sont utiles notamment pour les flux vidéo qui peuvent être pris en cours de route (télévision), et sont indispensables en cas d'erreur dans la réception. Il y en a donc une ou deux par seconde dans une vidéo MPEG.

23 cours n°5UE303 (M2.isitie) : S. Sidhom23 Frames P : Ces images sont définies par différence par rapport à l'image précédente. L'encodeur recherche les différences de l'image par rapport à la précédente et définit des blocs, appelés macroblocs (16x16 pixels) qui se superposeront à l'image précédente. L'algorithme compare les deux images bloc par bloc et à partir d'un certain seuil de différence, il considère le bloc de l'image précédente différent de celui de l'image en cours et lui applique une compression JPEG.JPEG C'est la recherche des macroblocs qui déterminera la vitesse de l'encodage, car plus l'algorithme cherche des "bons" blocs, plus il perd de temps... Par rapport aux frames-I (compressant directement), les frames-P demandent d'avoir toujours en mémoire l'image précédente.

24 cours n°5UE303 (M2.isitie) : S. Sidhom24 Frames B : De la même façon que les frames P, les frames B sont travaillées par différences par rapport à une image de référence, sauf que dans le cas des frames B cette différence peut s'effectuer soit sur la précédente (comme dans les cas des frames P) soit sur la suivante, ce qui donne une meilleure compression, mais induit un retard (puisqu'il faut connaître l'image suivante) et oblige à garder en mémoire trois images (la précédente, l'actuelle et la suivante).

25 cours n°5UE303 (M2.isitie) : S. Sidhom25 Frames D : Ces images donnent une résolution de très basse qualité mais permettent une décompression très rapide, cela sert notamment lors de la visualisation en avance rapide car le décodage "normal" demanderait trop de ressources processeur. Dans la pratique : Afin d'optimiser le codage MPEG, les séquences d'images sont dans la pratique codées suivant une suite d'images I, B, et P (D étant comme on l'a dit réservé à l'avance rapide) dont l'ordre a été déterminé expérimentalement. La séquence type appelée GOP (Group Of Pictures ou en français groupes d'images) est la suivante: IBBPBBPBBPBBI Une image I est donc insérée toutes les 12 frames.

26 cours n°5UE303 (M2.isitie) : S. Sidhom26 Formats vidéos Le format DivX est un format de compression/décompression vidéo permettant d'obtenir des vidéos compressées très peu volumineuses avec une perte de qualité très raisonnable. Ainsi le format DivX permet de stocker un film complet sur un CD-ROM de 650 ou 700 MoCD-ROM Le format XviD est une implémentation OpenSource du codec Divx, développée à partir de 2001, à l'occasion du passage du format DivX original (porté par le groupe Project Mayo) à un format propriétaire. Le format XviD propose ainsi une compression de très bonne qualité. Le format VP3 est un format alternatif Open Source développé par la société On2. La qualité des vidéos est moindre qu'en DivX mais le format VP3 est avant tout destiné à une utilisation en streaming.

27 cours n°5UE303 (M2.isitie) : S. Sidhom27 Le format 3ivX est un format de compression vidéo alternatif permettant une compression MPEG-4 dans des fichiers Apple QuickTime (extension.mov), ce qui le rend particulièrement apprécié des utilisateurs de Mac. Le format 3ivX souffre toutefois d'une qualité bien moindre que le format DivX.Mac Le format MKV (Matroska Video) est un format vidéo entièrement libre. Plus exactement il s'agit d'un conteneur (d'où le nom Matroska, en référence aux poupées russes) permettant de contenir de la vidéo (DivX, Xvid,RV9, etc.), du son (MP3, MP2, AC3, Ogg, AAC, DTS, PCM), ainsi que des sous-titres (SRT, ASS, SSA, USF, etc.) dans un même fichier. Le format MKV est basé sur une structure dérivée de XML, appelée EBML (Extensible Binary Meta Language). Ainsi grâce au format Matroska, il est notamment possible de réaliser des fonctions de chapitrage, de créer des menus, de faire des recherches dans le fichier, de sélectionner une source sonore ou bien de choisir un sous-titrage.XML

28 cours n°5UE303 (M2.isitie) : S. Sidhom28 DivX et légalité Le format DivX et le concept de légalité (à partir des versions 4 et supérieures) ainsi que les autres formats vidéos ne sont pas illégaux en soi, mais leur utilisation peut l'être en raison du droit d'auteur qui s'applique sur les oeuvres compressées.droit d'auteur Ainsi les articles L et L211-3 du code de la propriété intellectuelle autorisent la copie privée d'une oeuvre à partir d'un original acquis légalement (par exemple un DVD de location), pour un usage privé et dans un cercle familial. Une taxe a ainsi été appliquée aux supports de stockage (CD-R) afin de compenser le manque à gagner des artistes provoqué par le droit à la copie privée.CD-Rdroit à la copie privée En contrepartie la diffusion (mise en partage sur Internet, envoi par messagerie ou tout autre moyen ou via un logiciel d'échange de fichiers) et le téléchargement d'oeuvres protégées par le droit d'auteur sont interdits par la loi et le cas échéant sanctionnés pour contrefaçon.droit d'auteur

29 cours n°5UE303 (M2.isitie) : S. Sidhom29 Histoire du format DivX Le format DivX a été mis au point en 1999 par un développeur français de 27 ans, du nom de Jérome ROTA, à partir du codec MPEG-4 v.3 de Microsoft. En effet le codec MPEG-4 fourni en standard avec la version Bêta du lecteur multimédia Windows Media Player était parfaitement opérationnel mais à la sortie de la version officielle, celui-ci ne fonctionnait plus correctement, c'est la raison pour laquelle Jérôme ROTA décida de le corriger ainsi que d'y ajouter la possibilité de compresser le son au format MP3 et mit au point ce qui allait devenir le format "DivX ;-)" (avec un D et un X majuscules), un clin d'oeil au système divx (Digital Video Express) dont l'objectif était de protéger les DVD contre les copies illégales mais qui ne vit jamais le jour dans la mesure où les DVD ainsi protégés devenaient illisibles au bout de quelque temps.format MP3 Le codec, jusqu'à sa version 3.11 alpha, était un projet OpenSource (appelé OpenDivX et porté par le Project Mayo) basé sur un "hack" du codec de Microsoft. En 2001, Jérôme ROTA fonda l'entreprise DivX Networks afin de produire un nouveau codec propriétaire entièrement réécrit afin de s'affranchir de la dépendance des droits vis-à- vis de la firme Microsoft, ce qui déboucha sur la version 4 du codec, baptisée DivX4.Project Mayo Lors du passage à la version 5 du codec (nommée DivX5), le codec de compression DivX est devenu payant (DivX®) ou bien contient un spyware dans sa version gratuite (DivX TM ).spyware


Télécharger ppt "Cours n°5UE303 (M2.isitie) : S. Sidhom UE 303.a cours n°5 Conception de système dinformation multimédia : Représentation des informations multimédias –"

Présentations similaires


Annonces Google