Formats de données multimédias

Formats de données multimédias
Chapitre II Formats de données multimédias

Introduction Une base de données multimédia est un type de base de données consacré à l’indexation, le stockage, la recherche, la transmission et la restitution de données multimédia : documents sonores, images, vidéos. Elles peuvent s'appuyer sur différentes architectures de bases de données, les types les plus utilisés étant le modèle relationnel et le modèle objet. Les formats de données (normes de codage) permettent de stocker et de transmettre les données multimédias de manière unique.

données informatiques
textes numérisation (compression) données informatiques (formats) images vidéo sons

Les textes 1.Composés de caractères dits d'imprimerie, la numérisation s'opère simplement par codage de chaque caractère en une suite de 0 et de 1. 2.Le code ASCII (American Standard Code for Information Interchange) sur 7 bits permet de coder 128 caractères usuels. Le 8ème est de parité. 3.Un livre de 300 pages, chaque page contient 3000 caractères, nécessite 900ko de mémoire.

Les formats des textes structurés
Standard General Markup Language (SGML), Office Document Architecture (ODA), LaTex, Portable Document Format (PDF). Nota : Un document textuel peut être aussi déterminer par des liens hypertextes. Les document HTML et XML sont aussi des textes structurés.

Compression des textes
Le besoin en mémoire est modéré relativement aux autres types. La compression des textes doit être sans perte de données. 3 méthodes de compression des textes sera exposées (Huffman, RLE (Run-Length Encoding) et LZW (Lempel-Ziv-Welch)

Codage (compression) d’Huffman
Il attribue moins de bits pour les symboles qui apparaissent le plus souvent et plus de bits à des symboles qui apparaissent le moins souvent. Le dictionnaire des codes (codebook) Caractère probabilité code E 0.8 1 T 0.16 01 X 0.02 001 Z 000

Codage (compression) d’Huffman
Pour un fichier de 1000 caractères, il en faut 1000 * (1 * * 0, * 0, * 0,02) = bits Si les codes sont de même taille, il en faut 1000*2= 2000 bits (sachant qu’il faut 2 bits pour coder 4 caractères) Le taux de compression =2000/1240=1.61

Le codage RLE (Run-Length Encoding)
Le codage RLE est une méthode de compression sans perte Utilisé pour compresser des images, tels que les formats d’image BMP, PCX et TIFF Il tire parti de la redondance des données au sein de l'information La performance du codage RLE est directement liée à la redondance contenue dans l’information Exemple : soit la chaine « eeeeeeetnnnnnnnn » L’encodage(codage, compression) est

Le codage RLE (Run-Length Encoding)
Pour chaque caractère répété est associé 3 champs : Sc : caractère spécial indiquant la répétition X : le nombre d’occurrence C : le caractère répété Sc X C

Le codage LZW (Lempel-Ziv-Welch)
La compression LZW construit une table de traduction de chaîne de caractères à partir du texte à compresser. Cette table relie des codes de taille fixée (généralement 12-bit) aux chaînes de caractères. La table est initialisée avec tous les caractères (256 entrées dans le cas de caractères codés sur 8 bits).

Le codage LZW (Lempel-Ziv-Welch)
Soit un fichier de caractères Avec 8 bits par caractère, on a besoin de bits pour encoder ce fichier Supposant que le fichier à 2000 mots ou phrases sur lesquels 500 sont distincts (il faut 9 bits pour coder chaque mot ou phrase), on a besoin de bits pour coder ce fichier Le taux de compression pour cet exemple est de 80000/18000=4.4

Image vectorielle et Animation
Il y a deux types d’image : - image vectorielle (les éléments graphiques sont représentés par des modèles prédéfinis ou des formules mathématiques) - image matricielle (pixels) Un élément graphique peut être un rectangle. Un rectangle est défini par un identifiant et les coordonnées de deux coins opposés Les éléments graphiques d’une image vectorielle peuvent être changés facilement en modifiant ses paramètres (translation, changement d’échelle, rotation, etc.)

Image vectorielle et Animation
Les images vectorielles ne sont pas exigeantes en espace mémoire. Il est relativement facile d’extraire le contenu des images vectorielles. Les propriétés de chaque élément, telles que sa forme et sa taille, peuvent être extraites à partir du fichier graphique et utilisé pour l'indexation et la recherche. L'animation est produite par l’affichage d’une séquence de frames(pareille à la vidéo).

Les sons Il faut savoir que le pascal (Pa) est l'unité de pression et que la pression d'une atmosphère est de l'ordre de 1020 hectopascals (1, Pa). Le son est causé par une perturbation de la pression de l'air qui atteint le tympan de l'oreille. L’intervalle des fréquences du son audible est de 20 à Hz. Cet intervalle correspond à des variations de pression de 20 micropascals (seuil de sensibilité) à 100 pascals (seuil de douleur).

Numérisation Pour numériser un son enregistré de manière analogique, on procède en trois étapes : Echantillonnage : l'amplitude du signal analogique est mesurée à une fréquence d'échantillonnage f. On obtient ainsi une collection de mesures. Quantification : une échelle arbitraire allant de 0 à 2n-1 est employée pour convertir les mesures précédentes (n est le nombre des niveaux de quantification). Une approximation est faite de manière à ce que chaque mesure coïncide avec une graduation de l'échelle (cette approximation, qui modifie légèrement le signal, est appelée bruit de quantification). Codage : suivant sa grandeur dans cette nouvelle échelle, chaque mesure est codée sur n bits et placée séquentiellement dans un fichier binaire.

Numérisation

Les valeurs de f (fréquence d’échantillonnage) et de n (nombre des niveaux de quantification) sont critiques pour la taille du fichier résultant. Usuellement 3 qualités de numérisation sont employées : - La qualité Hifi ou CD audio : f=44.1 KHz, n=16 bits, stéreo (2 signaux sonores) - La qualité "radio" : f= 22 KHz, n=8 bits, mono ou stéréo - La qualité "téléphonique" : f=8 KHz, n=8 bits, mono

Détermination de la fréquence d'échantillonnage (Taux d’échantillonnage)
La fréquence d'échantillonnage dépend de la fréquence maximale du signal analogique à convertir. Selon le théorème de Nyquist, si un signal analogique contient une fréquence maximale de f HZ, la fréquence d'échantillonnage doit être au moins 2f Hz La fréquence maximale de la voix humaine est 3,1 kHz. Ainsi, le système téléphonique analogique limite le signal à transmettre à 3,1 kHz. Pour convertir ce signal vocal en un signal numérique, un taux d'échantillonnage de 8 kHz est utilisés.

Détermination du nombre de niveaux de quantification
Si b est le nombre de bits nécessaires pour représenter chaque échantillon et Q est le nombre de niveaux de quantification, on a : b = log2(Q), et par conséquent Q = 2b La qualité du signal numérique par rapport au signal analogique original est mesurée par le rapport signal/bruit (SNR : Signal to Noise Ratio) en décibels (dB) SNR = 20 log10(S/N) dB où S est l'amplitude maximale du signal et N est le bruit de quantification Soit q le pas de quantification, on a N = q et S = 2bq par substitution on a : SNR=20 log10(2bq/q) =6b Cette équation indique que l'utilisation d'un bit supplémentaire pour représenter des échantillons augmente la SNR de 6 dB

Détermination du nombre de niveaux de quantification
Le bruit de quantification doit être plus petit que le seuil d'audibilité pour ne pas entendre le bruit. Par conséquent, le SNR d'un signal numérisé audio devrait au moins être autour de 100 dB pour ne pas entendre le bruit de quantification N=16

La compression audio Compte tenu des contraintes théoriques de restitution d’un signal analogique de bonne qualité (pour l’oreille humaine) à partir d’un signal échantillonné, on a imposé aux CD audio un format de stockage du son ayant les données suivantes : La fréquence d’échantillonnage (F) : 44.1 kHz, La quantification (Q) : 16 bits (2 octets), Son stéréo. La formule est la suivante : D= F*Q*P*T avec : D qui est la taille du fichier en kilo-octets, F qui est la fréquence d’échantillonnage, Q qui est le nombre d’octets utilisés pour coder le signal, P qui le nombre de piste. En stéréo on utilise deux pistes, T qui est le temps de l’enregistrement en seconde. D=44.1*2*2*60 soit environ 10 Mo Par conséquent la compression audio est essentiel.

La compression audio Deux formats de compression sont possibles : la compression sans perte de données (wave, aiiff) et la compression avec perte de données (mp3). Dans une quantification uniforme des signaux audio, la même taille du pas de quantification est utilisée dans le processus CAN quel que soit l'amplitude du signal. Le processus CAN utilisant une quantification uniforme (quantification linéaire) est souvent appelée modulation PCM (pulse-coded modulation). Ce processus est simple mais efficace. Plus de bruit de quantification si l’amplitude est élevée. Moins de bruit si l’amplitude est faible

Compression audio La compression audio-numérique utilise plusieurs techniques psychoacoustiques de façon à n’encoder que les informations utiles. L’une de ces techniques est le masquage. Le seuil à partir duquel l’oreille humaine perçoit un son dépend énormément de la fréquence de ce son (voir schéma ci-dessus). Par exemple, nous percevons beaucoup plus facilement un son faible à 4 kHz qu’à 50 Hz ou 15 kHz. De plus, à partir de 25 kHz, quelque soit le niveau sonore, l’oreille humaine ne perçoit plus aucun son. La technique du masquage est la suivante : si deux sons de fréquences proches sont joués avec une intensité très différente, on pourra supprimé le son le plus faible qui sera de toute façon masqué et ignoré par l’oreille humaine.

Compression audio Le schéma ci-dessous met en relief le phénomène de masquage de fréquences. En effet, en présence d’un signal de 500 Hz, un son d’une fréquence de 500 Hz est masqué et son niveau doit dépasser la courbe b pour être audible par l’oreille humaine. Si son niveau est en dessous, on n’est pas obligé d’en tenir compte dans le fichier compressé. dB Fréquences en Hz

L’image Deux types d’images : en gris ou en couleur.
L’image numérique est un tableau rectangulaire de pixels. Image en gris La gamme d’intensité du noir au blanc détermine la qualité de l’image en niveaux de gris. Avec 8 bits, 256 niveaux de gris sont utilisés La mémoire utilisée pour stocker une image est appelé framestore ou frame buffer

Les images Image en couleur
Une image en couleur est également un tableau rectangulaire de pixels. Chaque pixel est représenté par 3 valeurs (couleurs primaires : rouge, vert et bleu ) La qualité de l’image est mesurée par deux paramètres : la taille et la profondeur du pixel. La taille est déterminée par le nombre de pixels en ligne et le nombre de pixels en colonne. La profondeur du pixel est définie par le nombre de bits pour représenter un pixel Si, pour une image, la taille et la profondeur d’un pixel sont connus, la quantité d’espace mémoire nécessaire à cette image peut être calculée. Par exemple, pour une image de 512 pixels par 512 lignes de pixel de 24 bits de profondeur, la quantité requise de données D = 512 * 512 * 24 bits = 768 KB.

Compression des images
Parmi les méthodes de compression appliquées aux images, il y a : - les méthodes de quantification (scalaire ou vectorielle), - les méthodes de prédiction, - les méthodes de transformation, - les méthodes fractales. Les méthodes par transformation sont adoptées de façon quasi-universelle dans le domaine du codage des images et de la vidéo.

Les méthodes de compression des images à base de transformation
L'idée principale derrière une compression par transformation est de dé-corréler les pixels de l'image (convertir les éléments dépendants en coefficients indépendants) et concentrer l'énergie d'une image sur seulement un petit nombre de coefficients, de sorte que la redondance dans l'image peut être retirée. La DCT (Discret Cosin Transform) ou Transformée en cosinus discrète est la plus utilisée en compression des images. Elle est utilisée en particulier par les normes JPEG,MPEG.

Principe de JPEG, MPEG par la transformation DCT

La vidéo numérique Il existe deux grandes familles de systèmes vidéo : les systèmes vidéo analogiques et les systèmes vidéo numériques. Le principe des systèmes vidéo analogiques : Une caméra balaye l'image bidimensionnelle qu'elle a devant elle par un faisceau d'électrons qui se déplace très rapidement de gauche à droite et plus lentement de haut en bas, produisant un signal électrique en fonction du temps. Elle enregistre ainsi l'intensité lumineuse, et à la fin du balayage on a ce qu'on appelle une trame (frame), et le faisceau revient à l'origine pour recommencer. Le récepteur va recevoir cette intensité en fonction du temps, et pour reconstruire l'image, va répéter le processus de balayage.

La vidéo numérique Les paramètres précis de ce balayage varient d'un pays à l'autre, mais deux grandes familles existent : -En Europe (système PAL/SECAM (Phase Alternating Line / SEquentiel Couleur Avec Mémoire)) le système utilise 625 lignes (dont seulement 576 sont affichées), et un rapport vertical/horizontal de 4/3 et 25 images par seconde -En Amérique et au Japon (système NTSC ( National Television Standards Committee), 525 lignes (483 sont affichées)), 30 trames par seconde.

La vidéo numérique Lorsque les luminophores (dispositifs d'affichages) sont frappés par un faisceau d'électrons, ils émettent de la lumière pendant une courte période. On pourrait percevoir des scintillements. Pour résoudre ce problème, au lieu d'augmenter le débit des trames, on a préféré afficher d'abord les lignes impaires puis les lignes paires. Cette technique est appelée l'entrelacement

Vidéo numérique Par exemple, une séquence vidéo de 10 minutes avec une image de dimension 512X512, et une profondeur de pixel de 24 bits et un débit d’image de 25 images par seconde, il faut 600 * 25 * 512 * 512 * 3 = 13 Go Par conséquent, il est essentiel de compresser la vidéo.

La compression des vidéos
La vidéo est compressée en réduisant les redondances et en exploitant les propriétés la perception humaine. La vidéo est une séquence d'images, elle a donc une redondance spatiale. les images voisines dans une séquence vidéo sont à priori similaires. Cette similitude est appelée redondance temporelle. La redondance temporelle entre les images est éliminée par les méthodes de compression prédictives. Les redondances spatiales sont éliminées par des techniques de compression spatiale. Les redondances temporelles sont éliminées par des techniques de compression temporelle.

Estimation et compensation de mouvement
L’estimation et la compensation de mouvement permet d'exploiter la redondance temporelle dans la vidéo. Le mouvement dans les images implique que les pixels de l'image précédente sont dans une position différente dans l'image courante. Dans les techniques d'estimation et de compensation de mouvement, chaque image est divisée en blocs de taille fixe (généralement de 16X16 pixels)

MPEG-1, MPEG-2 et 4 MPEG-1 La norme MPEG-1 est enregistrée à l'ISO (International Organisation for Standardisation) sous le codeISO/IEC Elle a été finalisée en 1992. L’objectif de MPEG-1 était de fournir de la vidéo et de l’audio au taux de transfert d’un CD. La partie audio du MPEG-1 est décomposée en MPEG-1 Audio Layer I, II et III. Ce dernier format est plus connu sous le nom de MP3 et permet une compression sur 2 voies audio.

MPEG-1, MPEG-2 et 4 MPEG-2 La norme MPEG-2 est enregistrée à l'ISO sous le code ISO/IEC 13818, et a été finalisée en 1996. MPEG-2 a été développée pour la compression de la vidéo de qualité télévision à un débit de 4 à 6 Mbits/s (ce qui correspond à un canal de télévision normal). MPEG-2 permet la compression d'images entrelacées (TV)

MPEG 4 Les objectifs de cette norme sont assez nombreux et touchent de vastes domaines. En fait, MPEG-4 a pour ambition de fusionner trois mondes : l'informatique, les télécommunications et la télévision. Cette norme s'appuie sur le développement de la télévision numérique, des applications graphiques interactives et du multimédia. MPEG-4 appréhende la vidéo selon la méthode orientée objets : une scène devient alors une composition d'objets médias hiérarchisés, chaque objet étant décomposé en différents paramètres. MPEG-4 propose une approche radicalement différente pour le codage des vidéos, en décomposant chaque scène en plusieurs objets médias hiérarchisés : des objets audiovisuels (AVO, pour Audio-Video Objects). Dans l'arborescence de cette hiérarchie, on trouve des images fixes (arrière-plan), des objets vidéo (objets en mouvement sans arrière-plan) et des objets audio (la voix associée à l'objet en mouvement). Une scène audiovisuelle doit être comprise comme la composition d'objets audiovisuels selon un script décrivant leurs relations spatiale et temporelle.

Formats de données multimédias

Présentations similaires

Présentation au sujet: "Formats de données multimédias"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Formats de données multimédias

Présentations similaires

Présentation au sujet: "Formats de données multimédias"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back