Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW
Compression des données L2MDW
Introduction L2MDW diapo 3
Les 2 approches de la compression * La compression avec perte * La compression sans perte L2MDW diapo 4
1-La compression avec perte Définition : Il y a moins d'informations après la compression qu'avant. Ex: l'œil ne perçoit pas nécessairement tous les détails d'une image , l’oreille ne capte pas certaines fréquences,… L2MDW diapo 5
1-La compression sans perte Définition : La compression est dite sans perte lorsqu'il n'y a aucune perte de données sur l'information d'origine. Il y a autant d'information après la compression qu'avant, elle est seulement réécrite d'une manière plus concise. L2MDW diapo 6
Probabilité d’apparition d’un caractère dans un message : ni = le nombre d’occurrence du caractère ci m = le nombre de caractère total dans le message L2MDW diapo 7
3 types de méthodes de compression Méthodes canoniques Méthodes statistiques Méthodes à dictionnaire Rappel pour chaque méthode: Taux de compression T= taille après codage taille initiale (en ctf) L2MDW diapo 8
Dans ce chapitre, on s’intéressera à la méthode canonique L2MDW diapo 9
Principe C’est une méthode simple qui compacte les mots d’une source en se basant sur les propriétés structurelles du message. La compression s’effectue à la volée (sans lecture préalable de la source). Pour pouvoir décompresser il suffit de connaitre le protocole générique choisi pour la compression ( ce protocole n’a pas besoin d’être codé dans le message compressé). L2MDW diapo 10
Méthode canonique: 1-codage topologique L2MDW diapo 11
Caractéristiques du codage topologique : Fonctionne sur les octets (8 bits). Pour être efficace il est nécessaire qu’un des octets source soit sensiblement dominant (par exemple 0). Le taux de compression maximal est de 1/8 L2MDW diapo 12
Principe : Le caractère le plus fréquent de la source va jouer un rôle particulier, on nommera ce caractère : l’octet dominant. On lit les données sources par bloc de 8 octets, et on code chaque bloc de la façon suivante : On génère un octet topologique dans lequel les bits à 1 désignent la position de l’octet dominant dans le bloc lu. Puis, on génère à la suite les caractères du bloc lu en supprimant l’octet dominant. Cette suite constitue le sous-mot de l’octet topologique précédent. L2MDW diapo 13 L2MDW
Exemple: Soit un message source dont A est le symbole de l’octet dominant (les symboles sont ici représentés par des lettres, mais leur code binaire a une longueur de 8 bits). Considérons le bloc de 8 octets sources suivants : AABDEACA L’octet topologique sera alors : 11000101 Et son sous-mot sera la suite de symboles : BDEC Si T est le symbole de l’octet topologique ci-dessus, alors le bloc compacté sera la suite de symbole : TBDEC L2MDW diapo 14
Méthodes canoniques 2-l’algorithme RLE L2MDW diapo 15
Algorithme RLE Run-Length Encoding Caractéristiques du RLE: Un des premiers algorithmes de compression Fonctionne sur les octets ou caractères. Utilisé par la plupart des fichier bitmaps (TIFF, BMP et PCX). Simple à implémenter et rapide d’exécution. Efficace sur les messages comportant un grand nombre de symboles consécutifs. L2MDW diapo 16
Principe : Dans le message source les suites de caractère consécutif sont remplacées par un codage composé du nombre d’occurrences du caractère suivi du caractère. L2MDW diapo 17
Vocabulaire Dans le message source, une suite de caractères consécutifs est appelé un passage (ou une course, « run »). Le code compressé qui lui correspond est appelé paquet RLE, dans celui-ci : - le nombre d’occurrences du caractère est appelé le compteur de passage (« run count »). - et le caractère associé est appelé valeur de passage (run value). L2MDW
AAAAAAbbbXXXXXt Exemple: Soit un message Son codage RLE sera la chaîne de 4 paquets suivante : 6A3b5X1t L2MDW diapo 19 L2MDW
FIN merci pour votre attention L2MDW L2MDW