Information, Calcul, Communication Ce videoclip produit par l’Ecole Polytechnique Fédérale de Lausanne fait partie de son cours d’introduction à l’information, à la communication, et au calcul. Il s’inscrit dans le 2e module de ce cours qui porte sur les notions d’échantillonnage et de reconstruction de signaux puis introduit les notions d’entropie et de compression de l’information. Information, Calcul, Communication 2. Information & Communication – Leçon 3: Entropie Clip 1: Introduction O. Lévêque, commentaire: P. Janson
Plan de la leçon Introduction à la compression Notion d’entropie Calcul d’entropie Compression sans perte Algorithme de Shannon-Fano La 3e leçon de ce 2e module du cours est divisée en 5 videoclips. 1 Ce 1er clip va introduire la notion de compression de l’information. 2 Le 2e clip introduira le concept d’entropie qui joue un rôle essentiel dans le codage et la compression d’information. 3 Le 3e clip se penchera plus précisément sur la façon de calculer l’entropie d’un message. 4 Le 4e clip expliquera en quoi consiste le fait de comprimer un message sans perte. 5 Le 5e et dernier clip abordera l’algorithme de Shannon-Fano qui est fondamental au codage et à la compression d’information et sur lequel nous reviendrons dans les clips de la 4e leçon de ce module.
Introduction Les vidéoclips des deux premières leçons de ce module sur le traitement des signaux ont répondu à deux questions: Comment représenter / capter la réalité physique avec des bits ? Et la réponse a introduit les notions de filtrage, d’échantillonnage, et de quantification Comment restituer cette réalité à partir de bits ? Et la réponse a expliqué reconstruction, théorème d’échantillonnage, et importance du filtrage Dans cette leçon et la suivante, nous allons répondre à deux autres questions: Comment mesurer la quantité d’information présente dans des données ? Et cela va nous mener à expliquer la notion d’entropie Comment minimiser le temps ou l’espace requis pour stocker ou transmettre des données ? Et cela va nous mener à parler de compression (avec ou sans pertes de fidélité) 1 Au cours des 2 1e leçons de ce module nous avons étudié 2 questions: 2 1°/ Comment représenter / capter la réalité physique avec des bits ? Pour y répondre nous avons introduit les notions de filtrage, d’échantillonnage, et de quantification 3 2°/ Comment restituer cette réalité à partir de bits ? Pour répondre à cela nous avons expliqué la notion de reconstruction, le théorème d’échantillonnage, et l’importance du filtrage 4 Les clips des 2 leçons qui suivent vont répondre à deux autres questions: 5 1°/ Comment mesurer la quantité d’information présente dans des données ? Et la réponse va nous mener à expliquer la notion d’entropie 6 2°/ Comment minimiser le temps ou l’espace requis pour stocker ou transmettre des données ? Et cela va nous mener à parler de compression (avec ou sans perte d’information)
Compression Pourquoi donc vouloir comprimer des données? pour réduire l’espace nécessaire au stockage de ces données pour réduire le temps nécessaire à la transmission de ces données (et la congestion possible lors de leur transmission) Avec les progrès de la technologie on peut se demander s’il ne suffit-il pas d’attendre la prochaine innovation pour avoir de meilleures performances sans devoir comprimer ? Certes mais on désire néanmoins toujours exploiter chaque technologie au maximum de ses capacités ! 1 La 1e question à se poser est pourquoi donc vouloir comprimer des données? 2 Une 1e raison est que conserver des données prend de la place, p.ex. dans les bibliothèques. Il est donc désirable de réduire l’espace nécessaire au stockage de données. 3 Une 2e raison est que transmettre des données demande du temps, p.ex. le temps requis pour le transport de courrier ou le déménagement d’archives. Il est donc désirable de réduire le volume de données pour en faciliter la transmission. Par ailleurs des volumes excessifs de données, p.ex. courriers de Noël, départs et retours de vacances, déménagements en masse sont susceptibles d’engorger les systèmes de transport. Il est donc désirable de réduire le volume de données pour éviter de telles congestions. 4 Avec les progrès actuels de la technologie informatique on peut évidemment se demander s’il ne suffit-il pas d’attendre la prochaine génération de produits pour avoir de meilleures performances sans devoir comprimer d’information? 5 Chaque technologie apporte certes une amélioration vertigineuse de performance mais on désire néanmoins toujours exploiter chaque progrès au mieux de ses capacités !
Quelles données comprimer et comment 1e question: quels types de données peuvent être comprimées ? Les vidéos Les photos Les images Les sons Le langage Etc. … en fait tout type de données numériques … Le principe de base de la compression de données est la suppression de la redondance présente dans ces données Alors quelles données peut-on comprimer et comment? 1 Comme on va le voir on peut en fait comprimer n’importe quel type de données: des vidéos, des photos, des images, des sons, du langage oral ou écrit, etc. 2 Quel que soit le type de données à comprimer, le principe de base est toujours le même: la suppression de la redondance présente dans ces données.
Exemple de redondance Toutes les langues sont pleines de redondance ! La preuve par cet exemple en français: Sleon une édtue de l’Uvinertisé de Cmabrigde, l’odrre des ltteers dans un mot n’a pas d’ipmrotncae, la suele coshe ipmrotnate est que la pmeirère et la drenèire soinet à la bnnoe pclae. Le rsete peut êrte dans un dsérorde ttoal et vuos puoevz tujoruos lrie snas porlbème. C’est prace que le creaveu hmauin ne lit pas chuaqe ltetre elle-mmêe, mias le mot comme un tuot. Pourquoi donc tant de redondance (par exemple dans la langue française) ? Tout simplement pour pouvoir mieux se comprendre, par exemple dans un environnement bruyant Pour pouvoir toujours lire un texte, même s’il contient des fautes d’orthographe ;-) ... Il est évidemment légitime de se demander en quoi une video, une photo, une image, un enregistrement audio, ou un texte peuvent renfermer de la redondance. Dans le cas de videos et photos, c’est relativement evident: Un ciel bleu, une prairie verte, un objet quelconque sont autant de zones de couleurs potentiellement uniformes. Dans le cas d’images non seulement les couleurs présentent souvent une uniformité mais il en va aussi les forms, lignes, courbes, formes géométriques, etc. Et dans le cas d’enregistrements audio, on constate facilement des sons qui se répètent, 1 Des redondances similaires se retrouvent dans toutes les langues parlées ou écrites. 2 Considérons p.ex. le texte suivant qui est bourré d’erreurs intentionnelles mais parfaitement lisible pour la raison qu’il explique lui-même Sleon une édtue de l’Uvinertisé de Cmabrigde, l’odrre des ltteers dans un mot n’a pas d’ipmrotncae, la suele coshe ipmrotnate est que la pmeirère et la drenèire soinet à la bnnoe pclae. Le rsete peut êrte dans un dsérorde ttoal et vuos puoevz tujoruos lrie snas porlbème. C’est prace que le creaveu hmauin ne lit pas chuaqe ltetre elle-mmêe, mias le mot comme un tuot. 3 La vraie question n’est pas celle de la présence ou de l’absence de redondance mais le pourquoi de cette redondance (par exemple dans la langue française) ? 4 Une 1e raison est simplement de pouvoir mieux se comprendre, par exemple dans un environnement bruyant. 5 Et une 2e (en clin d’œil) est de pouvoir toujours lire un texte, même s’il contient des fautes d’orthographe!
Degrés de compression On distingue deux types de compression: La compression sans pertes lorsqu’on désire reconstruire fidèlement toutes des données comprimées Exemples: billets pour un concert, déclaration d’impôts, bulletins de vote, articles scientifiques La compression avec pertes lorsqu’on peut se contenter d’une reconstruction approximative et qu’on s’autorise un certain degré de distorsion, de perte de qualité Exemples: émissions podcastées et morceaux de musique en format mp3, partage de photos sur le web, vidéos sur YouTube, etc. Pour revenir à la notion de compression il en existe deux types : 1 La compression dite sans pertes lorsqu’on désire reconstruire fidèlement toutes des données comprimées, 2 … comme ce serait p. ex. le cas pour des billets pour un concert, une déclaration d’impôts, un bulletin de vote, un article scientifique, etc. 3 On parle par contre de compression avec pertes lorsqu’on peut se contenter d’une reconstruction approximative et qu’on s’autorise un certain degré de distorsion, de perte de qualité, 4 … comme c’est p.ex. le cas pour des émissions podcastées, et des morceaux de musique en format mp3, ou celui de photos partagées sur le web, ou de vidéos sur YouTube, etc.