Information, Calcul, Communication

Information, Calcul, Communication
Ce videoclip produit par l’Ecole Polytechnique Fédérale de Lausanne fait partie de son cours d’introduction à l’information, à la communication, et au calcul. Il s’inscrit dans le 1er module du cours qui offre une 1e approche des notions de calcul et d’information. Information, Calcul, Communication 1. Information & Calcul – Leçon 4: Représentation de l’Information Clip 6: Données Non-Numériques J-C. Chappelier, R. Boulic, commentaire: P. Janson

Plan de la leçon 1. Codage de l’information en binaire
Unité élémentaire d'information Bits et bytes (octets) 2. Nombres entiers Représentation positionnelle Grandeur et limites 3. Nombres négatifs Représentation et traitement 4. Nombres rationnels à virgule fixe Représentation et erreurs => notation scientifique 5. Nombres rationnels à virgule flottante Représentation et approximation => précision 6. Représentation d’informations non-numériques Le 6e et dernier clip de cette leçon concerne le codage d’informations autres que des nombres.

Au-delà des nombres… Les ordinateurs ne manipulent pas que des nombres
Ils manipulent aussi Des lettres Des graphiques Des dessins Des images Des photos Des vidéos Des sons Etc. Les ordinateurs ne manipulent pas que des nombres Ils manipulent aussi Des lettres Des graphiques Des dessins Des images Des photos Des vidéos Des sons Etc. Dans ce clip nous allons voir comment représenter des lettres et en général des caractères. Nous suggérerons sans donner de détails comment représenter des graphiques, dessins, images, et photos.

Comment représenter un alphabet ?
= Ensemble fini de signes Considéré avec des variantes : majuscule / minuscule Comprenant des chiffres Comprenant des caractères spéciaux (ponctuation, etc.) => Standardisation originale américaine American Standard Code for Information Interchange (ASCII) Utilise 7 bits => 27 caractères Un alphabet est un ensemble de symboles conventionnels. Notre alphabet latin comprend des variantes majuscules et minuscules. Il utilise en plus 10 symboles pour représenter des chiffres de 0 à 9. Il utilise enfin une série de caractères spéciaux pour la ponctuation (.,etc.), les symboles mathématiques (+-*/=%), des symboles financiers (€, $, #), spéciaux (&), etc. 1 Il a donc fallu inventer une convention binaire pour représenter ces symboles. La 1e initiative en ce sens est venue des Etats Unis, comme l’informatique, sous la forme d’un standard appelé ASCII pour American Standard Code for Information Interchange. Prévoyant que ce standard devrait représenter entre 64 et 128 caractères, il fut basé sur 7 bits, permettant donc de représenter 27 = 128 caractères différents.

Le code ASCII Cette table donne les valeurs binaires, octales (en base 8), hexadécimales (en base 16), et décimales des représentations des 128 caractères ASCII standardisés. Remarquez que les premiers 32 caractères ne sont pas des caractères alphabétiques. Il s’agit en fait de caractères dits de contrôle. En effet lors de la création du standard ASCII on était encore loin des écrans cathodiques et des imprimantes à laser ou jet d’encre. On communiquait avec les ordinateurs par cartes perforées et imprimantes à matrices inspirées de machines à écrire. Pour imprimer des caractères sur de telles imprimantes, il fallait donc toute une série de caractères de contrôles pour indiquer à l’imprimante le début ou la fin d’un document, pour lui indiquer quand sauter à la ligne ou à la page, etc. Le cadre vert correspond aux symboles des chiffres, les cadres bleus à ceux des lettres majuscules et minuscules, tous les autres caractères étant consacrés à la ponctuation, et aux quelques symboles mathématiques, financiers, etc.

Au-delà de l’ASCII de base… UTF-8
Le code ASCII original ne couvre que les caractères latins utilisés en anglais Le code ASCII étendu utilise 8 bits => 28 = 256 caractères pour couvrir les caractères d’autres langues L’extension ISO 8859 Latin-1 couvre les caractères latins propres à d’autres langues occidentales: à ä é è ê ô ö ù ü … La norme UNICODE étend encore ce standard de 8 à 21 bits pour couvrir les langues idéographiques (CJK) Elle inclut l’ASCII étendu et y ajoute 17 plans de 65’536 caractères >128’000 caractères dans >160 alphabets sont définis aujourd’hui La norme UTF-8 encode les caractères UNICODE sur 1 à 4 octets permettant jusque 32’768 plans de 65’536 caractères (Voir à ce sujet le vidéoclip du Prof. Boulic Ceci dit, le code ASCII original venant des Etats-Unis, ne couvre que l’alphabet latin tel qu’utilisé là-bas. 1 Il a ultérieurement été étendu de 7 à 8 bits pour couvrir 28 = 256 caractères dans d’autres alphabets. 2 I’ISO, l’International Standards Organisation basée à Genève, a alors défini des extensions du code ASCII de base pour une quinzaine d’alphabets latins et autres, y compris ceux des langues d’Europe de l’ouest (Latin-1), du nord, du centre, du sud, et de l’est, ainsi que les langues baltiques et celtiques, le cyrillique, le grec, l’hébreu, l’arabe, le thaï, etc. 3 Tous ces standards se concentrent cependant sur la représentation de caractères dans une seule langue à la fois. Aucun ne permet de changer d’alphabet au sein d’un document, ce qui est cependant de plus en plus fréquemment utile. La norme UNICODE a remédié à cela en passant de 8 à 21 bits par caractère pour pouvoir couvrir simultanément tous les alphabets et les langues idéographiques telles que le chinois, le japonais, et le coréen. Ses 256 premiers codes correspondent à l’ASCII étendu qui fait partie d’un 1er «plan» de codes, auquel la norme a ajouté 16 plans supplémentaires de 65’536 caractères chacun. Plus de 128’000 caractères dans plus de 160 langues sont déjà définis dans 4 de ces plans. 4 Aujourd’hui la norme UTF-8 (Unicode Transformation Format) a repris la norme UNICODE et encode ses caractères sur 1 à 4 octets, permettant ainsi 32’768 plans de 65’536 caractères. 5 Pour plus de détails sur ce sujet, voyez le clip animé par le Prof. Boulic.

La croissance d’UTF-8 sur la toile
Comme on le constate sur ce graphique la norme UTF-8 a largement conquis la toile et remplace progressivement toutes les autres. Source: IEEE Spectrum 7/12

Au-delà des lettres… les dessins
En chinois shan = montagne Le symbole peut être codé en quelques octets en UTF-8 MAIS La représentation du symbole = son image requiert plus de bits Approches possibles Simple pour les caractères: définir une police de caractères Plus sophistiqué pour des graphiques et dessins: Caractériser les contours de la forme par un ensemble de courbes mathématiques (silhouette) (C'est ainsi que les polices de caractères sont construites) Illimité pour des images et photos: Décomposer l’image en une bitmap c’est-à-dire un ensemble de cellules (pixels = picture elements) spécifiant un degré de noirceur Avoir un code pour un caractère ne suffit cependant pas à l’imprimer ou le représenter sur un écran. Sur papier ou à l’écran un caractère est un dessin. Par exemple en chinois l’idéogramme SHAN représente une montagne. 1 Le symbole peut facilement être codé par quelques octets en UTF-8 … 2 … MAIS … 3 … la représentation de ce symbole par son image sur papier ou à l’écran requiert beaucoup plus de bits. 4 Comment peut-on procéder? 5 La façon la plus simple, d’ailleurs utilisée pour tous les caractères du monde, est de définir une police de caractères, c’est-à-dire une table contenant pour chaque caractère une image de sa représentation graphique indexée par le code correspondant à ce caractère, de telle sorte que l’écran ou l’imprimante utilisée pour sa représentation puisse simplement afficher l’image au bon endroit chaque fois qu’il rencontre le code correspondant. 6 Mais tous les graphiques ne sont pas des caractères. Représenter un graphique demande de faire ce que font les gens qui conçoivent des polices de caractères, c.à.d. caractériser ce graphique par des combinaisons de formes mathématiques délimitant ses contours. 7 Ceci dit tous les dessins du monde ne se limitent pas à des contours. Dès qu’un dessin présente des traits d’épaisseurs variables, il devient nécessaire de le représenter par une bitmap, c’est-à-dire un ensemble de cellules appelées pixels pour picture elements, spécifiant le degré de noirceur du point correspondant du dessin. Un seul pixel est suffisamment petit à l’écran pour se fondre dans la masse du dessin. 8 Par contre si on inspectait un tel dessin sous une loupe Ou si on l’agrandissait à l’écran, on verrait bien apparaître les pixels. C’est d’ailleurs ce qui se passe quand on agrandit trop une photo sur un smartphone: On parle alors de pixelisation.

Les bitmaps en noir et blanc
Si on agrandit 1000x le coin inférieur gauche du caractère shan précédant on voit bien apparaître les pixels. Ceci dit ces pixels ne doivent pas nécessairement être noirs ou blancs. Si on accepte de consacrer plus d’un bit à chaque pixel, il peut prendre n’importe quelle teinte de gris entre le noir (0) et le blanc (1111 si on avait 4 bits par pixel. Image en niveaux de gris : chaque pixel mémorise une intensité entre 0 (noir) et le maximum définit par le nombre de bits/pixel (blanc)

Les bitmaps en couleurs
Chaque pixel mémorise l'intensité de 3 couleurs primaires dont la combinaison permet de restituer toutes les couleurs Le codage RGB (Red, Green, Blue) réalise Une synthèse additive des couleurs Tous les niveaux de gris lorsque les trois composantes sont égales entre noir(0,0,0) et le maximum défini par le nombre de bits / pixel (blanc) Parfois une 4e composante = alpha (transparence) pour les applications graphiques Exemple: une photo 4x3 en résolution UXGA (= 1600 pixels x 1200 pixels) à 3 octets / pixel occupe 5'760'000 octets (5.76 MB) Il en va de même dès qu’on désire représenter des images ou des photos en couleurs. 1 La science des couleurs nous apprend que toute couleur peut être représentée en combinant 3 couleurs de base avec des intensités différentes. 2 Les ordinateurs utilisent ainsi un codage dit RGB pour red, green, blue, qui réalise une synthèse des couleurs par addition. Toutes les teintes de gris peuvent être représentées par des valeurs égales pour les trois couleurs allant du noir (0,0,0) au blanc (1111,1111,1111) si on avait 4 bits par couleur et par pixel. 3 Ainsi par exemple une photo de format 4x3 en résolution UXGA, c.à.d pixels x 1200 pixels à 3 octets / pixel occupe 5'760'000 octets (5.76 MB) comme on peut le constater sur n’importe quelle caméra ou ordinateur.

Résumé de la représentation de l’information
Il n’existe pas de représentation universelle de l’information Une représentation est une convention humaine d’interprétation d’un ensemble de signes Sa valeur dépend nombre de personnes qui la partagent => importance des standards Il existe une représentation idéale pour les ordinateurs La représentation binaire suffit pour représenter un nombre arbitrairement grand de données distinctes Par convention on utilise les symboles 0 et 1 Une représentation exacte du monde réel est impossible Avec la représentation positionnelle entière les résultats ne sont exacts que dans le domaine couvert Avec la représentation en virgule flottante se pose la question de la précision nécessaire La représentation peut être adaptée pour garantir une précision désirée La solution informatique (approximative) d’un calcul diffère de sa solution mathématique (exacte) En résumé que retirer de ces 6 clips sur la représentation de l’information? 1 Primo qu’il n’existe pas de représentation universelle de l’information, qu’une représentation n’est qu’une convention humaine sur un ensemble de signes que sa valeur dépend donc nombre de personnes qui la partagent, ce qui implique que des standards largement adoptés sont importants. 2 Secundo, qu’il existe cependant une représentation privilégiée pour les ordinateurs: Le code binaire, qui utilise conventionnellement les symboles 0 et 1, suffit en effet pour représenter un nombre arbitrairement grand de données distinctes. 3 Tertio, qu’une représentation exacte du monde réel est impossible. Une représentation positionnelle des nombres entiers ne couvre qu’un domaine limité. Une représentation en virgule flottante est moins limitée mais pose la question de sa précision. La représentation peut certes être adaptée pour atteindre toute précision désirée. Par contre la solution informatique (approximative) d’un calcul diffèrera toujours de sa solution mathématique (exacte) vu les erreurs d’arrondi inévitables.

Information, Calcul, Communication

Présentations similaires

Présentation au sujet: "Information, Calcul, Communication"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Information, Calcul, Communication

Présentations similaires

Présentation au sujet: "Information, Calcul, Communication"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back