Ce videoclip produit par l’Ecole Polytechnique Fédérale de Lausanne fait partie de son cours d’introduction à l’information, à la communication, et au calcul. Il s’inscrit dans le 3e module de ce cours qui porte sur le fonctionnement et la sécurité des systèmes informatiques.
Petit rappel technologique Latence Débit Coût ($/Go) Capacité Rétention Accès RAM 1 - 100 ns Go/s 10 Mo - Go NON Aléatoire Flash µs 0.5 Go - To Oui Disques ms 100s Mo/s 0.05 > To avec délai Bandes magnétiques Encore plus lent ! Encore moins cher ! Encore plus grand ! Séquentiel La table ci-contre reproduit à titre de rappel une vue comparative des différences entre les technologies de mémoire vive et de mémoire morte du point de vue de leur latence, leur débit, leur coût, leur capacité, leur volatilité, et elle y ajoute une colonne concernant le type d’accès qu’elle permettent. L’accès aux mémoires de type flash est aléatoire, comme pour les mémoires vives. Cela signifie que l’ordinateur peut avoir accès de façon aléatoire à toutes les données stockées. Il lit cependant ces données par pages ou secteurs de quelques Ko à la fois au lieu de blocs de seulement quelques octets à la fois. De la même façon l’accès aux disques est aussi aléatoire et se fait aussi par pages de quelques Ko. Il requiert cependant une latence supérieure à celle des mémoires flash à cause de la nécessité de positionner le bras d’accès sur la bonne piste et d’attendre la rotation jusqu’au bon secteur. Enfin l’accès aux bandes magnétiques est, lui, forcément séquentiel en ce sens que pour arriver à un enregistrement donné il faut forcément dérouler la bande jusque là et donc lire (ou écrire) tous les enregistrements précédents. Flash Disques Bandes Accès aléatoire comme RAM Latence de rotation + Accès strictement séquentiel mais par pages comme les disques positionnement du bras => latence de déroulement Tête Mouvement du bras Bras Pistes Secteur 10K RPM
séquentielles, hiérarchiques, relationnelles, maillées Plan de la leçon Besoin de structure dans le stockage des données Types de structures de stockage séquentielles, hiérarchiques, relationnelles, maillées Identification, localisation, et accès à des données stockées Systèmes de fichiers Bases de données Ceci dit, gérer ces différents types de mémoires mortes demande de la structure.
Le besoin de structure dans le stockage des données Données non-structurées = désordonnées, sans aucun ordre particulier Facile à stocker, transporter Plus difficile à exploiter, explorer, interpréter Dans l’océan de données non-structurées que Google tente d’indexer sur la toile, retrouver des informations sur le professeur de statistique Michael Jordan est un défi Données structurées = ordonnées en listes, piles, hiérarchies, tables, etc. Facile à exploiter, explorer, interpréter Plus difficile à gérer, stocker, transporter Retrouver des informations sur le professeur Michael Jordan dans les bases de données d’un quelconque organisme auquel il est lié est trivial Par structure on entend de l’ordre dans les données stockées. Des données non-structurées seraient désordonnées, stockées sans aucun ordre particulier. De telles données seraient évidemment facile à stocker et transporter (n’importe comment). Par contre elles seraient impossible à exploiter, explorer, et interpréter. Dans l’océan de données non-structurées que Google tente d’indexer sur la toile, retrouver des informations sur le professeur de statistique Michael Jordan est un défi parce que les premières centaines de résultats de toute recherche vont inévitablement tomber sur le champion de basketball homonyme. 1 Par contre des données sont dites structurées si elles sont organisées et classées en listes, piles, hiérarchies, tables, etc. facile à exploiter, à explorer, et à interpréter. Gérer, stocker, et transporter de telles données demande toutefois beaucoup plus d’efforts pour maintenir à jour la structure désirée. Retrouver des informations sur le même professeur Michael Jordan dans les bases de données d’un quelconque organisme auquel il est lié est aisé parce qu’on sait à l’avance où aller les chercher,
Le besoin de structure dans le stockage de données Imaginons un disque ou autre support sans aucune structure Comment savoir s’il est plein ou vide? Comment y retrouver une information qu’on cherche? Autant chercher • Une épingle dans une botte de foin Une chanson dans une médiathèque sans catalogue Les œuvres d’un compositeur donné dans une médiathèque rangée par interprète Les œuvres d’un interprète non-identifié dont ne connaît que le titre d’une d’entre elle Une chanson dont on ne connaît que quelques notes et paroles mais ni l’auteur ni le titre Même Google a besoin de structure pour retrouver ce qu’on lui demande !! Ce besoin de structure vaut dans le monde informatique autant que dans le monde physique. Si on imagine un instant un disque magnétique qui serait rempli de bits sans aucune structure … 1 … Comment savoir d’abord s’il est plein ou vide? Comment y retrouver une information qu’on cherche? Autant chercher … … Une épingle dans une botte de foin … Une chanson dans une médiathèque sans catalogue … Les œuvres d’un compositeur donné dans une médiathèque rangée par interprète … Les œuvres d’un interprète non-identifié dont ne connaît que le titre d’une d’entre elle … Une chanson dont on ne connaît que quelques notes et paroles mais ni l’auteur ni le titre 2 Même Google a besoin de structurer toutes nos données désordonnées pour retrouver ce qu’on lui demande !!
Principe de base de la structuration des données stockées Catalogues / répertoires des relations structurelles (= “métadonnées”) Zone de stockage des données proprement dites et non-structurées Le principe de base de la structuration de données sur n’importe quel support technologique, flash, disque, bande magnétique, ou autre est toujours le même: Les enregistrements sont divisés en données (quelconques, non-structurées) et métadonnées. Les métadonnées sont le nom donné aux catalogues ou répertoires structurels qui imposent ou superposent une organisation aux données non-structurées en les inventoriant et en enregistrant où se trouvent chacune d’elles.