La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Numérisation : Choix technologiques Dole - 08/11/2007

Présentations similaires


Présentation au sujet: "Numérisation : Choix technologiques Dole - 08/11/2007"— Transcription de la présentation:

1 Numérisation : Choix technologiques Dole - 08/11/2007
Catherine Mocellin Bibliothèque nationale de France Département de la conservation Service numérisation Non exhaustivité du sujet par manque de temps et cadres fixés Non traités : modalités de conservation à long terme et choix technologiques de la BnF ; choix technologiques pour la visualisation, la mise en ligne seulement numérisation « pure » 8/11/ Dole Numérisation : choix technologiques

2 La numérisation : quelques rappels
Principes de la numérisation Transformer la représentation analogique d’un document en représentation codée en mode binaire (0, 1) À partir des capteurs de lumière du numériseur La cellule photoélectrique du numériseur analyse la lumière réfléchie par l’original : le courant varie en fonction de l’intensité du gris, pour devenir maximal pour le blanc Un rayon de lumière traduit ces deux valeurs : 1 = passage du courant = lumière = blanc 0 = pas de courant = pas de lumière = noir Ce codage binaire est également le principe de fonctionnement des processeurs au cœur des ordinateurs 8/11/ Dole Numérisation : choix technologiques

3 La numérisation : quelques rappels
L’image numérique est composée d’une juxtaposition d’éléments d’images (pixels) dont la luminosité est quantifiée par une valeur numérique Le nombre de pixels (L*l) représentant la dimension physique de l’original détermine la résolution de l’image (points par pouce : ppi ; ou dots per inch : dpi) Pixel = Picture Element = plus petite unité constituant l’image numérique, exprimée par une série de bits Résolution = finesse d’échantillonnage (saisie) Définition = finesse du point d’affichage (restitution) Image agrandie des pixels noirs et blancs, niveaux de gris et couleur 8/11/ Dole Numérisation : choix technologiques

4 Résolution des images 72 dpi pour la diffusion en ligne (Web)
Aspects des résolutions 72, 150, 300 dpi en tons continus (agrandissement 4x). 72 dpi pour la diffusion en ligne (Web) 150 dpi pour l'impression bureautique 300 dpi pour la substitution et l'imprimerie à l'échelle originale Les mêmes résolutions s'appliquent aux documents en niveaux de gris Plus la résolution choisie est haute, plus les temps de prise de vue peuvent être longs et plus le poids de fichier est important Ce sont des grandeurs courantes Comme on le verra la résolution choisie peut être plus élevée si le document et le projet le justifient 8/11/ Dole Numérisation : choix technologiques

5 Dynamique des couleurs
Différents codages : le mode bitonal (noir et blanc) : reproduction des textes pouvant être illustrés de gravures, Le mode niveau de gris : photographies en noir et blanc, Le mode RVB (rouge vert bleu) : reproduction de tous documents en couleurs. L’encodage traduit en valeurs numériques la tonalité, la luminance et la saturation de la couleur perçue par l’œil Remarquer la persistance de la tache en mode bitonal : les densités dépassant le seuil de conversion apparaissent. Le numériseur fera binarisation = une interprétation des couleurs en deux niveaux (noir et blanc) pour les images bitonales autour d'un seuil de densité = transformer toutes les valeurs au dessous d'une certaine densité en blanc et toutes les valeurs au-dessus de cette densité en noir. C'est le réglage pertinent de ce seuil de densité qui fixera la qualité du fichier fini. une transformation des couleurs en niveau de gris : une décomposition de l'image en trois ou quatre couleurs fondamentales pour générer le fichier en couleurs, et enverra à l'ordinateur les informations traduisant les densités de chaque couleur fondamentale 8/11/ Dole Numérisation : choix technologiques

6 Numérisation : choix technologiques
Espace de couleur Un espace colorimétrique regroupe toutes les couleurs visibles selon la technologie employée. Ci-contre le gamut de couleurs avec deux espaces colorimétriques (l'ensemble des couleurs visibles ou reproductibles) : œil : les nuances de couleur qu'un œil humain normal peut voir, assez proche de ce qu'on peut obtenir sur les meilleures photographies. RVB : ce qu'un système d'écran (télévision et moniteur informatique) peut représenter, CMJN : la quadrichromie, ce que l'imprimerie traditionnelle peut imprimer. Un espace colorimétrique est un système qui permet de créer des couleur, de les spécifier et de les visualiser. œil : les nuances de couleur assez proches de ce qu'on peut obtenir sur les meilleures photographies. RVB : ce qu'un système d'écran (télévision et moniteur informatique) peut représenter, CMJN : la quadrichromie, ce que l'imprimerie traditionnelle peut imprimer. On remarque qu'il est difficile de représenter tout ce que l'œil peut voir, déjà sur un écran, mais surtout lors de l'impression d'un document. Cela explique aussi les différences notables entre de bonnes photographies originales et leur reproduction imprimée. 8/11/ Dole Numérisation : choix technologiques

7 Rendu fidèle des couleurs
La bonne reproduction des couleurs dépend d'un grand nombre de variables : le niveau d'illumination au moment de la capture les capacités du système de numérisation Utilisation d’un profil ICC pour décrire la manière dont un périphérique restitue les couleurs Utilisation de mires normalisées Étalonnage : consiste à définir un état colorimétrique de référence La capture et le transport des couleurs sont indiscutablement les aspects les plus compliqués de l'imagerie numérique. La caractérisation consiste à créer un profil décrivant la méthode de reproduction des couleurs. C’est à partir des espaces colorimétriques que sont décrits les profils Les profils ICC caractérisent chaque périphérique à l'aide d'une mire normalisée Le profil ICC permet de maîtriser la restitution des couleurs tout au long de la chaîne, puisqu’il fait le lien entre les coordonnées des couleurs dans l'espace colorimétrique source et les coordonnées des couleurs dans l'espace colorimétrique indépendant. Pour pouvoir modéliser cet étalonnage, il est fortement conseillé d'avoir pu valider au préalable une calibration en conformant le périphérique à une norme prédéfinie, par exemple, une température de la couleur du point blanc. L'étalonnage a bien souvent valeur contractuelle car établi de façon contradictoire entre le client et le prestataire. Une fois l'étalonnage réalisé, il doit être possible de s'y recaler pour se remettre dans les conditions de référence 8/11/ Dole Numérisation : choix technologiques

8 Numérisation en mode image
Avantages : Un fac-similé Coût inférieur (moins de traitements) Inconvénients : Pas de recherche plein texte, pas de manipulations du texte Prévoir un format de diffusion pour limiter les temps de téléchargement Avoir un système d’indexation et de recherche performant et riche un point d ’accès courant = la notice bibliographique Avoir également un outil de navigation adapté aux documents numériques car le catalogue biblio bien connu montre rapidement ses limites (cf. recueils, portefeuilles d’estampes, etc) 8/11/ Dole Numérisation : choix technologiques

9 Numérisation en mode texte
Avantages Indexation et recherche plein texte, autres manipulations Souplesse et portabilité Inconvénients Lourdeur de réalisation, coût élevé (balisage…) Solutions intermédiaires… Mode image avec points d’accès en mode texte table des matières, index Mode image avec OCRisation Création de fichiers texte contenant les coordonnées des éléments Affichage combiné (PDF multicouche par ex.) Num en mode texte = resaisie des caractères OCR de haute qualité ou brut, selon les projets OCR permet la recherche plein texte et une indexation fine que le mode image ne permet pas Nécessite la création parallèle à la numérisation de fichiers texte identifiant les coordonnées de chaque élément dans un repère (xOy)  phase de segmentation  phase de reconnaissance des caractères 8/11/ Dole Numérisation : choix technologiques

10 Impact de la résolution pour la conversion OCR
Fonctionnement Segmentation : découpage de la page et des blocs de texte en « boîtes » Reconnaissance : au sein de chaque boîte, reconnaissance des caractères Risque de confusion entre le c et le e. Qualité de conversion OCR est également liée aux caractéristiques physiques de l’original (présence de tache, de poussières… qui peuvent « polluer » les traitements de conversion). 8/11/ Dole Numérisation : choix technologiques

11 Numérisation : choix technologiques
Obstacles pour l’OCR Qualité d’impression Courbures et inclinaisons de lignes, caractères déformés : segmentation difficile L’impression de l’original doit être très régulière et propre (pas de taches, etc) Polices de caractères Trop resserrées, trop irrégulières (caractères trop gras, trop grands) : risques de confusion entre les caractères Caractères non latins sont mal reconnus (grec, fraktur, gothique, manuscrits…) Structure du texte Structure en colonne type presse : nécessité de définir un ordre Éléments non textuels (graphiques, illustrations…) Risque de confusion entre le c et le e. Qualité de conversion OCR est également liée aux caractéristiques physiques de l’original (présence de tache, de poussières… qui peuvent « polluer » les traitements de conversion). 8/11/ Dole Numérisation : choix technologiques

12 La compression des images
Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte En aucun cas les formats engendrant des pertes de données irréversibles ne doivent être utilisés pour la sauvegarde des images Sans perte : Les fichiers sont pourvus d'algorithmes de compression, qui réduisent leur taille, mais la restituent sans perte de données, ni en couleurs, ni en pixels. 8/11/ Dole Numérisation : choix technologiques

13 Numérisation : choix technologiques
Compression JPEG codage compression restitution (JPEG très utilisée en numérisation pour les illustrations) On réduit l’information non visible à l’œil nu Paramétrage du taux de qualité (0 à 100%) 8/11/ Dole Numérisation : choix technologiques

14 Numérisation : formats
TIFF (Tagged Image File Format) Format permettant de documenter les images (tags) : dimensions, nombre de couleurs, matériel utilisé, données d’indexation (cote, copyright…) Permet de stocker des images de taille importante sans déperdition de qualité et indépendamment des plateformes et des périphériques Permet l’usage de plusieurs espaces de couleur Ex. : Centres de service de conservation de l’OCLC JPEG 2000 Compression de meilleure qualité que le JPEG Dégradation « sélective » de certaines zones moins stratégiques de l’image Nécessite des capacités de stockage moins importantes Ex : BN Norvège : format d’archivage à long terme Ici seulement 2 formats en exemple JPEG 2000 commence à être un format de sortie de scanners à haut débit Choisi par la BN Norvège pour archivage à LT 8/11/ Dole Numérisation : choix technologiques

15 Numérisation et conservation
Une numérisation de qualité contribue à la conservation à long terme des documents : Non communication des originaux : la version numérique doit être suffisante pour satisfaire 99 % des besoins des lecteurs Remplacer des originaux manquants et/ou permettre des sorties COM (films, fac-similés) Préservation : il est plus aisé de conserver les fichiers numériques lorsqu’ils sont riches et bien documentés Document numérique « de qualité » : Choix optimal de la résolution (ni trop haute, ni trop basse) Indexation et documentation de chaque image, du document numérique, du procédé de numérisation Fidélité rigoureuse à l’original et qualité de la prise de vue Non compression, ou compression réversible Format(s) le(s) plus ouvert(s) possible(s) Documenter le document numérique pour pouvoir le gérer à long terme et le manipuler sans le dégrader (renseignement du format avec la version, des modalités de production et des paramètres de numérisation, etc). 8/11/ Dole Numérisation : choix technologiques

16 Choix technologiques : paramètres
Une bonne numérisation est une adéquation entre : Les objectifs du projet (numérisation « de masse », numérisation sélective…) Les moyens financiers Les caractéristiques physiques du document/du fonds Les capacités du matériel et le système de numérisation La fidélité de l’image numérisée à l’original Les paramètres de numérisation : couleur ? Résolution ? Format de sortie ? Format d’affichage ? L’usage du fichier numérisé : conservation pure ? Diffusion à titre gratuit, payant ? De consultation ? Quels services associés ? La portabilité en réseau (temps d’affichage, etc) Les moyens de conservation à long terme Les moyens de signalement pour la recherche L’ensemble de ces paramètres est à prendre en compte avant de faire les choix techniques. 8/11/ Dole Numérisation : choix technologiques

17 Numérisation : caractéristiques physiques
Support : Nature et fragilité : papier, film, vélin, … Aspect : opacité, couleur Présentation : dimensions, reliure, feuillets montés sur onglet, dépliants et paperoles, etc Échelle d’agrandissement éventuelle Contenu : Type : photo, texte, gravure, graphiques, cartes, etc Qualité : graphie, contraste, taches éventuelles Mode d’obtention : imprimé, manuscrit, dessin, etc Plus un document/un fonds est hétérogène plus la numérisation est complexe et lourde car nécessite des réglages particuliers Du point de vue « numérisation » un document est une articulation entre un support et un ou plusieurs contenus. Ceci détermine le type de procédé le plus approprié Prendre en compte l’hétérogénéité des contenus et des supports avant de lancer le projet de num 8/11/ Dole Numérisation : choix technologiques

18 Numérisation BnF : profondeur d’acquisition
Choix de la profondeur d'acquisition (nombres de bits utilisés pour représenter chaque pixel) : Noir et blanc (2 tons) : imprimés, dessins au trait, graphiques Niveaux de gris (256 tons) : gravures et photos noir et blanc, certains imprimés (peu contrastés ou tachés) Couleur (16,7 millions de tons) : documents en couleur ou contenant des pages en couleur De la profondeur d’acquisition dépend le poids du fichier et donc les moyens à prévoir pour gérer la portabilité en réseau (stockage, affichage) : 1 bit N&B recommandé pour les textes, imprimés, graphiques, dessins au trait 8 bits NG : pour les images en modelé continu et les manuscrits modernes 256 couleurs, chacune étant définie dans la gamme des gris. 24 bits : img en vraie couleur. Profil utilisé : RVB. Chaque pixels peut prendre une valeur dans le RVB comprise entre 0 et 255 (soit 256 x 256 x 256 possibilités = 16 millions de possibilités) RVB : basé sur la synthèse additive des couleurs, (le mélange des trois composantes RVB donne une couleur). A titre indicatif, pour stocker un manuscrit de 553 feuillets de Montesquieu, il faut 5 DVD (4 Go par DVD)  les capacités de stockage à long terme sont un paramètre essentiel A 4, 300 dpi Mo Ko Noir et blanc 1.04 Mo 1 062 Ko Niv. gris 8.30 Mo 8 497 Ko Couleur 21.89 Mo Ko 8/11/ Dole Numérisation : choix technologiques

19 Numérisation BnF : résolution
Choix de la résolution : Gamme possible de 120 à 1200 dpi Pour la conservation : Documents < A6 : 300 dpi Documents > A6, ou manuscrits aux petites enluminures : 600 dpi La résolution doit être pertinente et adaptée au type de document La résolution impacte le poids des fichiers Une résolution trop élevée par rapport aux caractéristiques du document et du projet ne se justifie pas et est trop coûteuse (en temps de prise de vue, en moyens de stockage à prévoir, en temps d’affichage) Exceptionnellement pour des imprimés en NB avec de petits caractères on peut aller jusqu’au 400 dpi A 4 300 DPI 600 DPI Mo Ko Noir et blanc 1.04 Mo 1 062 Ko 4.15 Mo 4 248 Ko Niv. gris 8.30 Mo 8 497 Ko 33.19 Mo Ko Couleur 21.89 Mo Ko 99.57 Mo Ko 8/11/ Dole Numérisation : choix technologiques

20 Numérisation BnF : prises de vue
Fidélité à l’original lors de la prise de vue Reproduire au plus près l’original sans l’améliorer Pas de retouche en post-production Réglages optimisés lors de la prise de vue (éclairage, contraste, marges, etc) Une page / image, dans son intégralité, sans vue de détail Insertion de fonds de couleur neutre pour les projets iconographie Traitements post-numérisation autorisés sur les images Recadrage Détourage jusqu’au bord extérieur des pages Redressement Remise dans l’ordre des images Utilisation de mires Les logiciels utilisés lors de la numérisatoin ont un impact très important sur la qualité de l’image Risque de déformation de caractères, de courbures de ligne non existantes sur l’original, d’effets de pixellisation des caractères De même outil de binarisation doit être bien réglé Cf exemples 8/11/ Dole Numérisation : choix technologiques

21 Numérisation BnF : formats
Distinction format d’archivage – format de diffusion Assurer l’indépendance du système de conservation par rapport aux outils et standards de consultation Contraintes d’accès (temps d’affichage, droits, etc) Assurer de bonnes conditions de consultation du document numérique Formats de diffusion Imprimés : PDF – PDF multicouches pour l’ocr Images fixes : JPEG Format = élément clé car pour la pérennité du document numérique car conditionne sa lisibilité à moyen et LT  Préférer des formats normalisés et stables 8/11/ Dole Numérisation : choix technologiques

22 Numérisation BnF : formats
Master destiné à l'archivage : en TIFF v6 non compressé Documents intégralement en couleur Documents intégralement en niveau de gris (presse, essentiellement ) compression en CCITT/UIT-T GIV pour les imprimés en noir et blanc seulement OCR : format ALTO En-tête des fichiers renseignée par des métadonnées de préservation : Informations techniques sur l'image Informations de production Informations administratives En-tête fichiers Info technique : (taille, résolution, compression, données colorimétriques) Production : matériel utilisé, producteur et date de production Info administratives :propriété, localisation, auteur… CCITT : Comité Consultatif International Télégraphique et Téléphonique. Organisme de normalisation de certains protocoles de communication, basé à Genève (intégrée à l’UIT). On lui doit les normes de fax (actuellement Groupe 4). Compression sans perte TIFF = également choisie par OCLC (pour les centres de services de conservation) 8/11/ Dole Numérisation : choix technologiques

23 Métadonnées d’une image TIF
dimensions résolution Données de production Informations sur le document Informations techniques et de production propres à l’image 8/11/ Dole Numérisation : choix technologiques

24 Numérisation : indexation du document numérique
Fichier XML de métadonnées « refnum » « Bibliographie » : données descriptives « Production » : liées à la production en tant que telle (date de numérisation, nombre d’images, historique, n° de support...) Données de structure : organisation des données produites Correspondance entre le n° image et le n° logique de la page Données particulières à certaines images 8/11/ Dole Numérisation : choix technologiques

25 Numérisation : indexation du document numérique
Typage des pages Mise en valeur d’accès spécifiques au document : tables des matières, index, page de titre, de couverture Nécessite la définition de règles de typage En fonction de la complexité de la pagination / foliotation En fonction de l’utilisation du document par un lecteur, à court ou long terme Typage des pages dans le fichier XML de description Difficulté = gérer la complexité propre aux fonds à traiter et les variations entre les documents tout en conservant des règles les plus simples et génériques possible  ex : rupture de pagination, pages blanches, types de pagination différents se succédant, etc 8/11/ Dole Numérisation : choix technologiques

26 Numérisation : choix technologiques
Conclusion Les technologies employées doivent être les plus libres et pérennes possibles Choisir des formats standardisés et stables dans le temps Les choix technologiques dépendent du type de projet et du fonds Ils doivent prendre en compte tous les aspects de la gestion d’un document : Architecture informatique de la bibliothèque Destination des documents (publics, droits d’accès aux versions numériques, modalités de consultation et de recherche, etc) Capacités de stockage à long terme Évolution des technologies et des outils de consultation Ce sont des problématiques identiques aux bibliothèques traditionnelles 8/11/ Dole Numérisation : choix technologiques


Télécharger ppt "Numérisation : Choix technologiques Dole - 08/11/2007"

Présentations similaires


Annonces Google