Arkhênum Patrimoine du Futur
Répartitions par types d’erreurs mineures
Répartitions par types d’erreurs majeures
Niveau d’erreurs mineures sur 50 dossiers
Niveau d’erreurs majeures sur 50 dossiers
Répartition des temps de contrôle
Objectifs R ATIONALISATION DE LA CHAÎNE DE NUMÉRISATION La rationalisation de la chaîne de numérisation passe par la capacité de s’auto adapter en fonction des caractéristiques des documents et ainsi appliquer les bons paramètres de numérisation. Ce processus devra comprendre des systèmes de détection de problèmes et d’alertes, ainsi qu’un système de traçabilité adapté. A NALYSE DE LA STRUCTURE ET DU CONTENU DU DOCUMENT Une analyse de la structure et du contenu du document permettra de ne plus considérer une page isolée du reste de l’ouvrage mais de l’insérer dans un contexte permettant de tester la cohérence des éléments reconnus (numéros de pages, de figures, présence d’un sommaire, d’un titre, etc.) et d’alerter en cas de problème ou de doute. M ISE EN PLACE D ’ OUTILS DE PRÉDICTION DE PERFORMANCES La mise en oeuvre de prédiction de performances permettra l’application de traitements adaptés selon le type de document et de difficulté rencontrée. En cela, le traitement de l’image sera un point central pour l’amélioration des performances globales.
Spécifications Un tel scanner intelligent doit répondre aux besoins suivants : Gestion multi-format: Capacité â gérer les formes de documents patrimoniaux (livres, journaux, cartes estampes, documents d’archives, objets de musées, photographies, etc.) Action ordonnancée, paramétrage dynamique. Système intelligent d’adaptation avec des règles non figées évolutives suivant un retour d’expériences (anciens paramètres, cadences, formats, performances) Supervision système et alerte Gestion de la non qualité (manque, flou, colorimétrie, mauvais format taux de reconnaissance insuffisant, alerte qualité etc.), Traçabilité Enregistrement relatif à la qualité : Scanners, timing, anomalies, main d’œuvre. Optimisation des ressources: Capacité de reprise automatique des scénarios de travail en cas de défaillance.
Modélisation Une modélisation du document se basera en partie sur sa typologies mais aussi l’agencement des contenus (probabilité de succession des segments «titre» puis «table des matières», etc.) Cette modélisation prendra en compte plusieurs points de vue ainsi pour le « livre » le point de vue de succession des pages, celui de la présence ou non d’objets documentaires comme les titres, la table des matières, les index, la succession logique du texte (aspects linguistiques) ainsi que les caractéristiques de certains éléments du document (illustration souvent accompagnée d’une légende, etc.) Cette modélisation devra prendre en compte les modèles de documents afin de détecter certaines erreurs (suites de pages incorrectes, etc.). La modélisation des liens entre ces éléments (pagination dans la table des matières, niveau des titres, etc.) permettra d’alerter l’opérateur humain d’incidents potentiels.
Métadonnées et contrôle Il serait judicieux que cette opération d’analyse d’image mettant en œuvre, OCR, segmentation, analyse linguistique, puisse également contribuer a l’indexation des documents. En effet aujourd’hui l’extraction ou la saisie de ces données, et le contrôle visuel des images nécessitent un traitement manuel par des opérateurs, ce qui constitue un travail long et coûteux compte tenu de la diversité des documents. Ces extractions d’informations doivent nous permettre à la fois d’enregistrer les métadonnées dans l’image mais aussi de contrôler l’exhaustivité de la numérisation, la qualité des images et les taux de reconnaissance afin de valider la qualité de la production. Il faut donc mettre en place un système interactif d’apprentissage de la structure du document.
Gestion dynamique des contrôles Avec un jeu test il faudra valider les paramètres proposés et les faire évoluer par exemple avec la procédure suivante: Un document type est scanné. L’opérateur procède â un appariement entre modèle sémantique et options de segmentation et de reconnaissance proposées par le système automatique. Le système repère la variabilité entre ce premier document et les suivants en demandant â l’opérateur de confirmer les cas douteux jusqu’à une convergence (confiance supérieure à un seuil). Une détection automatique des blocs et des informations est effectuée. Les informations sont caractérisées à l’aide de méthodes linguistiques et proposées à l’opérateur qui valide ou modifie.