Proposition de projet I4, ESIEE, Novembre 2012 Compression de documents scannés par Codage vectoriel Extraction de composantes connexes et reconstitution de documents scannés dans un fichier PDF à l’aide d’un codage vectoriel proposé par R. Kachouri, M. Akil Proposition de projet I4, ESIEE, Novembre 2012
Codage vectoriel de documents scannés : Motivation Contexte du projet : Compression de documents scannés Suite à une dématérialisation de documents, le contexte de ce projet consiste à assurer la compression des documents scannés à l’aide d’un codage vectoriel en s’appuyant sur un dictionnaire de formes représenté comme une police de caractères dans le fichier PDF résultat. Objectif du projet : Codage vectoriel de documents scannés L’objectif de ce projet est d’augmenter le taux de compression tout en assurant un taux d'erreur de lecture par l'OCR « Tesseract » au pire comparable à celui obtenu en lisant directement les images fournies en entrée à cette méthode. Codage vectoriel
Interface de test pour la méthode de reconnaissance
Compression de documents scannés par Codage vectoriel Cahier de charge Objectif du projet : il s’agira de : étudier les algorithmes préalablement identifiés d’extraction, de description et de reconnaissance de composantes connexes dans un document scanné prendre en main la librairie HARU utile pour la reconstitution des caractères reconnus dans un fichier PDF (codage vectoriel) générer une image d’erreur (différence entre l’image originale et le texte reconstitué), utilisée comme masque pour la reconstitution finale du document scanné développer la chaine de codage vectoriel en C, puis mettre au point une spécification OpenCL de la méthode développée pour effectuer un démonstrateur sur GPU
Carte GPU NVIDIA Tesla c2050
Compression de documents scannés par Codage vectoriel Compétences requises étude algorithmique Maitrise de l’outil Matlab programmation avec des langages de haut niveau C/C++ Compétences acquises Méthode des « centroides hiérarchiques » pour la reconnaissance de caractères Librairies de traitement d’images (Devil, openCV) Librairie de codage vectoriel (Lib HARU) Spécification OpenCL Implémentation sur GPU