Présenté par : Jabli Mohamed Amine Brahim Raddaoui Ministère de l'Enseignement supérieur et de la recherche scientifique Faculté de science De Gafsa La Reconnaissance optique des caractères Présenté par : Jabli Mohamed Amine Brahim Raddaoui Année Universitaire:2014/2015
Ministère de l'Enseignement supérieur et de la recherche scientifique Plan 1:Notre Besoin D’OCR 2:Domaine de Traitement D’image: 3: Qu'est-ce que l'OCR au juste ? a-Prétraitement? b-Segmentation c-Reconnaissance des Caractères d-Post-Traitement 4:Logiciel Ocr : 5:Exemple de logiciel a-ABBYY Fine Reader b-Faire la reconnaissance d’une image avec ABBYY FineReader
Nos besoin D’OCR: si vous vouliez numériser un article de journal ou un contrat sur papier. Deux solutions se présentent à vous : soit vous passez un temps incalculable à la ressaisir et à corriger les erreurs de frappe soit vous transformez ces mêmes documents en format numérique en une fraction de secondes en utilisant un scanner (ou un appareil photo numérique) :c’est la technologie OCR de reconnaissance optique de caractères.
Domaine de Traitement D’image: Les techniques informatiques de traitement de l'image peuvent aider les humains dans la lecture de textes extrêmement difficiles, comme les manuscrits de Qumrân. Des approches coopératives où les ordinateurs assistent les humains et vice-versa constituent un domaine de recherche intéressant. Mots manuscrits
La reconnaissance de caractère est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, on pensait qu'il s'agissait d'un problème facile, mais il apparut qu'il s'agissait d'un sujet beaucoup plus intéressant. Il faudra encore de nombreuses décennies aux ordinateurs, s'ils y parviennent un jour, pour lire tous les documents avec la même précision que les êtres humains.
Qu'est-ce que l'OCR au juste ? Le mot OCR (en anglais : Optical Character Recognition) signifie reconnaissance optique de caractères ou reconnaissance de texte, une technologie qui vous permet de convertir différents types de documents tels que les documents papiers scannes, les fichiers PDF ou les photos numériques, vers des formats modifiables et exploitables.
Les phases de la reconnaissance: Prétraitement Segmentation Reconnaissance Post-traitement
Prétraitement ou Pré-analyse Pré analyse de l'image : le but est d'améliorer éventuellement la qualité de l'image. Ceci peut inclure le redressement d'images inclinées ou déformées, des corrections de contraste, binarisation de l’image ,le passage en mode bicolore (noir et blanc, ou plutôt papier et encre), la détection de contours.
Donc la segmentation permet Segmentation en lignes et en caractères (ou Analyse de page) : vise à isoler dans l'image les lignes de texte et les caractères à l'intérieur des lignes. Cette phase peut aussi détecter le texte souligné, les cadres, les images. Donc la segmentation permet d’isoler dans l’image les différentes composantes (illustrations, blocs de texte, marges, etc.).
Binarisation, Segmentation Binarisation de region de texte Reconnaissance définitive de la lettre et de la segmentation
Classification par Caractéristiques Méthodes métriques La Reconnaissance Reconnaissance proprement dite des caractères : après normalisation (échelle, inclinaison), une instance à reconnaitre est comparée à une bibliothèque de formes connues, et on retient pour l'étape suivante la forme la plus « proche » (ou les N formes les plus proches), selon une distance ou une vraisemblance (likelihood). Les techniques de reconnaissance se classent en quelques grands types: Classification par Caractéristiques Méthodes métriques Méthodes statistiques
Post-traitement utilisant des méthodes linguistiques et contextuelles pour réduire le nombre d'erreurs de reconnaissance : systèmes à base de règles, ou méthodes statistiques basées sur des dictionnaires de mots, de syllabes, de N-grammes (séquences de caractères ou de mots). Dans les systèmes industriels, des techniques spécialisées pour certaines zones de texte (noms, adresses postales) peuvent utiliser des bases de données pour éliminer les solutions incorrectes. Génération du format de sortie, avec la mise en page pour les meilleurs systèmes.
Principaux logiciels de reconnaissance optique de caractères Logiciels libres GOCR (Unix, Windows) OCRopus (Unix) Tesseract (Unix, Windows) Logiciels freeware Moredata. logiciel freeware qui emploie tessnet (Windows). MoredataFast (Windows).
Logiciel Payants : Adobe Acrobat Professional (Windows. Mac OS) ExactScan ExactScan Pro et OCRKit (Mac OS) ABBYY FineReader (Unix, Windows. Mac OS) Nuance Omnipage (Windows) I R I S. Readiris (Unix, Windows. Mac OS) Nicomsoft OCR (Windows. Unix)
ABBYY Fine Reader ABBYY est un logiciel de reconnaissance des caractères ,il permet de créer des fichier interrogeables, facilement et rapidement modifiable , à partir de document papier, fichier PDF et photos numériques grâce à ses fonctionnalité comme la précision de reconnaissance et la conservation de format exceptionnelles de plus sa reconstruction intelligente de la structure et du formatage complexe des documents (tableaux, colonnes etc. )
Merci de Vos Attentions