Sortie dAGORA Version doctobre 2007
Debug pour Analyse fine sur les lignes (etp 4) Contient coordonnées des EdC extraits dans limage vesale_0151 Contient coordonnées des EdC extraits dans limage vesale_0151 à un facteur déchelle prés (cf param rapport de mappage dans agora – utile uniquement pour le cesr) Idem pour toutes les images du lot analysé (4 fichiers par image) Infos sur position des EdC extraits Contient version Html de chaque img analysée (découpé en EdC) Contient les imagettes des EdC de type IMAGE extraits _FIN = Meta- données pour TAO / Retro Debug pour Ana lyse fine (Etp 4) Contient les imagettes des EdC de type mg (marge gauche) extraits Contient imagettes des EdC de type IMAGE extraits Contient les imagettes des EdC de type LETTRINE extraits Répertoires et fichiers générés par AGORA en sortie EdC = Elément de Contenu = type des blocs extraits dans les images Répertoire contenant les Résultats du traitement par lot Debug Apprentissage
Info sur la position du bloc (nom de limage + bounding box) Un bloc est un ensemble de lignes Une ligne est un ensemble de mots Un mot est un ensemble de composantes connexes (CC) Une CC est décrit par sa Bounding Box et par un numéro de forme (n° du cluster utilisé par RETRO) Méta-données décrivant les EdC (pour Retro) Ensemble dEdC = Ensemble de blocs classés par type (ici type = TEXTE)
AGORA compare les CC contenues dans chaque type dEdC Méta-données décrivant les EdC (de type Texte) Le Cluster n°XX est décrit par le Fichier FormeXX.txt Ce fichier donne la position (nom de limage + bounding box) de chaque CC classée dans le cluster n°XX 1 ligne = 1 composante connexe (CC)
Exemple de fichier de description du contenu dune image 1 fichier par image stocké dans le répertoire « \coord » Ce fichier décrit la structure de limage vesale_0153.jpg 1 ligne par EdC reconnu Cette image contient des EdC de type TEXTE, mg et Lettrine Pour chaque EdC, AGORA fournit les coordonnées de sa Bounding Box
Exemple de fichiers HTML générés par AGORA 1 fichier par image stocké dans le répertoire « \html » Ce fichier décrit la structure de limage vesale_0157.jpg 1 balise par EdC reconnu avec : - Position dans limage - Taille dans limage - Lien vers limagette créée
QQ remarques Fichier projet à ouvrir = MyApp.sln pour Visual.NET 2003 Etape 4 dAGORA : –Case « Analyse fine » En test (debug) pour améliorer la segmentation des caractères (accents, …), mots, lignes, … (génération des répertoires Image_XXX) –Case « Lignes + image » En test (debug) pour améliorer la segmentation des caractères (accents, …), mots, lignes –Case « TAO + Seuil » Génération des méta données pour RETRO (dans répertoires XXX_FIN) –Case « Label + image » Génération des imagettes (dans répertoires XXX) –Case « HTML » Génération de la version HTML des pages