De la mise en page à la mise en écran : le cas des colonnes Claudie FAURE LTCI-CNRS, GET Télécom Paris Nicole VINCENT Université Paris V
Objectifs Simulation du processus de lecture : Quelles informations (visuelles, symboliques …) permettent au lecteur d’atteindre des résultats de lecture (repérage des titres, liens figure/légende, …) ? Comment se combinent-elles ? Visualisation sur écran : Comment obtenir les mêmes résultats de lecture des pages sur des présentations adaptées à l’écran ?
Quel document ? Le document est à dominante textuelle Il a été conçu pour exister sous forme papier Il a été mis en page Sous sa forme numérique, il sera mis en écran
Les besoins Alimenter des bases de documents numériques, des systèmes d’information Indexer et rechercher l’information à partir du contenu des documents Permettre et faciliter la lecture sur écran Adapter la visualisation des documents aux supports ...
Les réponses Produits commercialisés réponses incomplètes réponses erronées Analyse du document construire la structure physico-logique représenter cette structure
La structure physico-logique Les blocs " homogènes " La catégorisation de ces blocs Les relations entre bloc dont : l’ordre de lecture Les caractéristiques typo-dispositionnelles perçues sont responsables des catégorisations logiques Le contenu d’un document est en partie médiatisé par sa présentation visible
La traduction page écran Respecter le document Auteur maintien du sens exprimé par la présentation originale respect de l’ordre de lecture logique Faciliter la lecture sur écran La traduction papier écran = re-construction Diffère de la conception de documents visualisables originaux
Le document Auteur
Le document Auteur
Le cas des colonnes Mise en page = mise en écran : Ascenseurs Tableaux Ecran vide Fin de page Viser l’élimination des colonnes à l’écran par linéarisation Exploiter la visualisation interactive par introduction de liens
Détection des colonnes et ordre de lecture Sortie d’OCR : Lignes de texte obtenues par pdftotxt :
Les corpus PixED : images d’articles scientifiques parus dans des actes de conférences francophones Projet RNTL KENOBI : documents d’entreprise au format d’échange PGF
Colonnes physiques et catégories logiques
L’espace des cas Les cas de base : A1 A2 L’appartenance à une colonne est fonction de la taille de la page Force de groupement dominante : VERTICALE Tableau à double entrée Pas de force dominante = pas de linéarisation
L’espace des cas (suite) Les colonnes présentes des différences logiques marquées par des indices visibles B1 Force de groupement dominante : HORIZONTALE Force de groupement dominante : VERTICALE Force de rupture des styles entraîne une relation d’indépendance des colonnes B2
Combinaison de cas Colonnes globalement identiques => A1 Ruptures de style dans les colonnes = changement de catégorie logique Identité des styles en vis à vis => B1
Combinaison de cas Colonnes globalement identiques => A1 Rupture de style dans une colonne Fort degré de visibilité (supérieur aux titres) Pas de forces H => B2
Ordre de lecture pour le cas B1 Positions spatiales : R1 : MGi - CPi - Mdi Source de conflits Nécessité de se référer aux catégories logiques des composantes liées des appels (si ils existent) MG1 MD1 CP1 MG2 CP2 CP3 MD3 MG1 - CP1 - MD1- MG2 - CP2 - CP3 - MD3
B1 en situation réelle Les forces en présence : Rupture entre colonnes : forces V Ruptures entre blocs de MG : affaiblissement de la force V Proximité H (et Inclusion) Titres dominent les composantes liées (au dessus de)
Traduction sur écran Ordre de lecture Degré de visibilité
B1 en situation réelle Les forces en présence : Rupture entre colonnes : forces V Ruptures entre blocs de MG : affaiblissement de la force V Proximité H (et alignement H)
Traduction sur écran Repérage des marques symboliques structurantes : puces, numérotation, mots clés, appels …
Un cas B2 : les sommaires Remplacement d’informations symboliques par des actions
Cas des tableaux non matérialisés
Conclusion Début de formalisation des règles de traduction page écran Le cas des colonnes : évaluation comparée des forces de liaison entre composantes sur des marques typodispositionnelles et symboliques Evaluation objective : l’écran en référence à la page Evaluation subjective : expérimenter des versions possibles en situation de lecture réelle …. Appel à compétences !!!!