Introduction au Word Spotting 3 décembre 2012 Partha Pratim RoyJean-Yves RamelFrédéric Rayar AG BVH.

Slides:



Advertisements
Présentations similaires
La recherche documentaire
Advertisements

Construction de l’information
Le dossier documentaire
Synthèses de la législation européenne: une introduction 2008.
Repérage 5e : Présentation générale
HINARI Foire aux questions (FAQ)
International Telecommunication Union Séminaire mondial des radiocommunications 2008 (Genève, 8-12 décembre 2008)
Présentation des programmes de terminale STG Juin 2006.
Épreuve pratique en Terminale Mercatique
Action 1 : Utilisation de la presse locale Les échos du Pas de Calais (gratuit pour les lecteurs) : 1 double page + 8 demi pages = soit /page.
Université la Sorbonne Nouvelle - Paris III Commandes de base
LES PROGRESSIONS Sciences expérimentales et technologie.
ETAPES DE LA RECHERCHE DOCUMENTAIRE
FACTIVA Présentation et guide d’utilisation
GED Masters: Gestion Électronique de Documents
SECURITE DU SYSTEME D’INFORMATION (SSI)
Créer votre premier document Word I
Vue générale de Sharpdesk
L'ORIENTATION UN CHANTIER A PARTAGER
1 Sécurité Informatique : Proxy Présenter par : Mounir GRARI.
… En toute simplicité.
Revue de presse 1er trimestre
CAS DE RECHERCHE SUR LES BASES - Mme Nafissa BELCAID (OMPIC) -
Excel Introduction.
Evaluation de la qualité des documents anciens
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
MODULE 3 CATALOGUE KOHA 1 Accéder au catalogue Comprendre Koha Généralités Page daccueil Se connecter à Koha Pourquoi un compte personnel? Connexion Compte.
Moteur de recherche d’information
Moteur de recherche d’information
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Graphiques FORMATION COMMUNE DES CONSEILS DÉTABLISSEMENT.
Plan de la rencontre #6 Approches pédagogiques pour l ’utilisation des NTIC Scénarios d ’utilisation des NTIC Logiciels-outils et écriture Activité: Réalisation.
CUME 330: Didactique des études sociales à lélémentaire Les ressources dapprentissage et la recherche dans les outils de Présenté par David Martin Préparé.
Convertir un fichier en format .pdf
Au-delà des catalogues : les outils de recherche documentaire en Histoire.
CONSIGNES POUR LE TRAVAIL DE GROUPE
Du Guichet du Savoir ( à Catalog+ ( )
PRESENTATION DES DONNEES BTS SIO. INTRODUCTION Une fois la base et les tables créées, il faut pouvoir les exploiter. L’utilisateur final aura besoin de.
Les aides technologiques René Bélanger et Sylvie Desrosiers Décembre 2011 Commission scolaire de la Rivière-du-Nord.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Présenté par : Jabli Mohamed Amine Brahim Raddaoui
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Mathieu Delalandre Mardi 13 Décembre.
LE CPA Mme Armani et M. Beaume. Présentation de la classe 24 élèves: – 8 filles; – 16 garçons. Premier bilan et premières impressions: – Des élèves lecteurs.
Rédaction d’un dossier SVT 3eme.
Ressources Electroniques d’Oxford University Press.
OPTIPAGE POUR UNE NAVIGATION AGRÉABLE, lancez le diaporama !  « F5 » sur PC  « cmd+  » sur Mac LES FORMULAIRES WORD … ET AUTRES AUTOMATISMES JANVIER.
Ressources Electroniques d’Oxford University Press.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Numériser de manière économe Un aperçu du projet de numérisation économique à la Bibliothèque législative de Terre-Neuve-et-Labrador Conférence 2014 de.
Recherche d’information
Cercle d’apprentissage Innovation ouverte Mission1 MRC Pierre-de-Saurel.
Gestion des Périphériques
Architecture des ordinateurs, Environnement Numérique de Travail
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
Moteurs et métamoteurs de recherche
Plateforme Opérationnelle pour le Livre Numérique
LE SERVEUR PROXY Un serveur proxy (traduction française de «proxy server», appelé aussi «serveur mandataire») est à l'origine une machine faisant fonction.
1 LIBURUKLIK: Librairie numérique Open Access Brest,
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
Jocelyne Jerdelet - Sandrine Reyes CERN-DSU-SI 1 La Théorie sur la "voie verte" de l'Open Access.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
L’histoire ancienne Une aventure dans le temps
Presse ancienne numérisée
Adaptations Modifications Novembre 2015 Services aux élèves.
Structure (Plan) d’un mémoire
Faire un dossier documentaire
Formation.
CALCUL RAPIDE sur les nombres
Transcription de la présentation:

Introduction au Word Spotting 3 décembre 2012 Partha Pratim RoyJean-Yves RamelFrédéric Rayar AG BVH

Introduction  Préservation et accès au patrimoine culturel  Numérisation  Transcription (OCR)  Difficultés à retranscrire les documents historiques  Alternative : le Repérage de mots (Word Spotting)  On ne cherche plus à reconnaitre chaque caractère  Listes de régions similaires à la requête 2

Word Spotting  Domaine de recherche actif :  Documents modernes, anciens  Documents manuscrits, imprimés  Texte ou graphique simple (logo,...)  Avec ou sans segmentation (lignes, mots) 3

Approche proposée  Objectifs  Robustesse aux documents historiques  Indépendance à l’alphabet  Rapidité du temps de réponse à une requête  Principes exploités  Segmentation en ligne (AGORA)  Considération de primitives de caractères  Indexation hors ligne (dictionnaire de formes)  Recherche reportée au niveau du texte 4

 Centre d’Etudes Supérieures de la Renaissance  « Essais – Livre I» de Montaigne (1580) Résultats expérimentaux 5

 « La mendicité spirituelle » de Gerson (1501) Résultats expérimentaux 6

 Journaux en (a) hindi et (b) bengali  Rongo (Entretiens de Confucius en japonais) (1533) Résultats expérimentaux (a) (b) 7

 « Essais – Livre I » de Montaigne (1580)  Vérité terrain fournie par le CESR  Sous-ensemble de 78 pages  1579 lignes indexées  72% de résultats pertinents avec 100% de précision Résultats expérimentaux 8

 PC avec un processeur de type i5 à 2.53 GHz et 4G de RAM  Tests menés sur le sous-ensemble de 78 pages  La recherche a été effectuée plusieurs fois, et un temps de réponse moyen a été calculé  Temps de réponse de 2 secondes en moyenne Résultats expérimentaux 9

10 Projet ReNom