Extraction d’informations géographiques à partir du Web.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Académie de Créteil - B.C.
Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
Présentation du prototype :
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles Structures linguistiques pour la recherche dimages sur Internet.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros 70 –
Les numéros
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
JXDVDTEK – Une DVDthèque en Java et XML
Le Modèle Logique de Données
1. Les caractéristiques de dispersion. 11. Utilité.
Initiation et perfectionnement à lutilisation de la micro-informatique Publier des films sur DailyMotion (sur Mac et sur PC) ©Yves Roger Cornil
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Gestion de la communication par établissement sur le site ville
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Développement d’applications web
Par Clément en vacances sur la Côte dAzur Le 23 février Découverte Junior Découverte Junior – Gérard Villemin.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
1. 2 L'évolution du métier de garde de 1963 à 2013 – 50 ans du Parc national de la Vanoise The evolution of the ranger job from 1963 up to years.
Recherche d’un même objet / scène
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Traitements &Suppléments
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
1. 9 juillet 2009 Portrait du financement des organismes communautaires en santé et services sociaux Année de référence Ministère de la Santé
Evaluation de la qualité des documents anciens
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Recherche Documentaire et traitement de l’information
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
22 janvier 2013 Commercialiser en 2013 ! Que de variables à ajuster ! 1.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
13e édition de la Semaine des infrastructures urbaines 1 PLAN D'INTERVENTION ET STRATÉGIES D'INVESTISSEMENTS DU RÉSEAU ROUTIER, TEL QUE VU PAR LA JAMAICA.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Annexe 1 VISITE SUR
29/06/2005 Page 1 ROBIN - Techno-Vision Base dimages EADS DS l Introduction l Description générale l Description détaillée l Quicklook des données sources.
Les Nombres! de 0 à 20.
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Projet de stage d’année IIR4 sous le thème:
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Extraction d’informations géographiques à partir du Web. khfgjhff Extraction d’informations géographiques à partir du Web. Applications pour la recherche et l’annotation d’images Adrian Popescu*,** * CEA LIST ** Télécom Bretagne adrian.popescu@telecom-bretagne.eu LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 18/09/2008 1 1

Plan de la présentation khfgjhff Plan de la présentation État de l’art Structuration automatique d’un thésaurus géographique Recherche d’images géo-référencées Annotation d’images géo-référencées 18/09/2008

Points de départ Grande quantité d’informations géographiques présentes sur le Web ~ trois millions de nouvelles images géo- référencées sur Flickr par mois Émergence très rapide du Web mobile Le domaine géographique se prête bien à une structuration des connaissances Constitution manuelle des bases de données géographiques (très) coûteuse Thésaurus géographiques utiles dans une variété d’applications $, €, £, ¥

Un exemple d’utilisation

ETAT DE L’ART

Bases de données géographiques Définition (Hill, 1999) Élément = (nom, coordonnées, type) Structure Organisation hiérarchique – au minimum trois niveaux de détail Notre Dame de Paris est une cathédrale Inclusion spatiale Notre Dame de Paris  Paris  Île de France  France Pas considérée dans la définition de Hill Peu (ou pas) d’information spatiale Exemples Geonames ~ 6000000 éléments Alexandria Digital Library ~ 5000000 éléments

Bases de données géographiques existantes Dans leur grande majorité, constituées manuellement Utilisation de bases de données préexistantes USGS (United States Geological Survey) Couverture très variable selon les pays Cas de Geonames : La variabilité de la couverture est fortement problématique pour des applications grand public Pays Éléments dans Geonames (approx.) Etats-Unis 2000000 France 145000 Roumanie 24000

Constitution automatique des bases de données géographiques TagMaps (Rattenbury, 2007) http://tagmaps.research.yahoo.com/ Analyse statistique multi-échelle du corpus géo- référencé de Flickr Extraction de toponymes Extraction de coordonnées Association d’une mesure de pertinence Critique Précision de 85% pour un rappel de 50% Pas de structuration conceptuelle et spatiale

Autres travaux Projet SPIRIT (UE) Projet TRIPOD (UE) Catégorisation de pages Web ayant une composante géographique Constitution d’ontologies du domaine Projet TRIPOD (UE) Applications multimédia Annotation spatiale d’images (sans traitement d’images) DBPedia – extraction des pages géo-référencées de Wikipédia (Auer, 2007) http://dbpedia.org Noms géographiques + coordonnées

Recherche d’images géo-référencées Exploitation du géo-référencement afin d’améliorer la qualité des résultats CBIR (O’Hare, 2005) Clustering multimodal (Kennedy, 2008) Panoramio – plateforme de partage d’images géo- référencées > 6 000 000 d’images Validation des photographies Utilisée dans Google Earth et Google Maps Flickr > 50 000 000 d’images Pas de validation Utilisé dans World Explorer (avec TagMaps) (Ahern, 2007)

Recherche d’images - World Explorer

Annotation d’images géo-référencées Flickr « machine tags» Recommandation ZoneTag (Naaman, 2007) basée sur la la proximité spatiale ou temporelle Recommandation basée sur la co-occurrence de tags dans une grande collection d’images (> 50 millions) Traitement du contenu des images Souvent mentionné (O’Hare Exploitation du géo- référencement afin d’améliorer la qualité de l’annotation Peu utilisé (Chevallet, 2005), (Lim, 2007)

Annotation automatique - SnapToTell Annotation automatique d’images géo- référencées (Chevallet, 2005), (Lim, 2007) STOIC 101 database Images de Singapore 101 objets, 5278 Images Descripteurs de bas niveau globaux (Chevallet, 2005) Descripteurs de bas niveau globaux et locaux (Lim, 2007) Détection des régions « discriminantes » dans les images Combinaison de descripteurs + géo- référencement 92% de réussite sur 100 images (88% sans géo-référencement)

Application – e-tourisme

STRUCTURATION AUTOMATIQUE D’INFORMATIONS GEO-REFERENCEES

Gazetiki - constitution automatique d’un thésaurus géographique Adaptation de méthodes de TAL et statistiques pour le domaine géographique Respect de la définition de la structure d’un thésaurus de (Hill, 1999) Traitement des informations provenant de sources d’informations hétérogènes Approche multilingue anglais, français, allemand, néerlandais, espagnol, italien

Extraction Défis Objectifs et défis Noms géographiques (multilingue) Coordonnées géographiques Catégories parent Mesure de pertinence Entités englobantes Synonymes intra- et inter-langues Extension du modèle de (Hill, 1999) Élément = (nom, coordonnées, type, pertinence, entité englobante, synonymes) Défis Automatisation du processus Équilibre précision – couverture Obtention de données brutes (libres de droits) Intégration en une seule base

Sources de données GeoNames ???

Extraction de noms géographiques Titres de Wikipédia Articles avec des coordonnées (~ 240000 pour l’anglais) Articles sans coordonnées mais pertinents pour le domaine géographique (~ 38000 pour l’anglais) Règles dans Panoramio

Extraction des coordonnées Wikipédia – utilisation de 31 motifs introduisant les coordonnées Panoramio – moyennes des coordonnées des images représentatives – Traian Square Longitude :21.2478 Latitude : 45.757

Vocabulaire géographique Basé sur les catégories géographiques de Geonames Elimination de certaines catégories inintéressantes pour les applications grand public Base militaire, etc. Ajout d’autres catégories Divisions administratives: quarter, city, arrondissement etc. Folly, dolmen etc. Traduction semi-automatique des catégories Section « traduction » Vérification manuelle Environ 300 éléments traduits en six langues

Catégorisation - Wikipédia Première phrase Infobox + section « Catégories » + première phrase Procédure de vote + statistiques du Web Catégorisation multilingue

Panoramio – catégorisation basée sur les résultats moteur de recherche Statistiques sur les catégories géographiques Utilisation de « définitions »

Classement des entités Utile en recherche d’informations Mesure statistique exploitant le géo-référencement et les résultats d’un moteur de recherche Panoramio - popularité nombre d’images x nombre d’utilisateurs Moteur de recherche (Alltheweb) nombre de documents Priorité donnée à Panoramio Résultats Villes : London, Venice, Paris, Barcelona Autres : Eiffel Tower, Tower Bridge, Niagara Falls, Golden Gate Bridge

Inclusion spatiale – en cours Traian Square  Timisoara  Timis  Roumanie? Traitement de motifs (TAL) Raisonnement spatial Déduction de la forme et de la surface des divisions administratives Panoramio, Flickr - villes, départements, régions Geonames – pays Comparaison des coordonnées Pour un couple de coordonnées, trouver les entités l’incluant

Utilité de l’inclusion spatiale Désambiguïsation des noms géographiques ambigus Parthenon (Athens) -> temple Parthenon(??) -> museum Pathenon (Brussels) -> restaurant Expansion automatique des requêtes avec des noms géographiques ambigus Raisonnement spatial Représentation diversifiée des divisions administratives par leur entités contenues

Intra-langue Inter-langues Synonymie - à faire Extraction des noms alternatifs de Wikipédia Centre Pompidou = Musée National d’Art Contemporain Extraction d’acronymes à partir du Web Musée National d’Art Contemporain = MNAC Inter-langues Extraction des traductions de Wikipédia Musée d’Orsay = Orsay Museum Autrement Pour deux noms géographiques Si coordonnées très proches ET parties de noms communes  synonymes Si coordonnées très proches ET même catégorie  synonymes

Évaluation de Gazetiki Extraction des entités ~90% de précision Erreurs fréquentes Adjectif + concept géographique Catégorisation Wikipédia en anglais 95% Confirmés par une évaluation multilingue Panoramio (Web) 90%

Évaluation de Gazetiki Positionnement des éléments extraits à partir de Panoramio La majorité des éléments à moins de 200 m des coordonnées dans Geonames Classement « Gold standard » - TripAdvisor Comparaison avec TagMaps Meilleurs résultats dans 11 cas sur 15

APPLICATIONS: RECHERCHE D’IMAGES GEO- REFERENCEES

ThemExplorer – recherche d’images géo-référencées Gazetiki = (Geonames + Wikipédia + Panoramio) Images géo-référencées de Flickr + images complémentaires de Google Images Navigation selon des catégories géographiques Possibilité de sélectionner les catégories intéressantes Recherche par le contenu dans des espaces conceptuellement cohérents Définis par les noms géographiques Descripteurs globaux (couleur/texture) et locaux (sacs de mots visuels)

ThemExplorer - vue générale Démo

ThemExplorer - vue détaillée Démo

Résultats Tests de précision 6 utilisateurs; 20 images Limitation du CBIR Spatiale vs. spatiale + mots clef Fusion des descripteurs Globaux (LEP) Locaux (BAG) Globaux + locaux Test avec 8 utilisateurs ThemExplorer vs. World Explorer ++ modes de navigation proposés ++ couverture de Gazetiki -- doublons

APPLICATIONS: ANNOTATION D’IMAGES GEO- REFERENCEES

Annotation automatique d’images géo-référencées d’objets connus Création automatique d’une base de référence Objets bien représentés dans Panoramio (> 15 images) Téléchargement d’images à partir de Panoramio et Flickr (limitée à 500 images per objet) Filtrage de la base – adaptation de k-PP Annotation des images Mise en place d’un algorithme d’annotation basé en deux étapes sur k-PP Utilisation de la base de référence Création d’une base de test diversifiée Simulation d’une situation réelle 736 images (50% bonnes – 50% fausses)

Re-classement

Annotation

Résultats – précision/couverture

Répartition des erreurs Étape 1 vs. étape 2 Distribution dans des classes génériques

Compléter le thésaurus Recherche future Compléter le thésaurus Finir la catégorisation, l’inclusion spatiale et la synonymie Ajouter des nouvelles dimensions Pertinentes pour certaines catégories géographiques Mettre en valeurs les nouvelles dimensions du thésaurus en recherche et annotation d’images Modifier l’algorithme d’annotation d’images Prise en compte de la distribution spatiale des images Mettre en place une application de « e-Tourisme » proactive et personnalisable

Références (Ahern, 2007) Ahern, S., Naaman, M., Nair, R. and Yang, J. 2007.  World Explorer: Visualizing Aggregate Data from Unstructured Text in Geo-Referenced Collections. In Proc. of JCDL 2007 (Vancouver, Canada, June 2007). (Chevallet, 2005) Chevallet, J.-P., Lim, J.-H., Leong, M.-K. Object Identification and Retrieval from Efficient Image Matching. Snap2Tell with STOIC dataset. In Proc. of AIRS (Jeju Island, Korea, 2005). (Hill, 1999) (Kennedy, 2008) (Lim, 2007) Lim, J.-H., Li, Y., You, Y., Chevallet, J.-P. Scene Recognition with Camera Phones for Tourist Information Access. In Proc. of IEEE ICME (Beijing, China, 2007). (Naaman, 2007) Ames, M., Naaman, M. Why We Tag: Motivation for Annotation in Mobile and Online Media. In Proc of SIGCHI Conference on Human Factors in Computing Systems. San Jose, CA, USA, 2007. (O’Hare, 2005) O’Hare N., Gurrin, C., Smeaton A. F., Jones G. F. G. 2005. Combination of content analysis and context features for digital photograph retrieval. In. Proc. of EWIMT 2005. (Rattenbury, 2007) SPIRIT project page TRIPOD project page