La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction d’informations géographiques à partir du Web.

Présentations similaires


Présentation au sujet: "Extraction d’informations géographiques à partir du Web."— Transcription de la présentation:

1 Extraction d’informations géographiques à partir du Web.
khfgjhff Extraction d’informations géographiques à partir du Web. Applications pour la recherche et l’annotation d’images Adrian Popescu*,** * CEA LIST ** Télécom Bretagne LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 18/09/2008 1 1

2 Plan de la présentation
khfgjhff Plan de la présentation État de l’art Structuration automatique d’un thésaurus géographique Recherche d’images géo-référencées Annotation d’images géo-référencées 18/09/2008

3 Points de départ Grande quantité d’informations géographiques présentes sur le Web ~ trois millions de nouvelles images géo- référencées sur Flickr par mois Émergence très rapide du Web mobile Le domaine géographique se prête bien à une structuration des connaissances Constitution manuelle des bases de données géographiques (très) coûteuse Thésaurus géographiques utiles dans une variété d’applications $, €, £, ¥

4 Un exemple d’utilisation

5 ETAT DE L’ART

6 Bases de données géographiques
Définition (Hill, 1999) Élément = (nom, coordonnées, type) Structure Organisation hiérarchique – au minimum trois niveaux de détail Notre Dame de Paris est une cathédrale Inclusion spatiale Notre Dame de Paris  Paris  Île de France  France Pas considérée dans la définition de Hill Peu (ou pas) d’information spatiale Exemples Geonames ~ éléments Alexandria Digital Library ~ éléments

7 Bases de données géographiques existantes
Dans leur grande majorité, constituées manuellement Utilisation de bases de données préexistantes USGS (United States Geological Survey) Couverture très variable selon les pays Cas de Geonames : La variabilité de la couverture est fortement problématique pour des applications grand public Pays Éléments dans Geonames (approx.) Etats-Unis France 145000 Roumanie 24000

8 Constitution automatique des bases de données géographiques
TagMaps (Rattenbury, 2007) Analyse statistique multi-échelle du corpus géo- référencé de Flickr Extraction de toponymes Extraction de coordonnées Association d’une mesure de pertinence Critique Précision de 85% pour un rappel de 50% Pas de structuration conceptuelle et spatiale

9 Autres travaux Projet SPIRIT (UE) Projet TRIPOD (UE)
Catégorisation de pages Web ayant une composante géographique Constitution d’ontologies du domaine Projet TRIPOD (UE) Applications multimédia Annotation spatiale d’images (sans traitement d’images) DBPedia – extraction des pages géo-référencées de Wikipédia (Auer, 2007) Noms géographiques + coordonnées

10 Recherche d’images géo-référencées
Exploitation du géo-référencement afin d’améliorer la qualité des résultats CBIR (O’Hare, 2005) Clustering multimodal (Kennedy, 2008) Panoramio – plateforme de partage d’images géo- référencées > d’images Validation des photographies Utilisée dans Google Earth et Google Maps Flickr > d’images Pas de validation Utilisé dans World Explorer (avec TagMaps) (Ahern, 2007)

11 Recherche d’images - World Explorer

12 Annotation d’images géo-référencées
Flickr « machine tags» Recommandation ZoneTag (Naaman, 2007) basée sur la la proximité spatiale ou temporelle Recommandation basée sur la co-occurrence de tags dans une grande collection d’images (> 50 millions) Traitement du contenu des images Souvent mentionné (O’Hare Exploitation du géo- référencement afin d’améliorer la qualité de l’annotation Peu utilisé (Chevallet, 2005), (Lim, 2007)

13 Annotation automatique - SnapToTell
Annotation automatique d’images géo- référencées (Chevallet, 2005), (Lim, 2007) STOIC 101 database Images de Singapore 101 objets, 5278 Images Descripteurs de bas niveau globaux (Chevallet, 2005) Descripteurs de bas niveau globaux et locaux (Lim, 2007) Détection des régions « discriminantes » dans les images Combinaison de descripteurs + géo- référencement 92% de réussite sur 100 images (88% sans géo-référencement)

14 Application – e-tourisme

15 STRUCTURATION AUTOMATIQUE D’INFORMATIONS GEO-REFERENCEES

16 Gazetiki - constitution automatique d’un thésaurus géographique
Adaptation de méthodes de TAL et statistiques pour le domaine géographique Respect de la définition de la structure d’un thésaurus de (Hill, 1999) Traitement des informations provenant de sources d’informations hétérogènes Approche multilingue anglais, français, allemand, néerlandais, espagnol, italien

17 Extraction Défis Objectifs et défis Noms géographiques (multilingue)
Coordonnées géographiques Catégories parent Mesure de pertinence Entités englobantes Synonymes intra- et inter-langues Extension du modèle de (Hill, 1999) Élément = (nom, coordonnées, type, pertinence, entité englobante, synonymes) Défis Automatisation du processus Équilibre précision – couverture Obtention de données brutes (libres de droits) Intégration en une seule base

18 Sources de données GeoNames ???

19 Extraction de noms géographiques
Titres de Wikipédia Articles avec des coordonnées (~ pour l’anglais) Articles sans coordonnées mais pertinents pour le domaine géographique (~ pour l’anglais) Règles dans Panoramio

20 Extraction des coordonnées
Wikipédia – utilisation de 31 motifs introduisant les coordonnées Panoramio – moyennes des coordonnées des images représentatives – Traian Square Longitude : Latitude :

21 Vocabulaire géographique
Basé sur les catégories géographiques de Geonames Elimination de certaines catégories inintéressantes pour les applications grand public Base militaire, etc. Ajout d’autres catégories Divisions administratives: quarter, city, arrondissement etc. Folly, dolmen etc. Traduction semi-automatique des catégories Section « traduction » Vérification manuelle Environ 300 éléments traduits en six langues

22 Catégorisation - Wikipédia
Première phrase Infobox + section « Catégories » + première phrase Procédure de vote + statistiques du Web Catégorisation multilingue

23 Panoramio – catégorisation basée sur les résultats moteur de recherche
Statistiques sur les catégories géographiques Utilisation de « définitions »

24 Classement des entités
Utile en recherche d’informations Mesure statistique exploitant le géo-référencement et les résultats d’un moteur de recherche Panoramio - popularité nombre d’images x nombre d’utilisateurs Moteur de recherche (Alltheweb) nombre de documents Priorité donnée à Panoramio Résultats Villes : London, Venice, Paris, Barcelona Autres : Eiffel Tower, Tower Bridge, Niagara Falls, Golden Gate Bridge

25 Inclusion spatiale – en cours
Traian Square  Timisoara  Timis  Roumanie? Traitement de motifs (TAL) Raisonnement spatial Déduction de la forme et de la surface des divisions administratives Panoramio, Flickr - villes, départements, régions Geonames – pays Comparaison des coordonnées Pour un couple de coordonnées, trouver les entités l’incluant

26 Utilité de l’inclusion spatiale
Désambiguïsation des noms géographiques ambigus Parthenon (Athens) -> temple Parthenon(??) -> museum Pathenon (Brussels) -> restaurant Expansion automatique des requêtes avec des noms géographiques ambigus Raisonnement spatial Représentation diversifiée des divisions administratives par leur entités contenues

27 Intra-langue Inter-langues Synonymie - à faire
Extraction des noms alternatifs de Wikipédia Centre Pompidou = Musée National d’Art Contemporain Extraction d’acronymes à partir du Web Musée National d’Art Contemporain = MNAC Inter-langues Extraction des traductions de Wikipédia Musée d’Orsay = Orsay Museum Autrement Pour deux noms géographiques Si coordonnées très proches ET parties de noms communes  synonymes Si coordonnées très proches ET même catégorie  synonymes

28 Évaluation de Gazetiki
Extraction des entités ~90% de précision Erreurs fréquentes Adjectif + concept géographique Catégorisation Wikipédia en anglais 95% Confirmés par une évaluation multilingue Panoramio (Web) 90%

29 Évaluation de Gazetiki
Positionnement des éléments extraits à partir de Panoramio La majorité des éléments à moins de 200 m des coordonnées dans Geonames Classement « Gold standard » - TripAdvisor Comparaison avec TagMaps Meilleurs résultats dans 11 cas sur 15

30 APPLICATIONS: RECHERCHE D’IMAGES GEO- REFERENCEES

31 ThemExplorer – recherche d’images géo-référencées
Gazetiki = (Geonames + Wikipédia + Panoramio) Images géo-référencées de Flickr + images complémentaires de Google Images Navigation selon des catégories géographiques Possibilité de sélectionner les catégories intéressantes Recherche par le contenu dans des espaces conceptuellement cohérents Définis par les noms géographiques Descripteurs globaux (couleur/texture) et locaux (sacs de mots visuels)

32 ThemExplorer - vue générale
Démo

33 ThemExplorer - vue détaillée
Démo

34 Résultats Tests de précision 6 utilisateurs; 20 images
Limitation du CBIR Spatiale vs. spatiale + mots clef Fusion des descripteurs Globaux (LEP) Locaux (BAG) Globaux + locaux Test avec 8 utilisateurs ThemExplorer vs. World Explorer ++ modes de navigation proposés ++ couverture de Gazetiki -- doublons

35 APPLICATIONS: ANNOTATION D’IMAGES GEO- REFERENCEES

36 Annotation automatique d’images géo-référencées d’objets connus
Création automatique d’une base de référence Objets bien représentés dans Panoramio (> 15 images) Téléchargement d’images à partir de Panoramio et Flickr (limitée à 500 images per objet) Filtrage de la base – adaptation de k-PP Annotation des images Mise en place d’un algorithme d’annotation basé en deux étapes sur k-PP Utilisation de la base de référence Création d’une base de test diversifiée Simulation d’une situation réelle 736 images (50% bonnes – 50% fausses)

37 Re-classement

38 Annotation

39 Résultats – précision/couverture

40 Répartition des erreurs
Étape 1 vs. étape Distribution dans des classes génériques

41 Compléter le thésaurus
Recherche future Compléter le thésaurus Finir la catégorisation, l’inclusion spatiale et la synonymie Ajouter des nouvelles dimensions Pertinentes pour certaines catégories géographiques Mettre en valeurs les nouvelles dimensions du thésaurus en recherche et annotation d’images Modifier l’algorithme d’annotation d’images Prise en compte de la distribution spatiale des images Mettre en place une application de « e-Tourisme » proactive et personnalisable

42 Références (Ahern, 2007) Ahern, S., Naaman, M., Nair, R. and Yang, J  World Explorer: Visualizing Aggregate Data from Unstructured Text in Geo-Referenced Collections. In Proc. of JCDL 2007 (Vancouver, Canada, June 2007). (Chevallet, 2005) Chevallet, J.-P., Lim, J.-H., Leong, M.-K. Object Identification and Retrieval from Efficient Image Matching. Snap2Tell with STOIC dataset. In Proc. of AIRS (Jeju Island, Korea, 2005). (Hill, 1999) (Kennedy, 2008) (Lim, 2007) Lim, J.-H., Li, Y., You, Y., Chevallet, J.-P. Scene Recognition with Camera Phones for Tourist Information Access. In Proc. of IEEE ICME (Beijing, China, 2007). (Naaman, 2007) Ames, M., Naaman, M. Why We Tag: Motivation for Annotation in Mobile and Online Media. In Proc of SIGCHI Conference on Human Factors in Computing Systems. San Jose, CA, USA, 2007. (O’Hare, 2005) O’Hare N., Gurrin, C., Smeaton A. F., Jones G. F. G Combination of content analysis and context features for digital photograph retrieval. In. Proc. of EWIMT (Rattenbury, 2007) SPIRIT project page TRIPOD project page


Télécharger ppt "Extraction d’informations géographiques à partir du Web."

Présentations similaires


Annonces Google