La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles Extraction dinformations géographiques à partir du Web. Applications.

Présentations similaires


Présentation au sujet: "1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles Extraction dinformations géographiques à partir du Web. Applications."— Transcription de la présentation:

1 1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles Extraction dinformations géographiques à partir du Web. Applications pour la recherche et lannotation dimages 18/09/2008 * CEA LIST ** Télécom Bretagne Adrian Popescu*,**

2 2 13/05/007 DTSI 18/09/2008 Plan de la présentation État de lart Structuration automatique dun thésaurus géographique Recherche dimages géo-référencées Annotation dimages géo-référencées

3 3 13/05/007 DTSI Points de départ Grande quantité dinformations géographiques présentes sur le Web ~ trois millions de nouvelles images géo- référencées sur Flickr par mois Émergence très rapide du Web mobile Le domaine géographique se prête bien à une structuration des connaissances Constitution manuelle des bases de données géographiques (très) coûteuse Thésaurus géographiques utiles dans une variété dapplications $,, £, ¥

4 4 13/05/007 DTSI Un exemple dutilisation

5 5 13/05/007 DTSI ETAT DE LART

6 6 13/05/007 DTSI Bases de données géographiques Définition (Hill, 1999) Élément = (nom, coordonnées, type) Structure Organisation hiérarchique – au minimum trois niveaux de détail Notre Dame de Paris est une cathédrale Inclusion spatiale Notre Dame de Paris Paris Île de France France Pas considérée dans la définition de Hill Peu (ou pas) dinformation spatiale Exemples Geonames ~ éléments Alexandria Digital Library ~ éléments

7 7 13/05/007 DTSI Bases de données géographiques existantes Dans leur grande majorité, constituées manuellement Utilisation de bases de données préexistantes USGS (United States Geological Survey) Couverture très variable selon les pays Cas de Geonames : La variabilité de la couverture est fortement problématique pour des applications grand public PaysÉléments dans Geonames (approx.) Etats-Unis France Roumanie24000

8 8 13/05/007 DTSI Constitution automatique des bases de données géographiques TagMaps (Rattenbury, 2007) Analyse statistique multi-échelle du corpus géo- référencé de Flickr Extraction de toponymes Extraction de coordonnées Association dune mesure de pertinence Critique Précision de 85% pour un rappel de 50% Pas de structuration conceptuelle et spatiale

9 9 13/05/007 DTSI Autres travaux Projet SPIRIT (UE) Catégorisation de pages Web ayant une composante géographique Constitution dontologies du domaine Projet TRIPOD (UE) Constitution dontologies du domaine Applications multimédia Annotation spatiale dimages (sans traitement dimages) DBPedia – extraction des pages géo-référencées de Wikipédia (Auer, 2007) Noms géographiques + coordonnées

10 10 13/05/007 DTSI Recherche dimages géo-référencées Exploitation du géo-référencement afin daméliorer la qualité des résultats CBIR (OHare, 2005) Clustering multimodal (Kennedy, 2008) Panoramio – plateforme de partage dimages géo- référencées > dimages Validation des photographies Utilisée dans Google Earth et Google Maps Flickr > dimages Pas de validation Utilisé dans World Explorer (avec TagMaps) (Ahern, 2007)

11 11 13/05/007 DTSI Recherche dimages - World Explorer

12 12 13/05/007 DTSI Annotation dimages géo-référencées Flickr « machine tags» Recommandation ZoneTag (Naaman, 2007) basée sur la la proximité spatiale ou temporelle Recommandation basée sur la co-occurrence de tags dans une grande collection dimages (> 50 millions) Traitement du contenu des images Souvent mentionné (OHare Exploitation du géo- référencement afin daméliorer la qualité de lannotation Peu utilisé (Chevallet, 2005), (Lim, 2007)

13 13 13/05/007 DTSI Annotation automatique - SnapToTell Annotation automatique dimages géo- référencées (Chevallet, 2005), (Lim, 2007) STOIC 101 database Images de Singapore 101 objets, 5278 Images Descripteurs de bas niveau globaux (Chevallet, 2005) Descripteurs de bas niveau globaux et locaux (Lim, 2007) Détection des régions « discriminantes » dans les images Combinaison de descripteurs + géo- référencement 92% de réussite sur 100 images (88% sans géo-référencement)

14 14 13/05/007 DTSI Application – e-tourisme

15 15 13/05/007 DTSI STRUCTURATION AUTOMATIQUE DINFORMATIONS GEO-REFERENCEES

16 16 13/05/007 DTSI Gazetiki - constitution automatique dun thésaurus géographique Adaptation de méthodes de TAL et statistiques pour le domaine géographique Respect de la définition de la structure dun thésaurus de (Hill, 1999) Traitement des informations provenant de sources dinformations hétérogènes Approche multilingue anglais, français, allemand, néerlandais, espagnol, italien

17 17 13/05/007 DTSI Objectifs et défis Extraction Noms géographiques (multilingue) Coordonnées géographiques Catégories parent Mesure de pertinence Entités englobantes Synonymes intra- et inter-langues Extension du modèle de (Hill, 1999) Élément = (nom, coordonnées, type, pertinence, entité englobante, synonymes) Défis Automatisation du processus Équilibre précision – couverture Obtention de données brutes (libres de droits) Intégration en une seule base

18 18 13/05/007 DTSI Sources de données GeoNames ???

19 19 13/05/007 DTSI Extraction de noms géographiques Titres de Wikipédia Articles avec des coordonnées (~ pour langlais) Articles sans coordonnées mais pertinents pour le domaine géographique (~ pour langlais) Règles dans Panoramio

20 20 13/05/007 DTSI Extraction des coordonnées Wikipédia – utilisation de 31 motifs introduisant les coordonnées Panoramio – moyennes des coordonnées des images représentatives – Traian Square Longitude : Latitude :

21 21 13/05/007 DTSI Vocabulaire géographique Basé sur les catégories géographiques de Geonames Elimination de certaines catégories inintéressantes pour les applications grand public Base militaire, etc. Ajout dautres catégories Divisions administratives: quarter, city, arrondissement etc. Folly, dolmen etc. Traduction semi-automatique des catégories Section « traduction » Vérification manuelle Environ 300 éléments traduits en six langues

22 22 13/05/007 DTSI Catégorisation - Wikipédia Première phrase Infobox + section « Catégories » + première phrase Procédure de vote + statistiques du Web Catégorisation multilingue Procédure de vote + statistiques du Web

23 23 13/05/007 DTSI Panoramio – catégorisation basée sur les résultats moteur de recherche Statistiques sur les catégories géographiques Utilisation de « définitions »

24 24 13/05/007 DTSI Classement des entités Utile en recherche dinformations Mesure statistique exploitant le géo-référencement et les résultats dun moteur de recherche Panoramio - popularité nombre dimages x nombre dutilisateurs Moteur de recherche (Alltheweb) nombre de documents Priorité donnée à Panoramio Résultats Villes : London, Venice, Paris, Barcelona Autres : Eiffel Tower, Tower Bridge, Niagara Falls, Golden Gate Bridge

25 25 13/05/007 DTSI Inclusion spatiale – en cours Traian Square Timisoara Timis Roumanie? Traitement de motifs (TAL) Raisonnement spatial Déduction de la forme et de la surface des divisions administratives Panoramio, Flickr - villes, départements, régions Geonames – pays Comparaison des coordonnées Pour un couple de coordonnées, trouver les entités lincluant

26 26 13/05/007 DTSI Utilité de linclusion spatiale Désambiguïsation des noms géographiques ambigus Parthenon (Athens) -> temple Parthenon(??) -> museum Pathenon (Brussels) -> restaurant Expansion automatique des requêtes avec des noms géographiques ambigus Raisonnement spatial Représentation diversifiée des divisions administratives par leur entités contenues

27 27 13/05/007 DTSI Synonymie - à faire Intra-langue Extraction des noms alternatifs de Wikipédia Centre Pompidou = Musée National dArt Contemporain Extraction dacronymes à partir du Web Musée National dArt Contemporain = MNAC Inter-langues Extraction des traductions de Wikipédia Musée dOrsay = Orsay Museum Autrement Pour deux noms géographiques Si coordonnées très proches ET parties de noms communes synonymes Si coordonnées très proches ET même catégorie synonymes

28 28 13/05/007 DTSI Évaluation de Gazetiki Extraction des entités ~90% de précision Erreurs fréquentes Adjectif + concept géographique Catégorisation Wikipédia en anglais 95% Confirmés par une évaluation multilingue Panoramio (Web) 90%

29 29 13/05/007 DTSI Évaluation de Gazetiki Positionnement des éléments extraits à partir de Panoramio La majorité des éléments à moins de 200 m des coordonnées dans Geonames Classement « Gold standard » - TripAdvisor Comparaison avec TagMaps Meilleurs résultats dans 11 cas sur 15

30 30 13/05/007 DTSI APPLICATIONS: RECHERCHE DIMAGES GEO- REFERENCEES

31 31 13/05/007 DTSI ThemExplorer – recherche dimages géo-référencées Gazetiki = (Geonames + Wikipédia + Panoramio) Images géo-référencées de Flickr + images complémentaires de Google Images Navigation selon des catégories géographiques Possibilité de sélectionner les catégories intéressantes Recherche par le contenu dans des espaces conceptuellement cohérents Définis par les noms géographiques Descripteurs globaux (couleur/texture) et locaux (sacs de mots visuels)

32 32 13/05/007 DTSI ThemExplorer - vue générale Démo

33 33 13/05/007 DTSI ThemExplorer - vue détaillée Démo

34 34 13/05/007 DTSI Résultats Tests de précision 6 utilisateurs; 20 images Limitation du CBIR Spatiale vs. spatiale + mots clef Fusion des descripteurs Globaux (LEP) Locaux (BAG) Globaux + locaux Test avec 8 utilisateurs ThemExplorer vs. World Explorer ++ modes de navigation proposés ++ couverture de Gazetiki -- doublons

35 35 13/05/007 DTSI APPLICATIONS: ANNOTATION DIMAGES GEO- REFERENCEES

36 36 13/05/007 DTSI Annotation automatique dimages géo-référencées dobjets connus Création automatique dune base de référence Objets bien représentés dans Panoramio (> 15 images) Téléchargement dimages à partir de Panoramio et Flickr (limitée à 500 images per objet) Filtrage de la base – adaptation de k-PP Annotation des images Mise en place dun algorithme dannotation basé en deux étapes sur k-PP Utilisation de la base de référence Création dune base de test diversifiée Simulation dune situation réelle 736 images (50% bonnes – 50% fausses)

37 37 13/05/007 DTSI Re-classement

38 38 13/05/007 DTSI Annotation

39 39 13/05/007 DTSI Résultats – précision/couverture

40 40 13/05/007 DTSI Répartition des erreurs Étape 1 vs. étape 2 Distribution dans des classes génériques

41 41 13/05/007 DTSI Recherche future Compléter le thésaurus Finir la catégorisation, linclusion spatiale et la synonymie Ajouter des nouvelles dimensions Pertinentes pour certaines catégories géographiques Mettre en valeurs les nouvelles dimensions du thésaurus en recherche et annotation dimages Modifier lalgorithme dannotation dimages Prise en compte de la distribution spatiale des images Mettre en place une application de « e-Tourisme » proactive et personnalisable

42 42 13/05/007 DTSI Références (Ahern, 2007) Ahern, S., Naaman, M., Nair, R. and Yang, J World Explorer: Visualizing Aggregate Data from Unstructured Text in Geo-Referenced Collections. In Proc. of JCDL 2007 (Vancouver, Canada, June 2007). (Chevallet, 2005) Chevallet, J.-P., Lim, J.-H., Leong, M.-K. Object Identification and Retrieval from Efficient Image Matching. Snap2Tell with STOIC dataset. In Proc. of AIRS (Jeju Island, Korea, 2005). (Hill, 1999) (Kennedy, 2008) (Lim, 2007) Lim, J.-H., Li, Y., You, Y., Chevallet, J.-P. Scene Recognition with Camera Phones for Tourist Information Access. In Proc. of IEEE ICME (Beijing, China, 2007). (Naaman, 2007) Ames, M., Naaman, M. Why We Tag: Motivation for Annotation in Mobile and Online Media. In Proc of SIGCHI Conference on Human Factors in Computing Systems. San Jose, CA, USA, (OHare, 2005) OHare N., Gurrin, C., Smeaton A. F., Jones G. F. G Combination of content analysis and context features for digital photograph retrieval. In. Proc. of EWIMT (Rattenbury, 2007) SPIRIT project page TRIPOD project page


Télécharger ppt "1 13/05/07 LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles Extraction dinformations géographiques à partir du Web. Applications."

Présentations similaires


Annonces Google