Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parPénélope Navarro Modifié depuis plus de 10 années
1
Groupe de discussion CETIC - 15/12/2005 1 De l'indexation plein texte à l'indexation sémantique Le projet RetroWeb Fabrice Estiévenart (CETIC)
2
Groupe de discussion CETIC - 15/12/2005 2 Objectifs – motivations - applications Objectifs : extraire d’un ensemble de pages HTML, –un ensemble de données (XML) –le schéma de ces données (XML Schema) Motivations –XML = formalisme interprété et (semi-)structuré –HTML = formalisme pour la représentation de l’information sur Internet Approche générique Applications multiples –Interrogation « intelligente » du web oExemple : description: ‘SONY DSC-P30’ AND prix:<300 –Développement de tableaux de bord web personnalisés –Rétro-ingénierie et migration de sites (semi-)statiques vers une BD (CMS) netvibes.com
3
Groupe de discussion CETIC - 15/12/2005 3 Architecture Extracteur XML { name: title, location: html/…/h[1]/text(), type: string, parent: imdb-movie, …} … Life of Brian … Code HTML Vue Browser … Life of Brian … … Document XML affiche Générateur Schéma describes Document XML Schema Analyseur Sémantique Règles de Mapping
4
Groupe de discussion CETIC - 15/12/2005 4 Règles de mapping Les règles de mapping font la correspondance entre : –X structures HTML sources : o Life of Brian … o Young Frankenstein … –Un document XML cible : Life of Brian … Young Frankenstein … Une règle concerne un attribut dans un type de pages { property: title, location: html/…/h[1]/text(), type: string, parent: imdb-movie, …} Règle de mapping www.imdb.com
5
Groupe de discussion CETIC - 15/12/2005 5 Construction des règles : scénario Type de pages Web page Page Web Echantillon Web page Page Web Choix Echantillon Constr. règle candidate Vérification règle Affinement règle Enregistrement règle Pour chaque attribut A Règle OK pour A Règle candidate pour A fin O N Répertoire de règles
6
Groupe de discussion CETIC - 15/12/2005 6 Retrozilla Analyseur sémantique + Extracteur XML + Générateur schéma Avantages de Retrozilla –Facile : pas de langage particulier –Rapide : basé sur l’aspect visuel des pages –Flexible : uniquement les données intéressantes –Robuste : définition sur un ensemble de pages –Réutilisable : schéma prédéfini –Evolutif : différents formats de sortie Démo Site : www.imdb.comwww.imdb.com Extraire le titre, la liste des acteurs et la durée d’un film à partir d’un échantillon de pages
7
Groupe de discussion CETIC - 15/12/2005 7 Intégration RetroWeb-Moteur de recherche Approvisionner un moteur de recherche de résultats sémantiques extraits avec RetroWeb CollecteIndexationInterrogation Indexation syntaxique Indexation sémantique titreDELL ÉCRAN CRT 17" contenuRetourner aux pages d'annonces Catégorie de mise en vente : Computer Randapparatuur Monitoren DELL ÉCRAN CRT 17" Numéro de l'objet: 5839481285 Etes- vous le vendeur de cet objet ou un enchérisseur ? articleDELL ÉCRAN CRT 17" prix59 € temps restant 1 jour 9 heures quantité12 vendeurStuntstore livraisonEurope
8
Groupe de discussion CETIC - 15/12/2005 8 Conclusion Méthode outillée pour l’extraction de données XML à partir de pages Web –Semi-automatique MAIS conviviale –Approche générique diverses applications Travaux en cours et futurs –Détection des erreurs et réparation des règles –Définition et extraction de composants complexes –Intégration de RetroWeb dans un moteur de recherche –Analyse sémantique à partir de schémas existants (RDF- OWL) –Classification (clustering) automatique de pages web sur la base de leur structure ou de leur contenu
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.