La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

GdR I3 - SPHERE - 22 juin 05 Médiation et Classification Sémantique dans une Architecture Pair-à-Pair Nicolas Lumineau Équipe.

Présentations similaires


Présentation au sujet: "GdR I3 - SPHERE - 22 juin 05 Médiation et Classification Sémantique dans une Architecture Pair-à-Pair Nicolas Lumineau Équipe."— Transcription de la présentation:

1 GdR I3 - SPHERE - 22 juin 05 Médiation et Classification Sémantique dans une Architecture Pair-à-Pair Nicolas Lumineau Équipe Base de Données du LIP6

2 Objectif Elaborer un système de partage de données hétérogènes et distribuées: Autonome Passant à léchelle Décentralisé Evolutif ( auto-gérable ) Permettant une localisation efficace des données pertinentes

3 Contexte PADOUE (1) Une importante masse de données sémantiquement pauvres distribuées à travers le monde Projet ACI GRID Une importante masse de métadonnées sémantiquement riches distribuées à travers le monde Métadonnées

4 Contexte PADOUE (2) Réseau de partage de métadonnées : structurées qui référencent les données normalisées (norme de publication) Attributs normalisés Attributs spécifiques étiquetées par un ou plusieurs thèmes Une taxonomie définie les thèmes couverts par le réseau de partage de données connaissance globale partagée par tous les nœuds Environnement hydrologieclimatologie océanographieocéanologiehydrogéologiemétéorologiepaléoclimatologie … Norme Schema

5 Architecture Pair-à-Pair basée sur la médiation de données Solution Création dun réseau pair-à-pair non structuré permettant linteropérabilité dun grand nombre de médiateurs Complémentarité Pair-à-Pair / Médiateur Pair-à-Pair : + Large échelle et dynamicité - Données faiblement structurées et langage de requête pauvre (simple mots-clés) Médiateur : + Langage de requête de haut niveau (SQL, Xquery…) - Sources figées et en faible nombre Sémantique + Vision sémantique du réseau LeSelect SQL

6 Plan Schéma de médiation personnalisé Architecture pair-à-pair basée sur la médiation Génération des schémas de médiation Schéma publié (dédié à léchange à travers le réseau) Schéma thématique (dédié à linterrogation du réseau) Interrogation du réseau Organisation sémantique du réseau Critères sémantiques Service de classification distribué Protocole dinsertion de nœuds Expérimentations & Travaux Connexes Conclusion

7 Objectif Offrir aux utilisateurs du réseau de partage un outil de localisation transparente de données structurées. Contraintes principales Absence de coordination entre les fournisseurs de données Large échelle (grand nombre de sources dinformation) Dynamicité du réseau Utilisateur Réseau Médiateur 1: Découverte du réseau 2 : Extraction des données Finalité: Construire un schéma de médiation personnalisé aux besoins des utilisateurs Finalité: Récupérer les tuples filtrant la requête

8 Découverte du réseau Construire un schéma de médiation (schéma thématique) pour un thème donné à partir des schémas disponibles sur le réseau (schéma publié). Problèmes: 1) Comment publier ses sources ? 2) Comment traiter lintégration des attributs spécifiques ? A B C Utilisateur Schéma thématique pour thème «H» Schéma publié de «A» pour thème «H» Schéma publié de «B» pour thème «H» Source Intégration publication Réseau P2P

9 Architecture globale Un pair représente un organisme Double rôle : producteur et utilisateur

10 Enrichissement sémantique des schémas de médiation Objectifs: Faciliter léchange de schémas à travers le réseau Permettre un traitement efficace des requêtes à venir Dimensions sémantiques type contraintes thématique localisation qualité description sémantique Dimensions classiques Dimensions supplémentaires

11 Instanciations Schéma publié … Schéma thématique …. Permet la détection de conflits Permet la réutilisation et le partage des schémas thématiques Permet la résolution des conflits

12 A Couche de Publication Génération dun schéma publié Étape 1: Récupérer les informations sur le thème de publication Fournisseur Réseau Étape 2: Configurer le médiateur Définition des wrappers Définition des vues Sources Publier données thème H Étape 3: Description sémantique des attributs Sources Médiateur Schéma publié de «A» pour thème «H» Publieur Interface Fournisseur H Catalogue des descriptions sémantiques Schéma thématique pour thème «H» Norme de publication Étape 4: Configurer le service web Service Web

13 D A B Génération dun schéma thématique (1) Étape 1: Découverte des schémas publiés associés au thème H Fournisseur C Utilisateur Service ID de A Service ID de B Besoin de données sur thème «H» Réseau P2P H H Schéma publié de «A» pour thème «H» Schéma publié de «B» pour thème «H» E F G

14 C A B SW D Génération dun schéma thématique (2) Fournisseur Utilisateur Service ID de A {IP_A} Service ID de B {IP_B} Besoin de données sur thème «H» Réseau P2P Schéma publié de «A» pour thème «H» Schéma publié de «B» pour thème «H» E F G Étape 3: Collecte des URLs des services web pertinents Étape 4: Récupération et Intégration des schémas publiés Schéma thématique pour thème «H» Étape 5: Affichage à lutilisateur du schéma thématique associé au thème H

15 Algorithme dIntégration Processus dintégration Détection des conflits Gestion des conflits Mémorisation des mappings Intégration des schémas publiés: Analyse basée sur le schéma au niveau élément (et non au niveau structure) Approche linguistique sur la technique de «description matching» Extraction des mots clés des descriptions dattributs Calcul de distance sémantique Intégration coûteuse: Structure de contrôle du processus dintégration basée sur la qualité des schémas publiés Schémas de même qualité : intégration = union stricte Schémas de qualités différentes : intégration = analyse linguistique

16 Traitement adaptatif des requêtes SQL N1N2 N3 N4N5 N6N7 N8N9 N10 N0 médiateur Communication synchrone Ni Nœud Utilisateur Traitement de médiateur à médiateur N1N2 N3 N4N5 N6N7 N8N9 N10 N0 Propagation : Requête résultats Ni Nœud Utilisateur Traitement via le réseau Pair-à-Pair Quid de la distribution des thèmes ? Pour un thème populaire, risque de construire une connaissance quasi globale du réseau ! Définition dun seuil limitant le nombre de sources mémorisées pour un attribut et au-delà duquel le système préfère ne rien mémoriser Seuil évolutif selon la capacité et la charge du médiateur

17 Optimisation du système Remarque Performance du système dépend de la rapidité de la localisation des schémas publiés Proposition Organiser sémantiquement le réseau en fonction du thème des données Réduire la distance logique entre des nœuds stockant des données de même thème Architecture non P2P (avec tous les nœuds interconnectés) Architecture P2P (choix aléatoire des voisins – à la Gnutella) Architecture P2P (choix des voisins tenant compte du contenu sémantique des nœuds)

18 Plan Schéma de médiation personnalisé Architecture pair-à-pair basée sur la médiation Génération des schémas de médiation Schéma publié (dédié à léchange à travers le réseau) Schéma thématique (dédié à linterrogation du réseau) Interrogation du réseau Organisation sémantique du réseau Critères sémantiques Service de classification distribué Protocole dinsertion de nœuds Expérimentations & Travaux Connexes Conclusion

19 Nœud Table de voisinage Gestionnaire dinsertion de noeuds Construire le réseau en déterminant le voisinage logique pertinent pour le nœud voulant se connecter Problèmes: 1) Qui gère linsertion des noeuds? 2) Comment ne pas rapprocher logiquement des nœuds physiquement très éloignés ? Outil de classification Vecteur de sortie (IPs du voisinage pertinent) (représentation sémantique du contenu dun nœud) Vecteur dentrée classe Outil dordonnancement Gestionnaire dinsertion

20 Représentations sémantiques Critère de classification Contenu des données Critère dordonnancement Approximation de la localisation physique du nœud Taxonomie de thèmes A BCD E FGHI données 100 0…500 (d1,E,…) (d2,G,…) Analyseur de données AB C…EFG N1 N2 N3 Ni Vecteur thématique Vecteur de localisation

21 Service de classification V Classifieur V1 V2 … Vn P11 P12 … P1n P21 P22 … P2n Pk1 Pk2 … Pkn V1 V2 … Vn d1 d2 dk in out argmin {d i } i=1,…,k Classe Cl j update P11 P12 … P1n P21 P22 … P2n Pk1 Pk2 … Pkn Classifieur Cest un algorithme qui permet de regrouper (ou segmenter)une collection de données en différents ensembles, tel que les similarités entre individus dun groupe donné soient plus importantes que celles entre individus de classes différentes Exemples: K-means, cartes auto-organisatrices de Kohonen … Classifieur non supervisé basé sur un réseau de neurones Neural net.

22 N3 (associé aux classes Cl7,Cl8,Cl9) N2 (associé aux classes Cl4,Cl5,Cl6) N1 (associé aux classes Cl1,Cl2,Cl3) Vers un service de classification distribué Classifieur Distribution du classifieur et de lordonnanceur Attribuer la charge des calculs de la classification à plusieurs nœuds considérés comme stable P11 P12 … P1n P31 P32 … P3n P21 P22 … P2n P41 P42 … P4n P51 P52 … P5n P61 P62 … P6n P71 P72 … P7n P81 P82 … P8n P91 P92 … P9n

23 N1 (associé aux classes Cl1,Cl2,Cl3) Nœud entrant N3 (associé aux classes Cl7,Cl8,Cl9) N2 (associé aux classes Cl4,Cl5,Cl6) Insertion dun nœud dans le réseau (1) Classifieur Étape 1: Interrogation du classifieur distribué Récupération des distances sémantiques P11 P12 … P1n P31 P32 … P3n P21 P22 … P2n P41 P42 … P4n P51 P52 … P5n P61 P62 … P6n P71 P72 … P7n P81 P82 … P8n P91 P92 … P9n V1 V2 … Vn d1 d2 d3 d4 d5 d6 d7 d8 d9 V1 V2 … Vn e1 e2 e3 V1 V2 … Vn Vecteur thématique V V V V e1 e2 e3 d7,d8,d9,e3 d1,d2,d3,e1 d4,d5,d6,e2 Cl4 = argmin{di} Étape 2: Election de la classe gagnante Construction du vecteur de localisation

24 Nœud entrant Insertion dun nœud dans le réseau (2) e1 e2 e3 N3 (associé aux classes Cl7,Cl8,Cl9) N2 (associé aux classes Cl4,Cl5,Cl6) N1 (associé aux classes Cl1,Cl2,Cl3) Cl4 MAJ (Cl4) Ordonnanceur e1 e2 e3 IP IP …… …… N1 N2N3 {IP2, IP6, IP10,…} Étape 3: Notification de la classe gagnante Envoi du vecteur de localisation à N2 Étape 4: Tri des nœuds mémorisés comme appartenant à Cl4 Récupération des k premières adresses

25 Construction de la table de voisinage Trouver un bon compromis entre des liens de voisinage intra et inter clusters Pour une table de voisinage de p adresses Les k premiers nœuds du classement Intra-cluster Inter-cluster p - k nœuds parmi les clusters voisins Grille de neurones

26 Stratégies de clusterisation Gnutella Clusterisé Clusterisé optimisé

27 Maintenance du système Évolution de la taxonomie En cas de modification de la taxonomie, il est important de pouvoir répercuter ces modifications sur les vecteurs thématiques Régénération du Vecteur Thématique Dès que de nouvelles données sont insérées dans les sources, le Vecteur Thématique doit être mis à jour. Récupération dun nouveau voisinage

28 Modèle de coût basé sur: Lefficacité du traitement des requêtes de localisation Nombre moyen de rebonds nécessaires à la localisation des nœuds pertinents Courbes de Rappel / précision Coût de maintien du système Échanges de messages supplémentaires Stage de DEA : Comparaison de stratégies de clusterisation de réseau P2P par Julien Tanguy

29 Expérimentations Tests effectués Par prototypage Simulateur réparti (communication UDP) Agents simulant les utilisateurs et les fournisseurs Données fictives Pondération aléatoire pour simuler les distances physiques Pour linstant, jusquà 1000 nœuds (limite due aux nombres dinstances de médiateurs par noeud)

30 Performances (1) Rappel / Précision (moyenne sur 10 requêtes sur un réseau de 200 pairs)

31 Travaux connexes P2P dédié au partage de données PeerDB Gossiping Edutella Piazza PIER PinS … P2P & Clustering Semantic overlay network Semantic small world pSearch …

32 Conclusion Architecture de médiation basée sur la complémentarité du pair-à-pair et des médiateurs Schémas facilitant les échanges entre pairs: Publication des données Schéma publié Intégration dynamique des schémas publiés Schéma thématique Schéma de médiation reflétant la réalité du réseau Service de classification distribué et adapté à lorganisation sémantique des nœuds dun réseau P2P Classification consensuelle qui tient compte: de la distance sémantique entre les nœuds de la distance physique entre les nœuds

33 Questions ?


Télécharger ppt "GdR I3 - SPHERE - 22 juin 05 Médiation et Classification Sémantique dans une Architecture Pair-à-Pair Nicolas Lumineau Équipe."

Présentations similaires


Annonces Google