La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Nicolas Lumineau Équipe Base de Données du LIP6

Présentations similaires


Présentation au sujet: "Nicolas Lumineau Équipe Base de Données du LIP6"— Transcription de la présentation:

1 Médiation et Classification Sémantique dans une Architecture Pair-à-Pair
Nicolas Lumineau Équipe Base de Données du LIP6 GdR I3 - SPHERE - 22 juin 05

2 Objectif Elaborer un système de partage de données hétérogènes et distribuées: Autonome Passant à l’échelle Décentralisé Evolutif ( auto-gérable ) Permettant une localisation efficace des données pertinentes

3 métadonnées sémantiquement riches
Contexte PADOUE (1) Projet ACI GRID Métadonnées Métadonnées Une importante masse de métadonnées sémantiquement riches distribuées à travers le monde Une importante masse de données sémantiquement pauvres distribuées à travers le monde Métadonnées Métadonnées Métadonnées

4 Contexte PADOUE (2) Réseau de partage de métadonnées : structurées
qui référencent les données normalisées (norme de publication) Attributs normalisés Attributs spécifiques étiquetées par un ou plusieurs thèmes Une taxonomie définie les thèmes couverts par le réseau de partage de données connaissance globale partagée par tous les nœuds Norme Schema Environnement hydrologie climatologie océanographie océanologie hydrogéologie météorologie paléoclimatologie

5 Architecture Pair-à-Pair basée sur la médiation de données
Solution Création d’un réseau pair-à-pair non structuré permettant l’interopérabilité d’un grand nombre de médiateurs Complémentarité Pair-à-Pair / Médiateur Pair-à-Pair : + Large échelle et dynamicité - Données faiblement structurées et langage de requête pauvre (simple mots-clés) Médiateur : + Langage de requête de haut niveau (SQL, Xquery…) Sources figées et en faible nombre Sémantique + Vision sémantique du réseau LeSelect SQL

6 Plan Schéma de médiation personnalisé
Architecture pair-à-pair basée sur la médiation Génération des schémas de médiation Schéma publié (dédié à l’échange à travers le réseau) Schéma thématique (dédié à l’interrogation du réseau) Interrogation du réseau Organisation sémantique du réseau Critères sémantiques Service de classification distribué Protocole d’insertion de nœuds Expérimentations & Travaux Connexes Conclusion Section I répond à la question : Comment fournir aux utilisateurs un schéma de médiation pertinent à leurs besoins et modélisant les données réellement disponibles sur le réseau ? Section II répond à la question: Comment localiser efficacement l’ensemble des fournisseurs de données publiant pour un thème considéré ?

7 Récupérer les tuples filtrant la requête
Objectif Offrir aux utilisateurs du réseau de partage un outil de localisation transparente de données structurées. Contraintes principales Absence de coordination entre les fournisseurs de données Large échelle (grand nombre de sources d’information) Dynamicité du réseau Finalité: Construire un schéma de médiation personnalisé aux besoins des utilisateurs 1: Découverte du réseau Utilisateur Réseau 2 : Extraction des données Finalité: Récupérer les tuples filtrant la requête Médiateur

8 Découverte du réseau Construire un schéma de médiation (schéma thématique) pour un thème donné à partir des schémas disponibles sur le réseau (schéma publié). A Schéma publié de «A» pour thème «H»  publication C Source Schéma thématique pour thème «H»  Réseau P2P Intégration B Schéma publié de «B» pour thème «H»  Utilisateur publication Source Problèmes: 1) Comment publier ses sources ? 2) Comment traiter l’intégration des attributs spécifiques ?

9 Architecture globale Un pair représente un organisme
Double rôle : producteur et utilisateur

10 Enrichissement sémantique des schémas de médiation
Objectifs: Faciliter l’échange de schémas à travers le réseau Permettre un traitement efficace des requêtes à venir Dimensions sémantiques type contraintes thématique localisation qualité description sémantique Dimensions classiques Dimensions supplémentaires

11 Instanciations Schéma publié Schéma thématique
<publishedSchema theme="hydrology" quality=5> <relation name="Dyke"> <sequence normalized=“yes”> <xs:element name="langCd" type=”string”> <description info=”document language code”/> </xs:element> <xs:element name="countryCd" type=”string”> <description info=”document country code”/> </sequence> <xs:sequence normalized=“no”> <xs:element name="lineage_stat" type=”string”> <description info=”statement of lineage”/> </sequence> </relation> … </publishedschema> <thematicSchema theme="hydrology" freshness= > <relation name="Dyke"> <xs:element name="langCd" type=”string”> <description info=”document language code”/> <source <source </xs:element> <element name="countryCd" type=”string”> <description info=”document country code”/> <source <source <mapping as="countryCd"> </sources> </element> <element name="lineage_stat" type=”string”> <description info=”statement of lineage”/> <source </xs:element> </relation> …. </thematicschema> Permet la détection de conflits Permet la réutilisation et le partage des schémas thématiques Permet la résolution des conflits

12 Génération d’un schéma publié
Étape 1: Récupérer les informations sur le thème de publication Étape 2: Configurer le médiateur Définition des wrappers Définition des vues Étape 3: Description sémantique des attributs Étape 4: Configurer le service web A Couche de Publication Publier données thème H Publieur Norme de publication Schéma publié de «A» pour thème «H»  Service Web Réseau Schéma thématique pour thème «H»  H Médiateur Fournisseur Catalogue des descriptions sémantiques  Interface Fournisseur Sources Sources

13 Génération d’un schéma thématique (1)
Étape 1: Découverte des schémas publiés associés au thème H Besoin de données sur thème «H» Réseau P2P A Schéma publié de «A» pour thème «H»  Service ID de A C D H H Fournisseur B Utilisateur F Service ID de B Schéma publié de «B» pour thème «H»  E G Fournisseur

14 Génération d’un schéma thématique (2)
Étape 3: Collecte des URLs des services web pertinents Étape 4: Récupération et Intégration des schémas publiés Étape 5: Affichage à l’utilisateur du schéma thématique associé au thème H Réseau P2P Besoin de données sur thème «H» A SW Service ID de A {IP_A} Schéma publié de «A» pour thème «H»  C D Fournisseur SW Schéma thématique pour thème «H»  B SW Utilisateur F Service ID de B {IP_B} Schéma publié de «B» pour thème «H»  E G Fournisseur

15 Algorithme d’Intégration
Processus d’intégration Détection des conflits Gestion des conflits Mémorisation des mappings Intégration des schémas publiés: Analyse basée sur le schéma au niveau élément (et non au niveau structure) Approche linguistique sur la technique de «description matching» Extraction des mots clés des descriptions d’attributs Calcul de distance sémantique Intégration coûteuse: Structure de contrôle du processus d’intégration basée sur la qualité des schémas publiés Schémas de même qualité : intégration = union stricte Schémas de qualités différentes : intégration = analyse linguistique

16 Traitement adaptatif des requêtes SQL
Quid de la distribution des thèmes ? Pour un thème populaire, risque de construire une connaissance quasi globale du réseau ! Définition d’un seuil limitant le nombre de sources mémorisées pour un attribut et au-delà duquel le système préfère ne rien mémoriser Traitement de médiateur à médiateur Traitement via le réseau Pair-à-Pair médiateur Propagation : Requête résultats Utilisateur Utilisateur Communication synchrone Ni Nœud N0 Ni Nœud N0 N1 N2 N3 N1 N2 N3 N4 N5 N6 N7 N4 N5 N6 N7 N8 N9 N10 N8 N9 N10 Seuil évolutif selon la capacité et la charge du médiateur

17 Optimisation du système
Remarque Performance du système dépend de la rapidité de la localisation des schémas publiés Proposition Organiser sémantiquement le réseau en fonction du thème des données  Réduire la distance logique entre des nœuds stockant des données de même thème Architecture non P2P (avec tous les nœuds interconnectés) Architecture P2P (choix aléatoire des voisins – à la Gnutella) Architecture P2P (choix des voisins tenant compte du contenu sémantique des nœuds)

18 Plan Schéma de médiation personnalisé
Architecture pair-à-pair basée sur la médiation Génération des schémas de médiation Schéma publié (dédié à l’échange à travers le réseau) Schéma thématique (dédié à l’interrogation du réseau) Interrogation du réseau Organisation sémantique du réseau Critères sémantiques Service de classification distribué Protocole d’insertion de nœuds Expérimentations & Travaux Connexes Conclusion Section I répond à la question : Comment fournir aux utilisateurs un schéma de médiation pertinent à leurs besoins et modélisant les données réellement disponibles sur le réseau ? Section II répond à la question: Comment localiser efficacement l’ensemble des fournisseurs de données publiant pour un thème considéré ?

19 Gestionnaire d’insertion de noeuds
Construire le réseau en déterminant le voisinage logique pertinent pour le nœud voulant se connecter Problèmes: 1) Qui gère l’insertion des noeuds? 2) Comment ne pas rapprocher logiquement des nœuds physiquement très éloignés ? (représentation sémantique du contenu d’un nœud) Vecteur d’entrée Gestionnaire d’insertion Outil de classification Nœud classe Table de voisinage Outil d’ordonnancement Vecteur de sortie (IPs du voisinage pertinent)

20 Représentations sémantiques
Critère de classification Contenu des données Critère d’ordonnancement Approximation de la localisation physique du nœud A B E F G C Taxonomie de thèmes Analyseur de données A 100 100 50 50 B C D Vecteur thématique E F G H I données (d1,E,…) (d2,G,…) Ni 5 60 10 5 10 60 N1 N2 N3 Vecteur de localisation

21 Service de classification
Classifieur C’est un algorithme qui permet de regrouper (ou segmenter)une collection de données en différents ensembles, tel que les similarités entre individus d’un groupe donné soient plus importantes que celles entre individus de classes différentes Exemples: K-means, cartes auto-organisatrices de Kohonen … Service de classification Classifieur  d1  d2  dk P’11 P’12 … P’1n P11 P12 … P1n out argmin {di} i=1,…,k Classe Clj V V V2 … Vn V V2 … Vn V V2 … Vn V V2 … Vn in P’21 P’22 … P’2n P21 P22 … P2n Classifieur non supervisé basé sur un réseau de neurones Neural net. Pk1 Pk2 … Pkn P’k1 P’k2 … P’kn update

22 Vers un service de classification distribué
(associé aux classes Cl1,Cl2,Cl3) Distribution du classifieur et de l’ordonnanceur Attribuer la charge des calculs de la classification à plusieurs nœuds considérés comme stable N2 (associé aux classes Cl4,Cl5,Cl6) Classifieur P11 P12 … P1n P31 P32 … P3n P21 P22 … P2n P41 P42 … P4n P51 P52 … P5n P61 P62 … P6n P71 P72 … P7n P81 P82 … P8n P91 P92 … P9n N3 (associé aux classes Cl7,Cl8,Cl9)

23 Insertion d’un nœud dans le réseau (1)
(associé aux classes Cl1,Cl2,Cl3) Étape 1: Interrogation du classifieur distribué Récupération des distances sémantiques V V2 … Vn P11 P12 … P1n P31 P32 … P3n P21 P22 … P2n d1 d2 d3 e1 d1,d2,d3,e1 Nœud entrant V N2 (associé aux classes Cl4,Cl5,Cl6) Classifieur V V2 … Vn Vecteur thématique V V e2 P41 P42 … P4n P51 P52 … P5n P61 P62 … P6n d4 d5 d6 d4,d5,d6,e2 V V2 … Vn Cl4 = argmin{di} V e1 e2 e3 N3 (associé aux classes Cl7,Cl8,Cl9) d7,d8,d9,e3 Étape 2: Election de la classe gagnante Construction du vecteur de localisation V V2 … Vn d7 d8 d9 P71 P72 … P7n P81 P82 … P8n P91 P92 … P9n e3

24 Insertion d’un nœud dans le réseau (2)
(associé aux classes Cl1,Cl2,Cl3) Étape 3: Notification de la classe gagnante Envoi du vecteur de localisation à N2 MAJ (Cl4) N2 (associé aux classes Cl4,Cl5,Cl6) Nœud entrant MAJ (Cl4) Cl4 Ordonnanceur N1 N2 N3 e1 e2 e3 e1 e2 e3 IP1 4 10 6 {IP2, IP6, IP10,…} IP2 6 8 15 Étape 4: Tri des nœuds mémorisés comme appartenant à Cl4 Récupération des k premières adresses N3 (associé aux classes Cl7,Cl8,Cl9) MAJ (Cl4)

25 Construction de la table de voisinage
Trouver un bon compromis entre des liens de voisinage intra et inter clusters Pour une table de voisinage de p adresses - Les k premiers nœuds du classement Intra-cluster Grille de neurones p - k nœuds parmi les clusters voisins Inter-cluster

26 Stratégies de clusterisation
Clusterisé optimisé Gnutella Clusterisé

27 Maintenance du système
Évolution de la taxonomie En cas de modification de la taxonomie, il est important de pouvoir répercuter ces modifications sur les vecteurs thématiques Régénération du Vecteur Thématique Dès que de nouvelles données sont insérées dans les sources, le Vecteur Thématique doit être mis à jour. Récupération d’un nouveau voisinage

28 Modèle de coût basé sur: Stage de DEA :
L’efficacité du traitement des requêtes de localisation Nombre moyen de rebonds nécessaires à la localisation des nœuds pertinents Courbes de Rappel / précision Coût de maintien du système Échanges de messages supplémentaires Stage de DEA : Comparaison de stratégies de clusterisation de réseau P2P par Julien Tanguy

29 Expérimentations Tests effectués Par prototypage
Simulateur réparti (communication UDP) Agents simulant les utilisateurs et les fournisseurs Données fictives Pondération aléatoire pour simuler les distances physiques Pour l’instant, jusqu’à 1000 nœuds (limite due aux nombres d’instances de médiateurs par noeud)

30 Performances (1) Rappel / Précision (moyenne sur 10 requêtes sur un réseau de 200 pairs)

31 Travaux connexes P2P dédié au partage de données P2P & Clustering
PeerDB Gossiping Edutella Piazza PIER PinS P2P & Clustering Semantic overlay network Semantic small world pSearch : clusterisation en fonction du contenu des données Propose un espace de représentation sémantique Technique de réduction de dimension Stratégie de partitionnement

32 Conclusion Architecture de médiation basée sur la complémentarité du pair-à-pair et des médiateurs Schémas facilitant les échanges entre pairs: Publication des données  Schéma publié Intégration dynamique des schémas publiés  Schéma thématique Schéma de médiation reflétant la réalité du réseau Service de classification distribué et adapté à l’organisation sémantique des nœuds d’un réseau P2P Classification consensuelle qui tient compte: de la distance sémantique entre les nœuds de la distance physique entre les nœuds

33 Questions ?


Télécharger ppt "Nicolas Lumineau Équipe Base de Données du LIP6"

Présentations similaires


Annonces Google