La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

M2 TI 1 Systèmes dInformation Distribués et Collaboratifs CM 2 : Mercredi 30 septembre 2009.

Présentations similaires


Présentation au sujet: "M2 TI 1 Systèmes dInformation Distribués et Collaboratifs CM 2 : Mercredi 30 septembre 2009."— Transcription de la présentation:

1 M2 TI 1 Systèmes dInformation Distribués et Collaboratifs CM 2 : Mercredi 30 septembre 2009

2 Les architectures P2P Les architectures P2P non structurées Les réseaux « pur » pair à pair Les architectures P2P hybrides Les réseaux hiérarchiques Les architectures P2P structurées Les réseaux à base de Distributed HashTable (DHT)

3 Ce que nous allons voir Description des architectures P2P non structurées Caractéristiques Protocole de connexion Construction de la table de voisinage Protocole de communication Architecture dun pair Localisation de lInformation dans les P2P non structurées Stratégies de réplication Stratégies à laveugle Stratégies de routage Stratégies dauto-organisation

4 Description des architectures P2P non structurées

5 Caractéristiques du P2P non structuré Respect du paradigme du P2P Principe dégalité entre les nœuds Même capacité (puissance, bande passante, …) Même comportement (également client et serveur) et bon comportement (pas de « mensonge ») Principe de requêtes « populaires » Les ressources très demandées sont très répliquées Les requêtes concernent principalement peu de ressources Principe de topologie du réseau Graphe entre pairs variant au fur et à mesure des connexions et des déconnexions

6 Tables de voisinage Associée à chaque nœud Représente la seule connaissance disponible du réseau A B C Table @D D

7 Serveur dédié Principe de connexion au réseau (1) « Il faut connaître et se faire connaître» Etape 1 Pour participer, un nœud doit se connecter à des serveurs spécialisés capables de renvoyer une liste des nœuds connus (1 ère connexion) ou réutiliser la liste des nœuds utilisés lors de la précédente connexion. Remarque : Le réseau étant dynamique, pas de garantie que la liste des nœuds retournée au nœud entrant soit constituée que de nœuds réellement connectés => Vérification par une communication Ping/Pong des nœuds réellement connectés Ping Pong F Nœuds connus Ping Pong Dem. Con.

8 Principe de connexion au réseau (2) Etape 2 : Mise à jour des tables de voisinage Table de voisinage du pair entrant «connaitre» Table de voisinage des pairs déjà connectés «se faire connaitre» F B G H

9 Algorithme de sélection des voisins Expanding ring search Envoi de messages par inondation aux voisins potentiels, puis calcul des temps de latence (RTT) Le pair entrant choisit comme voisins les pairs les plus rapides à répondre Quelles sont les limites de lapproche précédente ?

10 Localisation des ressources Pour la localisation : Propagation à laveugle des messages Principe Chaque nœud propage la requête à ses voisins Le nombre de rebonds logiques est limité par le TTL : Time To Live (en général à 7) Détection de cycles grâce à lidentificateur des paquets

11 Illustration du processus dinondation TTL=4 TTL=3 TTL=2 TTL=3 TTL=2 TTL=1 TTL=0 A B H F C D E G I J K L : message : message traité : message non traité : pairs stockant des données pertinentes

12 Pourquoi passer par le chemin inverse ? TTL=4 TTL=3 TTL=2 TTL=3 TTL=2 TTL=1 TTL=0 A B H F C D E G IJ K L : message : message traité : message non traité : pairs stockant des données pertinentes Pour des raisons danonymat du nombre de connexions (cas de données très populaires) Car sinon…

13 Types de messages TypesDescription Information PingAnnonce disponibilité et lance vide recherche nouveaux pairs PongRéponse à un pingAdresse IP + N°port; nombre et taille de fichiers partagés QueryRequêteBande passante minimum demandée; critère de recherche QueryHitRéponse à Query si on possèdeAdresse IP + N°port et la ressourcebande passante; Nb de réponses + descripteurs PushDemande de téléchargement pourId. du pair; index du fichier pairs derrière un firewalldemandé; adresse IP et N° port où envoyer le fichier

14 Remarque Le recouvrement du réseau dépend de : la durée de vie des messages TTL : nombre de rebonds logiques possibles RTT : temps dattente tolérée La topologie du réseau B C D A B C D A

15 Architecture générale dun pair Gestionnaire de Messages Pair Interface Utilisateur Requête Ressources locales Table de voisinage Exécuteur requête Récepteur requête Transmetteur résultat Diffuseur requête Récepteur de résultat Résultat Requête Requête Requête Gestionnaire des chargement Demande Service de téléchargement Ressource

16 Bilan Les avantages Chaque pair est autonome Pas de coût dindexation des données Les inconvénients Pas de garantie de trouver une ressource qui pourtant est stockée sur le réseau Multiplication des messages échangés à travers le réseau

17 Exemple de système P2P non structuré Gnutella Complètement décentralisé Très tolérant aux fautes Sadapte bien à la dynamique du réseau Gros consommateur de bande passante Pas de garantie de succès, ni destimation de la durée des requêtes Pas de sécurité, ni de réputation (pas de notion de qualité des pairs ni des données fournies) Simple, robuste, passe léchelle (pour le moment)

18 Première conclusion Les architectures P2P non structurées Une application directe du paradigme du P2P Chaque pair : À la fois client et serveur Est autonome en terme de stockage des ressources A pour unique connaissance du réseau : son voisinage logique Problèmes : Nombreuses limitations dues Au nombre de messages échangés Efficacité du processus de localisation

19 Localisation de lInformation dans les P2P non structurées

20 Comment améliorer ces performances ? Exploiter la réplication Trouver rapidement une réplique Trouver une alternative à linondation Réduire le nombre de messages échangés Avoir une stratégie de routage des messages Aller plus rapidement vers les pairs pertinents Avoir un stratégie dorganisation du réseau Regrouper les pairs qui ont des données dintérêt commun

21 Stratégie de réplication

22 La réplication en P2P Améliore la recherche Plus il y a de répliques distribuées à travers le réseau, plus on augmente les chances den trouver une rapidement Mais aussi : Améliore la disponibilité des données Améliore la répartition de charge

23 A propos de la réplication Les questions à se poser : Combien de répliques sont nécessaires pour minimiser le coût de la recherche ? Où stocker les répliques ? On considère n nœuds {n i } 1 i n. On suppose vouloir stocker m données : {d i } 1 i m On pose : R : la capacité totale de stockage du système r i : le nombre de nœuds stockant une réplique de la donnée d i q i. : le taux dinterrogation de la donnée d i On suppose que : On définit : La taille de recherche moyenne de la donnée d i est le nombre moyen de nœuds visités jusquà ce que la donnée soit trouvée : A i = n / r i La taille de recherche moyenne globale de toutes les données est :

24 Méthodes de réplication Réplication uniforme Toutes les données sont indifféremment répliquées. r i = R/m A uniforme = n.m / R Taille de recherche moyenne indépendant de q i Approche simpliste, minimise le pire cas de recherche Réplication proportionnelle La réplication des données est fonction du taux de requêtes portant sur ces données. r i = R.q i A proportionnelle = n.m / R Taille de recherche moyenne indépendant de q i et identique à la stratégie uniforme Approche plus naturelle et juste, reflétant lutilisation du réseau

25 Taux dutilisation des répliques Taux dutilisation dune requête: Taux de requêtes auxquels une réplique de la donnée d i répond. Pour la donnée d i, on a : U i = R. q i / r i Réplication uniforme U i =m.q i Les réplicas de données populaires ont un fort taux dutilisation Réplication proportionnelle U i =1 Toute les répliques ont le même taux dutilisation

26 Réplication optimale : Square-root La taille de recherche moyenne est minimale si : (Admis ou cf B.Cooper) A optimal = U i = Résultat Le taux dutilisation varie moins que dans la stratégie uniforme Le taux de recherche moyenne varie moins que dans la stratégie proportionnelle

27 Propagation à laveugle

28 Alternatives à linondation Sans ajout dinformation Inondation graduelle Variation du TTL Marche aléatoire Filtrage des voisins

29 Inondation graduelle Variation du TTL initiale Etape 1 : TTL = 1 Si pas de résultats, TTL = 2 … TTL=1 TTL=0 A B H TTL=2 TTL=1 TTL=0 TTL=1 TTL=0 A B H F C I Etape 1 Etape 2 Approche valable si les données sont fortement répliquées et que la probabilité de trouver les données pertinentes sur les pairs proches est élevée

30 Marche aléatoire (1) Principe de non diffusion à tous les voisins Sélection aléatoire du/des voisins à qui lon propage la requête TTL=4 TTL=3 TTL=2 TTL=1 TTL=0 A B H F C D E G I J K L : message : message traité : pairs stockant des données pertinentes Réduction positive du nombre global de messages échangés, MAIS réduction de la complétude des recherches

31 Marche aléatoire (2) La charge du réseau est clairement réduite mais les délais de retour augmentent de manière significative. En augmentant le nombre de marcheurs l'augmentation des délais peut être contrôlée. Les expérimentations ont montré qu'en adaptant le nombre de marcheurs en fonction du TTL des messages, la marche aléatoire gère mieux la large échelle que l'inondation pure.

32 Stratégies de routage

33 Alternative à linondation et laléatoire : le routage Inondation, inondation graduelle, marche aléatoire avec un ou plusieurs marcheurs … sont des techniques de diffusion des messages à laveugle basées sur laléatoire Il faudrait avoir une véritable stratégie de sélection des voisins à qui transmettre les résultats ! Choisir le ou les voisins les plus pertinents => exprimer et exploiter la notion de pertinence => définir une représentation sémantique des pairs

34 Information sémantique Sur le contenu des nœuds (index) Les pairs ont un contenu supposé homogène Possibilité davoir une vision thématique dun pair Routage basé sur les comparaisons requête/index Sur les requêtes Les requêtes diffusées sur le réseau sont supposées se ressembler Routage basé sur les comparaisons requête/requête Sur les utilisateurs Les utilisateurs sont supposés avoir toujours les mêmes besoins Routage basé sur les comparaisons utilisateur/utilisateur

35 « Routing Indices » Introduire de linformation sur le contenu des nœuds (index) Statistiques sur ce que contient le pair Statistiques sur ce que contiennent les voisins du pair Analogue aux systèmes dindex répartis et hiérarchisés pour moteurs de recherche sur Internet Trouver léquilibre entre la taille de lindex et le gain

36 Exemple de « RI » A B C D E F G H I J CheminNb documents BDRéseauxThéorielangages B C D RI pour nœud A

37 Utilisation de lindex Soit Q une requête, conjonction de plusieurs termes de recherche (t Q 1, …t Q k ) Le calcul de proximité : Proximité(Q, chemin) = NbDoc X i (RI(t Q i )/NbDoc) Exemple Q émise sur A = (BD, langages) A peut calculer : Proximité(Q, B) = 100 X 20/100 X 30/100 = 6 Proximité(Q, C) = 1000 X 0/1000 X 50/1000 = 0 Proximité(Q, D) = 200 X 100/200 X 150/200 = 75 Permet dordonner les nœuds successeurs

38 Routage grâce au RI A B C D I J #BDRTL I D #BDRTL J D #BDRTL A B C D #BDRTL D A I J Q=(BD, L) Si aucun résultat pertinent retourné par I Si aucun résultat pertinent retourné par D

39 Algorithme de recherche Résoudre Q localement. Si suffisamment de résultats OK, Sinon Tant quil ny a pas assez de résultats Évaluer proximité des successeurs Prendre le successeur non exploré S le plus proche, si vide retour Recherche(Q, S)

40 Performances de la recherche Par rapport à Gnutella diminue le nombre de messages Exploration restreinte aux nœuds ayant la plus grande probabilité de succès Pas dinformation sur le nombre de sauts nécessaires (améliorations possibles avec dautres RI) Pas de garantie davoir tous les résultats Plutôt orienté recherche des k meilleurs résultats

41 Mise à jour des RI (1) A B C D I J #BDRTL A B C #BDRTL D I J #BDRTL I D #BDRTL J D Etat initial

42 Mise à jour des RI (2) A B C D I J #BDRTL A B C #BDRTL D I J A veut se connecter à D ! Etape 1 : Création des vecteurs agrégés #BDRTL I D #BDRTL J D

43 Mise à jour des RI (3) A B C D I J A veut se connecter à D ! Etape 2 : Mise à jour des RI de A et de D #BDRTL A B C D #BDRTL D A I J #BDRTL I D #BDRTL J D

44 Mise à jour des RI (4) A B C D I J #BDRTL I D #BDRTL J D A veut se connecter à D ! Etape 3 : Propagation des mise à jour #BDRTL A B C D #BDRTL D A I J Agr(A,D,J) Agr(A,D,I) Agr(A,D,C) Agr(A,D,B)

45 Variante Tenir compte du nombre de rebonds logiques dans le tableau dindices

46 Bilan des Routing Indices Avantages Structure dindexation assez simple Fonctionne bien pour obtenir les meilleurs résultats Inconvénients La mise à jour génère beaucoup de messages On nobtient pas forcement tous les résultats Sapplique à des langages plus complexes Pour types mots-clés mais pas généralisable à des traiter des graphes généraux, il faut intégrer la gestion des cycles (détection ou prévention)

47 Auto-organisation du réseau Clustering de pairs

48 Intérêt de lauto-organisation Facilité dutilisation Administration locale automatique Pas dadministration globale Gestion automatique de la dynamicité Volatilité des machines Déconnexions violentes Découverte de ressources automatique Annonce automatique

49 Motivation TTL=4 TTL=3 TTL=2 TTL=3 TTL=2 TTL=1 TTL=0 A B H F C D E G I J K L : message : message traité : message non traité : pairs stockant des données pertinentes Sans politique de regroupement des pairs

50 Motivation (2) TTL=4 TTL=3 TTL=2 TTL=3 TTL=2 TTL=1 TTL=0 A F J L C D E G I H K B : message : message traité : message non traité : pairs stockant des données pertinentes Avec politique de regroupement des pairs

51 Problèmes liés au regroupement de pairs Forte interconnexion entre des sous-ensembles de pair Transitivité des distances sémantiques Rapprochement logique de pairs physiquement proches Latence des retours de résultats 1 Rebond : 4 pairs touchés 2 rebonds : 1 pair touché 3 rebonds : 1 pair touché …. A F J L C D E G I H K B

52 Réseau des petits mondes (small-world) Issue des sciences sociales Propriétés Graphe connecté dont la distance entre deux nœuds choisi aléatoirement est faible Coefficient de clustering élevé (# de connections actives important) Construction Chaque pair est connecté à un ensemble de pairs voisins Chaque pair dispose de liens vers des nœuds distants

53 Liens courts / liens longs

54 Les propriétés small world Deux propriétés essentielles Regroupement maximal Mes voisins se connaissent entre eux Chemin minimal La distance entre deux nœuds du graphe est faible Dans lidéal, pour un graphe G=(E,V), max i,j V (min(Path(i,j)) est le plus petit possible Ces propriétés permettent de mettre en œuvre des hubs dinformation Des nœuds très communicants, connaissant beaucoup de voisins lointains Permet de rester « scalable », en O(log(N))

55 Tour dhorizon Regroupement sémantique des pairs, selon: Leur contenu Données Thématique : SON[cre01], MEnT2 [lum03] Métadonnées Schémas / Ontologies : Xylème[clu01], Edutella [nej03] Mappings : Semantic Gossiping [abe03], PeerDB [00i03], Piazza [tat03] Leur propriétés physiques Capacité/Comportement Approches hiérarchiques Gnutella 0.6 [gnu],[nta04] Localisation géographique Approches topologiques [rat02],[cas02],[cai04] Leur usage Intérêt / Popularité Approches collaboratives [Iam 02],[man02],[dan04],[lum04]

56 Approche Ultra-Pair (Gnutella 6.0) Les ultra-pairs sont des pairs qui disposent de bonnes capacités (bandes passantes) et par qui le traitement des messages est efficace. Les pairs nont pour voisin quun ultra-pair et pas dautres voisins (ils ne propageront donc pas le message) pair ultra-pair

57 Semantic Overlay Networks Principe Classifier lensemble des nœuds via une classification « sémantique » (ex: genres de musiques) Un même nœud peut se trouver dans plusieurs classes Selon la requête, on sélectionne le ou les SON susceptibles dy répondre au mieux

58 Exemple de SON AC B E G F D H Rock Country Jazz Rap Un nœud est logiquement relié à un autre, par un lien : (n i, n j, l k ). Ex : (A, B, Rock) Les nœuds ayant le même l forment un SON

59 Problématique des SON Un SON avec un seul label est un P2P classique Une fois le label choisi (en fonction de la requête), on a un P2P classique Comment définir le SON ?

60 Processus de génération dun SON Définition SON Classification requête Classification document Classification noeud requête résultats Hiérarchie concepts Distribution Des données SON Nouveaux noeuds

61 Exemple de classification Music Rock Jazz PopDanceSoftNew OrleansBopFusion Style Sous-style Un concept = un SON

62 Association des nœuds aux SON Repose sur un classifieur de documents Si un document du nœud correspond : favorise la complétude, mais augmente le coût de la recherche Si k documents du nœud correspondent : diminue la complétude, mais diminue le coût de la recherche Résolution dune requête Cherche le(s) concept(s) correspondant à la requête Propage la requête dans le SON + ascendants + descendants

63 Principe de recherche Classification requête Nœud i requête SON i SON k

64 Choix de la classification « bonne » hiérarchie de classification Classes dont les documents appartiennent à un petit nombre de nœuds Les nœuds se trouvent dans peu de classes Classifieurs faciles à construire et les plus fiables possibles

65 Bilan SON Repose sur la classification Lié à un domaine précis Favorise la précision, mais pas la complétude Peut se paralléliser pour obtenir rapidement des réponses (requête lancée dans chaque SON sélectionné par le classifieur) Les résultats expérimentaux montrent une amélioration notable en nombre de messages par rapport à Gnutella.

66 Bibliographie B. Yang, H. Garcia-Molina. Improving Search in Peer-to-Peer Systems, Proc. 28th Conf. On Distributed Computing Systems, 2002 Gnutella : K. Aberer et al. Improving Data Access in P2P Systems, IEEE Internet Computing, January 2002 B. Yang, H. Garcia-Molina. Comparing Hybrid Peer-to-Peer Systems, Proc. VLDB Conference, 2002 B. Yang, H. Garcia-Molina. Designing a Super-Peer Network, Proc. ICDE Conf., 2003 A. Crespo, H. Garcia-Molina. Routing Indices for Peer-to-Peer Systems, Proc. ICDCS 2002 P. Haase, R. Siebes. Peer Selection in Peer-to-Peer Networks with Semantic Topologies, Proc. WWW Conf., 2004 H. T Shen, B. Yu. Efficient Semantic-Based Content Search in P2P Network, IEEE TKDE 16(7), 2004


Télécharger ppt "M2 TI 1 Systèmes dInformation Distribués et Collaboratifs CM 2 : Mercredi 30 septembre 2009."

Présentations similaires


Annonces Google