La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Olivier Soyez Directeurs de Thèse : Cyril Randriamaro – Vincent Villain Stockage dans les systèmes Pair à Pair.

Présentations similaires


Présentation au sujet: "Olivier Soyez Directeurs de Thèse : Cyril Randriamaro – Vincent Villain Stockage dans les systèmes Pair à Pair."— Transcription de la présentation:

1 Olivier Soyez Directeurs de Thèse : Cyril Randriamaro – Vincent Villain Stockage dans les systèmes Pair à Pair

2 2 Un pair? Internet

3 3 Emule

4 4 14 Millions dutilisateurs 1,4 Milliards de fichiers = Plusieurs Po

5 5 Pair à Pair (P2P) ? Qui possède les ressources qui alimentent le système ? lensemble des pairs

6 6 Plan Les systèmes de stockage Pair à Pair Le projet Us Politiques de distribution Conclusion / Perspectives

7 7 Applications du P2P Partage des fichiers Diffusion de MP3, DIVX Pionnier : Napster (Shawn Fanning) Emule (Open Source) Partage de CPU Applications scientifiques (Berkeley) Décrypthon (Téléthon) XtremWeb (Paris XI - LRI) Partage des disques

8 8 OceanStore (Berkeley) CFS (MIT) PAST (Rice) PASTA (Microsoft) Farsite (Microsoft) InterMemory (NEC) Ivy (MIT) PlanetP (Rutger U.) Mnemosyne (sprintlab) Clique (HP) Mammoth (BC U) Ficus (UCLA) Tornado (Tsing Hua U.)... Projet IRIS (12 M$) MIT, Berkeley, Rice,... (http://project-iris.net) Projet DELIS (http://delis.upb.de) Projet IRIS (12 M$) MIT, Berkeley, Rice,... (http://project-iris.net) Projet DELIS (http://delis.upb.de) Projets stockage P2P

9 9 Indexation centralisée IBP (LoCI) Intermemory (NEC) Indexation distribuée PAST (Rice) PASTIS (Paris VI - LIP 6) Ivy (MIT) OceanStore (Berkeley) Deux grandes classes DHT

10 10 Table de Hachage Distribuée (DHT) Ensemble des identifiants codés sur m bits

11 11 Modéle en couches (CFS : Chord File System ) Primitives simples (put, get) Table de hachage distribuée Application distribuée get (clé) donnée put(clé, donnée) Service de localisation lookup(clé) Adresse IP (Application) (DHT) (Overlay) Table de Hachage Distribuée (DHT) (Pairs) (Routage) (Pérennité)

12 12 Routage dynamique (Overlay) 0 2 m Chaque pair mémorise k pairs de distance 2 i, 1 i k Chord

13 13 Écriture dun fichier (DHT)

14 14 Lecture dun fichier (DHT) fichier 12? 12 14

15 15 Écriture dun fichier (DHT)

16 16 Pérennité? (DHT)

17 17 Le projet Us

18 18 Sauvegarde

19 19 Incident

20 20 Restauration

21 21 A)Réplication (DHT) - Données dupliquées : k fois - Espace utile : 1/k - Tolérance : k-1 pannes k = 2 vs (s,r)=(4, 4) Redondances B)Codes Correcteurs (Us…) - Données fragmentées : s - Redondance : r - Espace utile : s / (s+r) - Tolérance : r pannes Reconstruction = s quelconques parmi s+r

22 22 Redondance : vie des données ? Temps Fragments disponibles s+r s 0 Seuil critique Fragments d1 bloc avec s=3, r=5

23 23 Redondance + Maintien Temps s+r s 0 Fragments d1 bloc avec s=3, r=5 Fragments disponibles

24 24 Us = Disque Dur Virtuel P2P Pérenne

25 25 Architecture Us Système de fichier UsFS Client Us Utilisateur Us Fragments Blocs Fournisseur

26 26 Stockage dun fichier f=s+r fragments s fragments blocs fichier fragmentation redondance découpage Us UsFs

27 27 Distribution des données

28 28 Environnement Pair à Pair Pannes Déconnections fréquentes Couche communication Internet (ADSL) : Réception >> Envoi Bande passante limitée des Pairs Contexte Us

29 29 Chaque pair stocke 100 fragments de taille 1 Mo Un bloc est composé de f=31 fragments Régénérer un fragment perdu Envoi des f-1 fragments Exemple A la mort dun seul pair 100*30=3000 fragments 3 Go

30 30 Exemple 2 minutes ! 128 Kb 10 Mb 4 heures !

31 31 Coût de reconstruction élevé Nombreuses reconstructions Problématique XY Coût de reconstruction = Nombre maximum de fragments envoyés dans le pire des cas

32 32 Le coût de reconstruction est linéaire et facteur du nombre de blocs stockés Théorème du repliement XY Coût=2 X Y Trouver une distribution optimale de coût de reconstruction = 1

33 33 Maximiser le nombre de blocs Coût de reconstruction = 1 Intersection entre 2 blocs 1 Formulation du problème XY

34 34 Cas idéal BiBi BjBj Et ça, pour tous les pairs !

35 35 Trouver un ensemble maximal de listes de f éléments parmi N Intersection entre 2 listes distinctes 1 1 liste de f éléments = 1 bloc f=5 X : {1,2,3,4,5} et Y : {5,6,7,8,9} N = nombre total de pair Formulation mathématique SOLUTION ?

36 36 Plan affine fini dordre n Nombre de points = n² Nombre de lignes = n²+n Intersection entre 2 lignes 1 pairs N= n² blocs NB= n²+n blocs (=f) f²+f f²

37 37 Contraintes f fixé : puissance dun nombre premier Paramètre modulable du système N fixé : dépendant de f Hypothèse non acceptable Pas toujours de solution Bilan Chercher la limite théorique du problème Proposer une heuristique de distribution

38 38 Schonheim (1966) Limite théorique du problème Trouver une distribution qui approche le plus possible le nombre de blocs stockés NB max : la distribution pseudo-affine * C. Randriamaro, O. Soyez, G. Utard and F. Wlazinski Data distribution in a peer to peer storage system Actes de GP2PC05, mai 2005 *

39 39 Détermine le + grand nombre premier p1 f p1 N/f nombre d = 0 p1 matrices d = 1 + matrices d = 0 Distribution pseudo-affine 1 p1+1 2p1+1 … (f-1)p1+1 1 p1+2 2p1+2 … (f-1)p1+2 1 p1+3 2p1+3 … (f-1)p1+2 1 … … … … 1 p1+ p1 2p1+ p1 … (f-1)p1+ p1 p1 lignes f colonnes

40 Distribution pseudo-affine f=5 (fragments) et N=40 (pairs) p1=

41 41 Distribution pseudo-affine f=5 (fragments) et N=40 (pairs) p1=

42 42 Distribution pseudo-affine f=5 (fragments) et N=40 (pairs) p1= NB p1 =p1²

43 43 Arithmétique modulaire Théorie des nombres premiers Solution f nombre premier Pour tout N Asymptotiquement optimale Optimale N multiple de f² Distribution pseudo-affine * C. Randriamaro, O. Soyez, G. Utard and F. Wlazinski Data distribution in a peer to peer storage system Actes de GP2PC05, mai 2005 *

44 44 Analyse Limite théorique Distribution pseudo-affine Nombre de pairs (N) Nombre de blocs (NB)

45 45 Distribution DHT = Aléatoire

46 46 Comparaison Nombre de pairs (N) Coût de reconstruction Distribution aléatoire Limite théorique Distribution pseudo-affine

47 47 Corrélation des pannes

48 48 Corrélation des pannes ECHEC PERENNITE X Y

49 49 Métapairs Regroupement de Pairs Corrélation des pannes * Rapprochement topologique Métapair = + proche géographiquement Architecture à 2 niveaux Métapairs Pairs C. Randriamaro, O. Soyez, G. Utard and F. Wlazinski Data distribution for failure correlation management in a peer to peer storage system Actes de GP2PC05, mai 2005 *

50 50 Métapairs Association de la distribution pseudo-affine et dune distribution aléatoire

51 51 Pseudo-affine sur Métapairs Blocs Métapairs Pairs

52 52 Exemple avec f=3 9 pairs répartis dans 3 Métapairs Taille des Métapairs = MP 1MP 2 MP 3 MP 1 MP 2 MP 3

53 53 Exemple avec f=3 Répartition cyclique MP 2 MP 3 MP 1 MP 1 MP 2 MP 3

54 54 Exemple avec f=3 Algorithme de la distribution pseudo-affine MP 2 MP MP 1 MP 2 MP MP 1

55 55 Analyse (1) Nombre de pairs (N) Coût de reconstruction

56 56 Analyse (2) Temps Coût de reconstruction Distribution aléatoire RSUW05 avec 7 Métapairs RSUW05 avec 294 Métapairs

57 57 Développements Us (Java) Prototype fonctionnel UsFS (C) Système de fichier Module noyau Journalisation Espace Utilisateur Noyau ls –l /home/oli/UsFS glibc libfuse UsFS /home/oli/UsFS glibc VFS NFS Fuse Ext3

58 58 Conclusion / Perspectives Distribution pseudo-affine Coût de reconstruction Corrélation des pannes Etude quantitative de la pérennité de la distribution Métapairs Expérimentation à grande échelle Grid5000 Etude comportementale des pairs Profil utilisateur


Télécharger ppt "Olivier Soyez Directeurs de Thèse : Cyril Randriamaro – Vincent Villain Stockage dans les systèmes Pair à Pair."

Présentations similaires


Annonces Google