Exploitation de l’affinité dans les réseaux pair à pair Anne-Marie Kermarrec Projet PARIS INRIA Rennes/IRISA Porquerolles 2004 Good morning everyone. My name is AMK, I;m woth INRIA in Rennes, France. We’ve been discussing for almost 2 days now of the various faces of self-organizing systems. The moast popular instances of self-organizing systems are definitely today p2p overlays and their applications. \What I’m going to talk about today is rather than presenting a new idea, is to extract what has been going on recently in a number of work towards the clustering properties of such P2P overlays. Characterize clustering properties Make systems 13-15 Septembre 2004
Contexte Trafic P2P dominant sur Internet (60-70%) Application majeure déployée: systèmes de partage de fichiers Réseaux P2P génériques Auto-organisation & disponibilté Symétrie entre pairs/ équilibrage de charge Connaissance locale du système Les pairs ne sont pas tous égaux entre eux Proximité géographique Proximité sociale Proximité sémantique Exploitation de l’affinité entre pairs pour améliorer la performance, disponibilité… Mesure de la distance dépendante de l’application Ajouter ou remplacer des connections entre pairs 13-15 Septembre 2004
Réseaux pair à pair Site 2 N Site 3 N N ISP1 ISP2 N N ISP3 Site 4 N N Système distribué Absence de contrôle centralisé Auto-organisation Agrégation de ressource (bande passante, éléments de stockage et de calcul) Partage de fichiers Napster, Gnutella, Morpheus, KaZaA, EDonkey, etc Site 2 N Site 3 N N ISP1 ISP2 N N ISP3 Site 4 N N Site 1 13-15 Septembre 2004
Structuration des réseaux P2P Expansion incrémentale, passage à l’échelle Mise en oeuvre efficace de tels réseaux complexe Réseaux non structurés (Gnutella,Freenet) : construction aléatoire du graphe de connections Réseaux structurés (CAN,Chord,Pastry,Tapestry,PNRP) : structure conforme de graphe 13-15 Septembre 2004
Itinéraire Exploitation de la proximité géographique dans les réseaux de pairs Exploitation du réseau social ou amical Exploitation de la proximité d’intérêt dans les systèmes de partage de fichiers 13-15 Septembre 2004
Exploitation de la localité géographique Pas de corrélation à priori entre les liens logiques et le réseau sous-jacent Large surcoût Charge réseau Latence entre deux points Prise en compte de la topologie réseau dans le choix des liens 13-15 Septembre 2004
Réseau structuré : routage de proximité Espace géographique Pastry [Rowstron & Druschel 2001] d467c4 d471f1 d467c4 d462ba d46a1c IP*1.6 d4213f Route(d46a1c) d13da3 d4213f 65a1fc 65a1fc Espace de nommage d462ba 13-15 Septembre 2004 d13da3
Réseau non structuré Our take is to propose some loalisation which result in applying a loose structure on the nertwork so in that particular case we are interesting in two things: balancing the degree and take into account geographical locality k k j i j i Reconnexions locales [Massoulié, Kermarrec, Ganesh SRDS03] 13-15 Septembre 2004
2 – Exploitation des liens sociaux SPROUT (Social Path Routing) [Marti & al, IPTPS 2004] Limiter l’impact des utilisateurs malicieux Corrélation entre la fiabilité du routage et la distance sociale des pairs traversés Liens additionnels aux amis Utilisation des services Instant Messaging pour détecter cette proximité 13-15 Septembre 2004
SPROUT, Algorithme Mis en œuvre au dessus d’une DHT (Chord) Liens aux voisins séquenciels dans l’espace de nommage O(log(n)) liens distant Route (msg,k) Localisation des amis plus proches de k (<) Transmission à l’un d’eux le cas échéant Sinon utilisation standard de Chord Optimization Cache à plusieurs niveaux Minimum hop distance pour assurer un routage en O(log(n)) 13-15 Septembre 2004
Résultats Simulations 8 liens sociaux/nœud 130000 utilisateurs AOL 1000 pairs 40% de nœuds malicieux Distance moyenne Fiabilité moyenne Chord 5.343 0.3080 Chord augmenté 4.532 0.3649 SPROUT 4.569 0.4661 13-15 Septembre 2004
Détection de misconfigurations Friends troubleshooting network [Wand & al IPTPS04] Identification des misconfigurations par comparaison avec un ensemble de pairs de référence (statistiques) Détermination de cet ensemble Réseau P2P: liens entre machines reflète des liens réels entre les utilisateurs des machines 13-15 Septembre 2004
3 – Exploitation de la localité d’intérêt Applications de partage de fichiers Présence de localité d’intérêt Intuition confirmée par l’analyse des traces du réseau edonkey Forte corrélation entre les caches clients observés Tendance plus marquée pour les fichiers rares et audio Comment détecter cette affinité ? LRU [Sripanidkulchain & al 03] History [Voulgaris & al 04] Comment l’utiliser Amélioration des mécanismes de recherche 13-15 Septembre 2004
Création de liens sémantiques 13-15 Septembre 2004
Création de liens sémantiques Réseaux structurés et non structurés : 1ère phase avant la recherche classique Réseau hiérarchique: 1ère phase pour éviter les serveurs Evaluation des liens sémantiques Analyse de la popularités fournit des résultats similaires Dans Kazaa, exprimé en nombre de requêtes Dans eDonkey, exprimé en nombre de répliques Comportement Fetch-once [Gummadi & al SOSP03] Simulation des listes de requêtes Crawl des caches eDonkey (Nov 2003) 12,000 clients, 923,000 fichiers En collaboration avec S. Handurukande, F. Le Fessant et L. Massoulié (SIGOPS EW 2004) 13-15 Septembre 2004
Impact sur le taux de hit History-based Random LRU 60 50 40 Hits % 30 20 10 5 10 20 100 200 2000 Contacted Peers 13-15 Septembre 2004
Cliques sémantiques 2nd Hop Semantic One Hop Hits % List Size 80 70 60 50 Hits % 40 30 20 10 5 10 20 100 List Size 13-15 Septembre 2004
Generous uploaders syndrome 60 50 40 30 With All Uploaders Top 10% of Uploaders Removed Top 5% of Uploaders Removed 20 10 Top 15% of Uploaders removed 50 100 150 200 250 List Size (with LRU) 13-15 Septembre 2004
Liens raffinés With 1 cache for all files (LRU) One cache for Audio files (LRU) 60 50 40 Hits for Audio files % 30 20 10 5 10 20 Number of semantic links 13-15 Septembre 2004
Conclusion Les pairs ne sont pas tous égaux Nombreuses formes d’affinité émergent Exploitation de l’affinité améliore la performance Challenge: détecter et utiliser ces liens privilégiés sans compromettre les capacités de passage à l’échelle de ces réseaux Critères et détection de l’affinité propre à chaqueapplication Remise en cause des réseaux génériques ? 13-15 Septembre 2004
Symposium on Operating Systems Principles SOSP-20 SIGOPS Symposium on Operating Systems Principles October 23-26, 2005 The Grand Hotel, Brighton, United Kingdom Dependability and fault-tolerance Scalability and Performance Mobile computing Power Management Security System design Storage systems Sensor Networks Overlay networks etc… Submission deadline: March 25, 2005 http://www.sosp-20.com/ 13-15 Septembre 2004
Popularity patterns 13-15 Septembre 2004
Sharing patterns 13-15 Septembre 2004
Global clustering property 13-15 Septembre 2004
Clustering versus popularity 13-15 Septembre 2004