La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Caches adaptables et applications aux systèmes de gestion de données répartis à grande échelle D’ORAZIO Laurent Sous la direction de Claudia RONCANCIO.

Présentations similaires


Présentation au sujet: "Caches adaptables et applications aux systèmes de gestion de données répartis à grande échelle D’ORAZIO Laurent Sous la direction de Claudia RONCANCIO."— Transcription de la présentation:

1 Caches adaptables et applications aux systèmes de gestion de données répartis à grande échelle D’ORAZIO Laurent Sous la direction de Claudia RONCANCIO Cyril LABBÉ Grenoble, lundi 17 décembre 2007

2 2 Grille informatique Besoins en puissance de calcul et de stockage –Physique –Météorologie –Biologie : décryptage de génome –Imagerie médicale –Etc.

3 3 Caractéristiques de la gestion de données sur grille Partage de ressources –Grappe (cluster) : ensemble de nœuds –Grille : grappe de grappes

4 4 Problèmes liés à la gestion de données sur grilles ????? Dispersion géographique, volumes importants de données,

5 5 Problèmes liés à la gestion de données sur grilles Dispersion géographique, volumes importants de données, nombreux clients

6 6 Problèmes liés à la gestion de données sur grilles Dispersion géographique, volumes importants de données, nombreux clients, variabilité

7 7 Objectif de la thèse Optimiser la gestion de données sur grilles Utilisation de caches au niveau intergiciel Réduire les temps d’attente Augmenter la disponibilité

8 8 Exemple de données dans une application bio-informatique ID104K_THEPA STANDARD; PRT; 924 AA. ACP15711; DT01-APR-1990 (Rel. 14, Created) DT01-APR-1990 (Rel. 14, Last sequence update) DT10-MAY-2005 (Rel. 47, Last annotation update) DE104 kDa microneme-rhoptry antigen. OSTheileria parva. OCEukaryota; Alveolata; Apicomplexa; Piroplasmida; OCTheileria.... SQ MKFLILLFNILCLFPVLAADNHG...HICKMVYHKNV Swiss-Prot –210 000 entrées –750 Mb Intergiciel Gedeon Système de fichiers pour grilles avec capacités d’interrogation par requêtes déclaratives Donnée Méta-données Identifiant

9 9 Plan de la présentation Caches et interrogation de données Service de caches adaptables et caches pour l’interrogation de données Applications à la gestion de données bio-informatiques sur grille Conclusions et perspectives

10 10 Plan de la présentation Caches et interrogation de données –Notion de cache –Caches coopératifs –Caches sémantiques Service de caches adaptables et caches pour l’interrogation de données Applications à la gestion de données bio-informatiques sur grille Conclusions et perspectives

11 11 Notion de cache Cache année=2006{enr-P15711, enr-Q43495} Source de données année = 2006 Défaut Motivations –Optimisation des performances Accès rapide –Support physique –Placement Réduction de la charge –Sur les serveurs –Sur les réseaux –Disponibilité

12 12 Notion de cache Cache année=2006{enr-P15711, enr-Q43495} année = 2006 Succès Motivations –Optimisation des performances Accès rapide –Support physique –Placement Réduction de la charge –Sur les serveurs –Sur les réseaux –Disponibilité Source de données

13 13 Caches adaptables Besoin de nombreux caches + conception complexe  coût de développement élevé Efficacité dépendante de la configuration par rapport au contexte Hétérogénéité des grilles (Données, Matériels, Clients) Cache adaptable Serveurs

14 14 Limites des caches adaptables pour la gestion de données sur grille Non adaptables aux variations de l’environnement Serveurs

15 15 Limites des caches adaptables pour la gestion de données sur grille Non adaptables aux variations de l’environnement Non utilisation des capacités locales pour l’évaluation Non utilisation des ressources des autres caches

16 16 Cache coopératif [Dahlin94] [Chankhunthod96] Profiter des ressources d’autres caches Avantages –Répartition des transferts de données –Réduction de la charge sur les serveurs –Augmentation de la disponibilité Source de données Cache Caches coopératifs Caches coopératifs ?

17 17 État de l’art des caches coopératifs Caches répartis [Braun95] Principe général Distribution des requêtes Aléatoire Tourniquet En fonction des demandes En fonctions des clients Etc. Inconvénient Caches proches physiquement Source de données Cache réparti Cache réparti Cache réparti Cache réparti

18 18 État de l’art des caches coopératifs Résolution verticale [Chankhunthod96] Principe général Résolution par des parents Inconvénients –Charge sur les parents –Sensibilité Source de données Cache parent Cache

19 19 État de l’art des caches coopératifs Résolution horizontale Principe général Résolution par des frères Protocoles –Inondation [Chankhunthod96] –Catalogue [Fan98] Inconvénient Gestion dans un environnement grande échelle Source de données Cache frère Cache frère Cache frère Cache frère Cache frère Cache frère

20 20 Limites des caches coopératifs pour la gestion de données sur grilles Configuration complexe dans un environnement grande échelle Gestion des coopérations à grande échelle Non utilisation des capacités locales pour l’évaluation

21 21 Cache sémantique [Dar96] [Keller96] Profiter des capacités locales d’évaluation –Réduction de la charge sur les serveurs –Réduction des transferts de données –Augmentation de la disponibilité Principes –Gestion de résultats de requêtes –Décomposition des requêtes posées Requête de consultation Requête restante Cache sémantique DT>2005{enr-P15711, enr-Q43495} Consultation DT>2005 Source de données Restante : DT>2000  DT<2005

22 22 État de l’art des caches sémantiques Gestion de la sémantique Évaluation –Sélection [Dar96] –Projection [Ren03] –Jointure [Keller96] –Requête de localisation [Zheng01] Analyse [Godfrey97] –Équivalence –Inclusions –Recouvrement partiel Équivalence  succès étendu E : année = 2006 Q : année 2005 Entrée Requête Entrée Requête dans entrée  succès étendu E : année = 2006 Q : année=2006  auteur= «Blanchet» Entrée Requête Entrée dans requête  succès partiel E : année = 2006 Q : année > 2005 RequêteEntrée Recouvrement partiel  succès partiel E : auteur = « Blanchet »  année = 2006 Q : auteur = « Blanchet »  espèce = virus

23 23 État de l’art des caches sémantiques Gestion des régions Résultats de requêtes [Dar96] –Agrégation des objets –Duplication dans le cache –Mélange calculs et données Prédicats et objets [Keller96] –Pas de duplication dans le cache –Pas d’agrégation des objets –Synchronisation forte prédicats / objets  Mélange calculs et données Cache de résultats de requêtes année=2006{enr-P15711, enr-Q43495} année=2010{} espèce=virus{enr-P15711, enr-P13813} auteur=Blanchet{enr-P13813, enr-P19084} Cache de prédicats et d’objets année=2006{P15711, Q43495} année=2010{} espèce=virus{P15711, P13813} auteur=Blanchet{P13813, P19084} P15711enr-P15711 Q43495enr-Q43495 P13813enr-P13813 P19084enr-P19084

24 24 Limites des caches sémantiques pour la gestion de données sur grilles Configuration complexe dans un environnement grande échelle Mélange calculs et données Non utilisation des ressources des autres caches

25 25 Caches pour la gestion de données sur grille Caches adaptables –Gestion de la sémantique –Gestion de la coopération –Adaptabilité dynamique Caches sémantiques –Séparation contenu et sémantique –Séparation données et évaluations Caches coopératifs –Utilisation des capacités d’évaluation –Gestion de la coopération à grande échelle

26 26 Plan de la présentation Caches et interrogation de données Service de caches adaptables et caches pour l’interrogation de données –ACS (Adaptable Cache Service) –Cache sémantique pour grille –Réseaux de caches dans des environnements grande échelle Applications à la gestion de données bio-informatiques sur grille Conclusions et perspectives

27 27 ACS (Adaptable Cache Service) Objectif Construction de caches Adaptés Reconfigurables dynamiquement Choix d’architecture –Canevas logiciel Capture des fonctionnalités (cohérence non considérée) Capture des interactions entre les fonctionnalités –Composants logiciels Paramétrisation Modularité Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Gestionnaire de résolution Gestionnaire d’analyse Gestionnaire d’évaluation Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Résolution Source 1 Contenu hachage Cache élémentaire Remplacement LRU Résolution Source 2 Remplacement SIZE

28 28 Prototype d’ACS Architecture du canevas –Java + Fractal –Interfaces + patrons d’interactions –Bibliothèque de composants

29 29 Construction à l’aide d’ACS d’un cache pour l’application bio-informatique Remplacement LRU Cache élémentaire Contenu hachage Résolution grille Admission taille Composants réutilisés Composants spécifiques Réutilisation de code = 88 % Cache année=2006{enr-P15711, enr-Q43495}

30 30 ACS et gestion de la sémantique Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Gestionnaire de résolution Gestionnaire d’analyse Gestionnaire d’évaluation Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Cache sémantique Gestionnaire d’évaluation , , TRIS, etc. Évaluation , , TRIS, etc. Gestionnaire d’analyse , ,  Analyse , ,  Gestionnaire cache sémantique

31 31 Construction à l’aide d’ACS d’un cache de résultats de requêtes pour l’application bio-informatique Gestionnaire d’analyse ,  Gestionnaire d’évaluation  Cache de résultats de requêtes année=2006{enr-P15711, enr-Q43495} année=2010{} espèce=virus{enr-P15711, enr-P13813} auteur=Blanchet{enr-P13813, enr-P19084} Gestionnaire de remplacement Gestionnaire de contenu Gestionnaire de résolution Gestionnaire d’analyse Gestionnaire d’évaluation Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Évaluateur Gedeon  Analyse vecteurs ,  Gestionnaire cache sémantique Réutilisation de code = 81 %

32 32 Construction à l’aide d’ACS d’un cache de prédicats et d’objets pour l’application bio-informatique Gestionnaire d’analyse ,  Gestionnaire d’évaluation  Cache sémantique Cache de prédicats et d’objets année=2006{P15711, Q43495} année=2010{} espèce=virus{P15711, P13813} auteur=Blanchet{P13813, P19084} P15711enr-P15711 Q43495enr-Q43495 P13813enr-P13813 P19084enr-P19084 Gestionnaire de remplacement Contenu prédicats / objets Gestionnaire de résolution Gestionnaire d’analyse Gestionnaire d’évaluation Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Évaluateur Gedeon  Analyse vecteurs ,  Gestionnaire cache sémantique Réutilisation de code = 100 %

33 33 ACS et caches répartis Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Gestionnaire de résolution Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Cache réparti Source de données Cache réparti Cache réparti Cache réparti Cache réparti

34 34 ACS et caches avec résolution verticale Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Résolution cache parent Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Source de données Cache parent Cache

35 35 ACS et caches avec résolution horizontale Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Résolution Inondation / catalogue Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Source de données Cache frère Cache frère Cache frère Cache frère Cache frère Cache frère

36 36 ACS et caches sémantiques coopératifs Gestionnaire de remplacement Gestionnaire de cache Gestionnaire de contenu Résolution horizontale inondation Gestionnaire d’analyse Gestionnaire d’évaluation Gestionnaire d’admission Fonctionnalités élémentaires Fonctionnalités optionnelles Évaluation , , etc. Analyse , ,  Gestionnaire cache sémantique Source de données Cache frère Cache sémantique coopératif Cache frère Cache frère Cache frère Cache frère Cache frère

37 37 Caches pour la gestion de données sur grille Caches adaptables –Gestion de la sémantique  –Gestion de la coopération  –Adaptabilité dynamique  Caches sémantiques –Séparation contenu et sémantique  –Séparation données et évaluations Caches coopératifs –Utilisation des capacités d’évaluation  –Gestion de la coopération à grande échelle

38 38 Cache dual Caches indépendants –Cache de requêtes  évaluations –Cache d’objets  données Avantages –Conservation d’évaluations sans les objets –Pas de duplication d’objets –Configuration fine du cache dual (stratégie des caches) Limites –Pas d’agrégation –Accès par requête et par identifiants Cache de requêtes année=2006{P15711, Q43495} année=2010{} espèce=virus{P15711, P13813} auteur=Blanchet{P13813, P19084} Cache d’objets P15711enr-P15711 Q43495enr-Q43495 P18646enr-P18646 Q9XHP0enr-Q9XHP0 Serveurs Requête {identifiant}

39 39 Cache dual sémantique Cache dual Cache de requêtes année=2006{P15711, Q43495} année=2010{} espèce=virus{P15711, P13813} auteur=Blanchet{P13813, P19084} Cache d’objets P15711enr-P15711 Q43495enr-Q43495 P18646enr-P18646 Q9XHP0enr-Q9XHP0 Gestionnaire d’analyse Gestionnaire d’évaluation Gestion de la sémantique –Analyse et cache de requêtes Équivalence Inclusions Recouvrements partiels –Évaluation et cache d’objets Sélection Projection Tri

40 40 Caches pour la gestion de données sur grille Caches adaptables –Gestion de la sémantique  –Gestion de la coopération  –Adaptabilité dynamique  Caches sémantiques –Séparation contenu et sémantique  –Séparation données et évaluations  Caches coopératifs –Utilisation des capacités d’évaluation  –Gestion de la coopération à grande échelle

41 41 Réseaux de caches pour les environnements grande échelle

42 42 Notion de proximité Objectif Mesurer de la pertinence d’une coopération entre caches Paramètres physiques –Caractéristiques des hôtes Capacité de calcul Charge –Caractéristiques des réseaux Débit Latence Paramètres sémantiques –Homogénéité des données –Similarité des demandes

43 43 Exemples de proximité Proximité physique Proximité sémantique

44 44 Cache dual coopératif pour la gestion de données à grande échelle Cache dual Cache de requêtes Cache d’objets Proximité physique Proximité sémantique Protocoles de résolution pour cache dual –Sans coopération –Physique –Sémantique –Physique et sémantique

45 45 Plan de la présentation Caches et interrogation de données Service de caches adaptables et caches pour l’interrogation de données Applications à la gestion de données bio-informatiques sur grille –Contexte expérimental –Outils pour l’évaluation de performances –Validation du cache dual –Validation des réseaux de caches à grande échelle Conclusions et perspectives

46 46 Contexte expérimental Rennes Sophia-Antipolis Nancy SP1 SP2 SP3 Architecture à union de serveurs

47 47 Proximité au sein d’ACS Protocole de résolution Inondation  utilisation d’un gestionnaire de topologie Proximité pour les caches de requêtes prox(a,b) = prox(b,a) = 1 si a et b ont au moins x % de prédicats sur un même ensemble de données Proximité pour les caches d’objets prox(a,b) = prox(b,a) = 1 si a  G et b  G Attention : Proximité établie statiquement au moment du déploiement

48 48 Génération de requêtes Charge de travail –Termes appartenant à l’Arbre de vie –Localité sémantique R x [Luo01] –Communauté (bacteria, eucaryota, archaea, viruses) Bacteria  Archaea Viruses Eukaryota Apicomplexa EuryarchaeotaPositive Firmicutes FungiAlveota Ciliophora … … … … … … …… … …… Q1 exempleEukaryota  OC Raffinement Q2  Q1 exempleEukaryota  OC  Alveota  OC Nouvelle requête Q3exempleArchaea  OC

49 49 Expérimentations Validation du cache dual –Union de 3 serveurs (Sophia-Antipolis, Rennes, Lille) –50 clients avec des caches de 500Mo (Sophia-Antipolis, Rennes, Lille, Toulouse) Cache dual : 10 Mo pour cache de requêtes –100 requêtes par client –Localité sémantique R60 –Pas d’appartenance à une communauté

50 50 Validation du cache dual Cache dual plus performant –Taux de succès de cache plus élevés –Charge d’évaluation sur les serveurs plus faible –Volume de données transférées moins important  Temps de réponse plus courts Cache Sémantique Temps de réponse Succès exacts Succès étendus Charge sur les serveurs Évaluations sur les serveurs Volume transféré Cache de résultats de requêtes 73.52 s19.16 %56.38 %24,46 % 187.526 Go Cache de prédicats et d’objets 71.01 s26.46 %49.70 %23.84 % 185.464 Go Cache dual47.26 s52.94 %39.02 %23,34 %8.04 %132.197 Go

51 51 Expérimentations Analyse des protocoles de résolution pour cache dual –Union de 3 serveurs (Nancy, Rennes, Sophia-Antipolis) –50 clients avec des caches de 325Mo (Sophia-Antipolis, Rennes, Lille, Toulouse) Cache dual : 10 Mo pour cache de requêtes –50 requêtes par client –Localité sémantique R40 –Communauté 70 %

52 52 Les coopérations entre caches améliorent les performances La proximité sémantique réduit –Les évaluations sur les serveurs –La consommation de bande passante (le rapatriement par données évite la récupération d’objets déjà stockés) La proximité physique répartit la consommation de bande passante La proximité physique et sémantique améliorent grandement les performances Temps de réponse Évaluations sur les serveurs Données transférées (serveurs - caches) Sans coopérations 103.3 s34 %30.4 Go Physique102.1 s34 %30,4 Go25.9 Go Sémantique32.1 s9 %29.5 Go Physique sémantique 24.4 s9 %25.1 Go11.5 Go Analyse des protocoles de résolution

53 53 Plan de la présentation Caches et interrogation de données Service de caches adaptables et caches pour l’interrogation de données Applications à la gestion de données bio-informatiques sur grille Conclusions et perspectives

54 54 Résumé Objectif de la thèse Optimiser la gestion de données sur grilles Contributions –État de l’art des caches sémantiques et des caches coopératifs –Canevas pour la construction de caches adaptables [MGC2005] [BDA2006] –Cache sémantique pour la gestion de données sur grille [BDA2006] [CFSE2006] [CLCAR2007] –Gestion des coopérations entre caches à grande échelle [BDA2007] [DEXA2007] Expérimentations sur grille de données

55 55 Perspectives Caches et hétérogénéité de données Analyses et évaluations dans les caches sémantiques Accès efficace à des volumes importants de données Gestion de la cohérence à grande échelle Considérer les mises à jours Adaptation contextuelle de caches

56 56 Adaptation contextuelle de caches Gestionnaire de contexte - Modélisation - Capture - Gestion des situations pertinentes Cache ACS Gestionnaire d’adaptation Résolution Cache élémentaire Contexte Règles actives ECA Paramétrisation

57 57 Adaptation contextuelle de caches Gestionnaire de contexte - Modélisation - Capture - Gestion des situations pertinentes Cache ACS Gestionnaire d’adaptation Résolution Cache élémentaire Contexte Règles actives ECA AnalyseÉvaluation Cache sémantique

58 58 Vers des caches autonomes

59 59 Merci Questions

60 60 Bibliographie (1) [Braun95] Hans-Werner Braun and Kimberly C. Claffy. Web traffic characterization : an assessment of the impact of caching documents from ncsa’s web server. Computer Networks and ISDN Systems, 28(1- 2) :37–51, 1995. [Chankhunthod96] Anawat Chankhunthod, Peter B. Danzig, Chuck Neerdaels, Michael F. Schwartz, and Kurt J. Worrell. A hierarchical internet object cache. In USENIX Annual Technical Conference, pages 153–164, 1996. [Dahlin94] Michael D. Dahlin, Clifford J. Mather, Randolph Y. Wang, Thomas E. Anderson, and David A. Patterson. A quantitative analysis of cache policies for scalable network file systems. In The ACM SIGMETRICS conference on Measurement and modeling of computer systems, pages 150–160, 1994. [Dar96] Shaul Dar, Michael J. Franklin, Bj¨orn T. Jonsson, Divesh Srivastava, and Michael Tan. Semantic data caching and replacement. In Proceedings of the international conference on Very Large Data Bases, pages 330–341, 1996.

61 61 Bibliographie (2) [Fan98] Li Fan, Pei Cao, Jussara Almeida, and Andrei Z. Broder. Summary cache : a scalable wide-area web cache sharing protocol. In The ACM SIGCOMM Conference on Applications, technologies, architectures, and protocols for computer communication, pages 254– 265, 1998. [Godfrey97] Parke Godfrey and Jarek Gryz. Semantic query caching for hetereogeneous databases. In The international Workshop on Knowledge Representation meets Databases, pages 6.1–6.6, 1997. [Keller96] Arthur M. Keller and Julie Basu. A predicate-based caching scheme for clientserver database architectures. The VLDB Journal, 5(1) :35–47, 1996. [Ren03] Qun Ren, Margaret H. Dunham, and Vijay Kumar. Semantic caching and query processing. IEEE Transactions on Knowledge and Data Engineering, 15(1) :192–210, 2003. [Zheng01] Baihua Zheng and Dik Lun Lee. Semantic caching in location- dependent query processing. In The International Symposium on Advances in Spatial and Temporal Databases, pages 97–116, 2001.


Télécharger ppt "Caches adaptables et applications aux systèmes de gestion de données répartis à grande échelle D’ORAZIO Laurent Sous la direction de Claudia RONCANCIO."

Présentations similaires


Annonces Google