Sous-projet IV Communications Placement/Ordonnancement
ACI GRID CGP2P 30/01/02 SP 4 : participants l George Bosilca(doctorant) l Franck Cappello(CR CRNS) l Adberhamanne Djilali(doctorant) l Gilles Fedak(doctorant) l Cecile Germain(MC Univ. PXI) l Oleg Lodygensky(Ing. Doctorant) l Vincent Néri(IE) l Anton Selikov(PostDoc) + l Henri Casanova(UCSD – USA)
ACI GRID CGP2P 30/01/02 SP 4 : objectifs généraux l Exécution d'applications parallèles l Placement/ordonnancement –d'applications non-communicantes –d'applications parallèles l Sur CGP2P : CG/P2P-interactions/P2P- système
ACI GRID CGP2P 30/01/02 Execution parallèle l Vrai parallélisme massif : K machines l Modèles d'exécution –Graphe de tâches -> SP1 –Passage de messages l L'exécution doit progresser en présence de défaillances massives : tolérance aux pannes complètement décentralisée DisparitionRe-lancement Lancement
ACI GRID CGP2P 30/01/02 Parallélisme et tolérance aux fautes Choix : Virtualisation des tâches logiques permanentes sur des tâches volatiles –Flots d'exécution, ex processus MPI –Communications, ex send/recv MPI l Infrastructure logicielle –Communication –Sauvegarde (checkpoint) –Lancement l Protocoles –Quoi/Quand –Sauvegarder/Reprendre l Correction SP 5 l Optimisation Mouvement de données Ordonnancement
ACI GRID CGP2P 30/01/02 Communications : MPICH-V l Une implémentation de MPICH l Fondée sur des communications découplées Canal mémoire l Service distribué –Extensibilité d'un service chargé –Construire un modèle de performances Protocoles Expérimentation W W W W putget Send/Recv Espace de tuples
ACI GRID CGP2P 30/01/02 Sauvegardes (checkpoint) l Infrastructure logicielle de sauvegarde locale : libckpt ? + contexte l Ordonnancement local –Fiabilité du support et importance de la tâche l Placement global tâches/sauvegardes –Consommation de ressources réseau –Service de stockage -> SP2
ACI GRID CGP2P 30/01/02 Placement/Ordonnancement l Que reste-t-il du Processeur/Date dans un système CG/P2P l Echelle massive l Volatilité des ressources l Faible contrôle l Information très incomplète l Faible bande passante
ACI GRID CGP2P 30/01/02 Les différentes approches l Algorithmique centralisée adaptative l Algorithmique décentralisée : vol/donation de travail, diffusion… l Applicatif : ne dépend que du graphe Objectif : degré de réplication comme compromis débit global du système et temps de complétion (makespan) d une application
ACI GRID CGP2P 30/01/02 Les ressources La définition des ressources ne peut être basée que sur une inférence statistique l Les environnements –Collection de traces : Ganglia, NWS, XWTrace –Prédiction de disponibilité /performance : NWS l Les questions scientifiques –Qualité de la prédiction –Sensibilité des algorithmes de scheduling à la QoI
ACI GRID CGP2P 30/01/02 Plan de travail t0 t0+6t0+12t0+18t0+24t0+30t0+36 Etude comms Proto Comms Evaluation Micro-bench Etude protocoles de reprise Proto MPICH-V Evaluation Benchmarks NAS, Linpack Outils de traces et d'analyse stat. Testbed Etude ordonnancement Proto Evaluation