Le Traitement Informatique des Données Scientifiques Oleg LODYGENSKY Etienne URBAH LAL, Univ Paris-Sud, IN2P3/CNRS, Orsay, 1) Le traitement informatique des données scientifiques exige bien plus que le simple calcul numérique : Acquisition des données Gestion d’instrument Gestion des données et méta-données Ordonnancement des tâches Calcul numérique Filtrage, Tri, … Affichage graphique 5) Avec une machine personnelle (PC, Téléphone portable) : Les droits d’accès sont simples, Mais l’espace de stockage et la puissance de calcul sont limités. 6) En général, les instituts et centres de recherche gèrent un domaine administratif informatique protégé par un pare-feu. Ce domaine administratif permet à chaque utilisateur autorisé d’accéder à toutes les ressources partagées, suivant ses droits. P a r e – f e u 2) Lorsque l’ordonnancement des tâches est séquentiel, il faut un ordinateur possédant un processeur rapide : Données d’entrée Étape 1Étape 2Étape 3 Étape n-2Étape n-1Étape n Données de sortie 7) Une telle ressource partagée est, suivant les moyens : Un simple ordinateur, sur lequel l’utilisateur s’authentifie à distance. Un cluster (grappe d’ordinateurs communiquant bien), sur lequel l’utilisateur s’authentifie à distance. Une grille locale (ensemble d’ordinateurs indépendants), à laquelle l’utilisateur soumet des données et des tâches. Un nuage local (ensemble d’ordinateurs virtualisés), auquel l’utilisateur soumet des images de machine virtuelle. Un supercalculateur auquel l’utilisateur soumet des calculs fortement couplées sur des données de grande taille. 3) Lorsque l’ordonnancement des tâches est parallèle non couplé, il suffit d’utiliser beaucoup de processeurs indépendants : Données d’entrée 1 Données de sortie 1 Données d’entrée 2 Données de sortie 2 Données d’entrée 3 Données de sortie 3 Données d’entrée n Données de sortie n … 4) Lorsque l’ordonnancement des tâches est parallèle fortement couplé, il faut utiliser un supercalculateur, qui intègre beaucoup de processeurs puissants communiquant très bien : Données d’entrée Données de sortie 8) Les instituts et centres de recherche de la terre entière ont besoin d’échanger des données en toute sécurité. Pour cela, ils se fédèrent en une infrastructure distribuée basée sur la confiance mutuelle, en utilisant des procédures communes. Cela permet aussi de mutualiser la puissance de calcul de tous. Cette infrastructure distribuée de traitement des données est souvent appelée ‘Grille de calcul’, ou même simplement ‘Grille’. Pour que chaque utilisateur soit bien identifié par la Grille, son institut de recherche doit lui fournir un ‘Certificat de Grille’. Tout citoyen peut contribuer au traitement des données scientifiques, en installant sur son ordinateur un logiciel comme Boinc ou XtremWeb