Big Data, les données massives de la recherche

Slides:



Advertisements
Présentations similaires
Co-construction des savoirs et des décisions dans la recherche :
Advertisements

1ère partie : vision à 10 ans
de la recherche partenariale
Les raisons de la colère ? Le Centre National de la Recherche Scientifique (CNRS) lInstitut National de la Santé et de la Recherche Médicale (INSERM) -
Technologies clés génériques
Ouverture de l’INERIS à la société :
Avec le soutien de lUnion Européenne (FEDER) Programme Régional dActions Innovatrices– Colloque Biopuces et écologie microbienne – octobre 2006 Avec.
Grille Régionale Rhône-Alpes Institut des Grilles du CNRS Yonny CARDENAS CC-IN2P3 Réunion du groupe de travail grilles Projet CIRA Grenoble, le 2 Juin.
LES METIERS ET LES DOMAINES DE LA RECHERCHE
1 Séminaire TRIGONE - QUEL FUTUR POUR VOTRE PRODUCTION Z ?
Présentation préparée avec C. Germain, B. Kegl et M. Jouvin.
THERESIEN Didier SEBASTIEN 15 septembre 2005
27/06/20081 Maladies Infectieuses Emergentes Journée des directeurs de Programmes Interdisciplinaires 27 juin 2008 Gif-sur-Yvette.
Conférence sur la recherche en finance rurale Rome, mars 2007 Trajectoire des systèmes de production agricole et diversification des modes de financement.
PREMIÈRE EDITION DES UNIVERSITÉS INTERNATIONALES
Le centre de calcul de l'IN2P3 : une architecture pour le calcul intensif et le stockage de masse Pascal Calvat.
Les acteurs locaux de lobservation environnementale sur le territoire breton Les résultats de lenquête.
Assises culturelles de la Wallonie picarde Recherche action Fabienne Leloup et Sébastien Pradella (Grapdt) UCL Mons.
Formation des conseillers en aménagement du territoire et en urbanisme Charleroi, 23 mars Les enjeux territoriaux de la logistique en Wallonie Mathieu.
Brahim Ghribi, Directeur Affaires Publiques Afrique & Moyen-Orient
DEVELOPPEMENT DURABLE » « Penser global, agir local »
3 avril 2007IFAP - Débat thématique "Conservation numérique"1 Conservation des publications électroniques et du dépôt légal Catherine Lupovici Département.
CNRS I PRÉSENTATION.
RAPPORT DÉVELOPPEMENT DURABLE 2011 CAPI Vendredi 26 octobre 2012.
1 Grille de calcul et physique des particules Vincent Garonne CPPM, Marseille Novembre 2003 Contenu de la présentation Etat de lart : Grille de calcul.
Scientific Data Preservation Project Call: Mastodons
Charte forestière de territoire du Parc naturel régional du Morvan 10 années de concertation locale au service d'une foret multifonctionnelle Colloque.
JOURNEE DES MECANICIENS 15 novembre 2004 Marcel Lieuvin.
DEVIENT Novembre INTRODUCTION La Rencontre des dirigeants 2011 en bref -Lancement officiel de la nouvelle image de marque et du positionnement -Survol.
Alex C. MUELLER Directeur Adjoint Scientifique
Atelier-idf.org Principales actions atelier-idf.org2 L’Observatoire et les publications de l’Atelier 4 ème édition du panorama régional de l'économie.
Pierre Fabre Stratégie de recherche et d’implantation de nos activités médicament en Chine: illustrant la zone de Nanjing Cécile, Dan-Qing LOU 08/09/09.
Donner du sens aujourd’hui pour agir sur le futur
 Réunion d’informations et d’échanges sur le Pays Vendômois Mercredi 02 juillet 2014 Le Minotaure – Salle Porte d’Eau.
Axe 2 vulnérabilité des écosystèmes terrestres et aquatiques.
U NIVERSITÉ C HOUAIB D OUKKALI F ACULTÉ DES S CIENCES E L J ADIDA O UVERTURE D ’ UN M ASTER S PÉCIALISÉ I NGÉNIERIE E COLOGIQUE ET A QUACOLE
Table-ronde coopération décentralisée Bilan des 1ères Rencontres de l’action internationale des collectivités locales de l’océan Indien Stéphane FOUCAULT–
France Grilles: plan stratégique version du 15 Novembre 2012.
Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.
1 5e Conférence Qualité Bruxelles, 20 novembre 2007.
Interconnexion des problèmes et échelles spatiales et temporelles multiples Temps long, Espace élargi, Interconnexion des phénomènes Mais une grille de.
De l’exploitation des mers à l’aménagement des espaces marins
Du RMT Prairies à l’AAP Casdar Praicos (renouveler les méthodes de conseil pour renforcer la place des prairies dans les systèmes fourragers) Origines.
Centre de Calcul de l'IN2P3 - Lyon Toulouse - Lyon, 21 décembre 2004 Les projets de grille au Centre de Calcul de l’IN2P3.
Vers un guide de bonnes pratiques pour le tutorat à distance Un partenariat SOFAD - CS Mélanie Bergeron, chargée de projet Marcelle Parr, conseillère R&D.
Présenté par: Mme AÏTCHEDJI Julienne Chef de la Division Informatique
Les ouvertures au CC Pascal Calvat. Plan 2 Présentation des ouvertures Les besoins des utilisateurs Les solutions apportées par le CCIN2P3 Les ouvertures.
CPER Thématique « Enseignement Supérieur, Recherche, Innovation » Réunion avec les SGAR – 9 octobre 2013 Direction générale pour l’enseignement.
CAPRI 9 juin 2011 Cloud Académique Production Recherche Innovation Comité de Pilotage France-Grilles.
27/06/20081 Programme Amazonie Journée des directeurs de Programmes Interdisciplinaires 27 juin 2008 Gif-sur-Yvette.
26 Mars 2015 Assistance Technique «Elaboration d’une Stratégie de Développement de Statistiques Régionales» Présentation du Projet Atelier de restitution.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
La méthodologie d’accompagnement des clusters technologiques régionaux
27/06/20081 Ingénierie écologique Journée des directeurs de Programmes Interdisciplinaires 27 juin 2008 Gif-sur-Yvette.
1e Rencontre régionale du réseau ARPIST – thème : « Veille documentaire » 27 mai 2004 Présentation du réseau quitaine Poitou-Charentes éseau rofessionnels.
Secrétariat général direction de la Recherche et de l’Animation scientifique et technique Présentation de la directive européenne INSPIRE.
Axes prioritaires pour la recherche en biodiversité.
Préparé par les Co-gestionnaires du CHM Togo Et présenté par le Cdt AGBETI.
Observatoire des Relations Climat – Homme - milieux Agrosylvopastoraux
Lieu de concertation, de médiation et de coopération entre les institutions, l’Alliance Athena a pour mission d’améliorer les dynamiques du système de.
Bilan 2012, perspectives 2013 Conseil de Groupement – 21/2/2013 V. Breton La grandeur des actions humaines se mesure à l’inspiration qui les fait naître.
______________________________________________ Christina Cantrel Réunion correspondants com Paris – 23/11/11 Plan de com CNRS
Réunion du service informatique. Bilan des EPT informatiques Projets ÉchéanceETP Informatique Responsable Sous-projetPhysicien IngTechIngTech.
Grid au LAL Michel Jouvin LAL / IN2P3
Présentation au conseil scientifique. Une e-infrastructure dédiée au traitement des données Infrastructure distribuée, par les utilisateurs, pour les.
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules Table Ronde : Quelles orientations pour le CC ? JP2015, Autrans.
Le GDS EcoInfo Présentation des offres de service du GDS Réunion Admin06 du 20/09/2012 Eric Drezet.
La stratégie opérationnelle de France- Grilles Hélène Cordier, Gilles Mathieu Contact: La stratégie opérationnelle.
Stratégie vers la communauté de recherche en informatique V. Breton.
Stratégie technique G. Mathieu – V. Breton. Stratégie vers les fournisseurs de services et de ressources France Grilles2 Jouer le rôle central dans le.
Transcription de la présentation:

Big Data, les données massives de la recherche Vincent Breton Réunion des DUs – 4 Juillet 2014

En introduction… Je ne suis pas un informaticien Je suis un physicien qui utilise l’informatique Perspective d’utilisateur des ressources informatiques

Table des matières Quelques réflexions sur le Big Data Présentation de la Research Data Alliance Quel rôle pour l’IN2P3 et ses laboratoires ? Conclusion

Domesday Book (1087) Inventaire des biens par Guillaume le Conquérant Autorité absolue pour définir les droits de propriété en Angleterre depuis le Moyen-Age « ayant parlé longuement avec ses conseillers, [Guillaume] envoya des hommes par toute l’Angleterre […] afin de découvrir […] ce que – ou bien combien – chaque propriétaire foncier possédait en terre et en bétail, et combien il valait » Crédit: Geneviève Bell, keynote talk SuperComputing 2013

Les enjeux du big data… Crédit: Wikipedia Collecte des données Chaque comté visité par un groupe d’officiers royaux (1085-1086) Véracité des données Résultat garanti par 12 administrateurs assermentés (6 anglais – 6 normands) Analyse des données Compilation du résultat des enquètes menées Présentation des données Inventaire des ressources selon les fiefs Inventaire par catégorie de propriétaires (roi, clergé, laïcs, femmes, serviteurs du roi,…) Préservation des données Conservé avec le trésor de la couronne depuis le Moyen-Age 1986: numérisation 2002: problème d’accès à la version numérisée (format illisible) Crédit: Wikipedia

Le Big Data aujourd’hui… Pas seulement un nouveau concept à la mode pour vendre du hardware … Croissance exponentielle du volume de données créées dans le monde 2010: 1,2 zettaoctets (1 zettaoctet = 1021 octets) 2011: 1,8 zettaoctets 2012: 2,8 zettaoctets … 2020: 40 zettaoctets Données générées quotidiennement par Twitter: 7 teraoctets (1 teraoctet = 1012 octets) Facebook: 10 teraoctets Télescope LSST: 15 teraoctets (par nuit) La science demeure aujourd’hui le principal producteur de données

Zone-Atelier “Territoires Uranifères”, … Les 4 V’s du Big Data Zone-Atelier “Territoires Uranifères”, … LHC, LSST, … LHC, …

Volume de données: l’exemple de LSST Une nouvelle fenêtre sur le ciel Téléscope de 8,4 m à Cerro Pachon (Chili) Astronomie très grand champ Démarrage prévu en 2020 Les chiffres-clefs: 15 TB de données par nuit En 10 ans: 60 Pbytes de données produites Crédit: E. Gangler

Le projet PETASKY (MASTODONS) Gestion et exploration des grandes masses de données scientifiques issues d'observations astronomiques grand champ

Volume de données: exemple de la metagénomique Métagénomique: étude du contenu génétique et génomique d'un échantillon provenant d'un environnement naturel Evolution des techniques de séquençage Technologie Sanger Séquences de 500 paires de bases (bp) 454 technology 105 reads de séquences de 400-600 bp Illumina Technology 106 reads de séquences de 100 bp Projets actuels (TARA) 107 reads de séquences de 100-400 bp Plus petit génome non viral: Carsonella ruddii (0,16Mbp) Polychaos dubium est une amibe, Les amibes sont des protistes, eucaryotes(cellules avec un noyau). TARA = étude des microorganismes marins Plus gros génome: Polychaos dubium (670Gbp) Tara @ http://oceans.taraexpeditions.org/

La croissance de la production de données de génomique est plus rapide que la loi de Moore

Conséquence: plus de 2500 séquenceurs de nouvelle génération dans plus de 900 centres de recherche dans le monde entier Source: omicspmaps.com

Variété des données Exemple: étude des systèmes environnementaux Zone-Atelier “Territoires Uranifères dans l’Arc Hercynien” 1ère Zone-Atelier INEE co-coordonnée par l’IN2P3 (CENBG, LPC C-F, SUBATECH) Objectif: étude de la vie sous rayonnement ionisant d’origine naturelle

Stratégie d’étude des écosystèmes sous irradiation chronique Spéciation chimique des radionucléides Héritage industriel Recensement biodiversité Caractérisation Transport radionucléides Interaction organismes vivants/doses Gestion territoriale et responsabilités Transfert Interactions et rétroactions entre systèmes vivants et matière Evaluation du risque Dispositifs de prévention Impact environnemental Production significative de données scientifiques(geographie, écologie, biologie, metagénomique, chimie, physique, sciences sociales) Observation multidisciplinaire à long terme de sites choisis dans le Massif Armoricain et dans le Massif Central

Contexte international

Big Data au cœur des appels à projets d’Horizon 2020 EGI, EU-T0 Research Data Alliance Credit: K. Glinos

Contexte international: une nouvelle organisation, la Research Data Alliance Soutenue par la Commission Européenne, la National Science Foundation et l’Australian National Data Service Différent du Global Grid Forum

Objectifs de la Research Data Alliance Connecter les communautés d’utilisateurs Connecter les données

Research Data Alliance: construire des ponts Ponts vers le futur Préservation des données Ponts vers les partenaires de la recherche Ponts à travers les disciplines Ponts vers l’intégration Pour résoudre de nouveaux problèmes Ponts à travers les communautés Journée RDA-Europe du 20 juin 2014 au MENESR

Contexte national Programme MASTODONS de la Mission Interdisciplinaire du CNRS Cadre collaboratif privilégié avec les chercheurs en informatique du CNRS Initiative RDA du Ministère de la Recherche (MENESR) Réunions des 28 Avril, 5-6 et 20 Juin au MENESR pour créer une dynamique Vers une TGIR pour les données scientifiques?

Les participants Les acteurs institutionnels MENESR CNRS (direction, INIST, INEE, INSU, IN2P3) CEA MNHN … Les utilisateurs de nombreuses disciplines Sciences de la planète SHS Biodiversité Sciences du vivant Physique des particules Les fournisseurs de service et centres de calcul CC-IN2P3 HPC : GENCI - CINES Réseau: RENATER

Messages envoyés par le ministère Importance de RDA Standardisation Interopérabilité Importance de l’implication des chercheurs Besoins des utilisateurs au coeur de la standardisation Nécessité de s’imprégner de la “culture” RDA https://rd-alliance.org/ Participation à la prochaine plenary (22-24/9 à Amsterdam)

Quelle stratégie pour les laboratoires IN2P3? Atouts pour jouer un rôle moteur au niveau national dans le monde académique CC-IN2P3 (expertise, infrastructures, rayonnement) Les laboratoires de l’IN2P3 peuvent fournir la colonne vertébrale d’une infrastructure distribuée Exemple: LCG-France pour France Grilles Expérience du partage d’expertise entre les labos IN2P3 Atouts pour jouer un rôle moteur au niveau régional Expertise reconnue en ingénierie informatique dans les laboratoires Taille souvent significative des services informatiques Partage d’outils et d’expertise avec les autres labos IN2P3

AUDACE: construire les ponts… en Auvergne Horizon 2020 AUDACE Centre Régional de Ressources Informatiques Recherche en informatique Communautés scientifiques AUVERGRID (CPER 2007-2013) – LIFEGRID (2006-2010) INSTRUIRE (2005-2007) ACI GRID (2002-2005)

Les objectifs du projet Développer une recherche informatique originale sur le Big Data Recherche générique Recherche sur les données de grands instruments Recherche sur les données liées à la politique de site Déployer une e-infrastructure pour les données scientifiques en Auvergne Au service des communautés pour résoudre les défis scientifiques Ouverte vers le monde socio-économique Intégrée au niveau national et international

Organisation du projet CRII – mésocentre régional Recherche générique Big Data Axe I – EPICURE Sciences biomédicales Sciences de la vie et de la santé Axe II – SYMBIOSE Sciences de l’environnement Microbiome Axe IV – ATTRIHUM Sciences sociales Données géoréférencées Axe III MMaSyF Sciences pour l’ingénieur Astrophysique (LSST)

La question du coût du stockage Offre Google Drive ( disque dur externe): 1$ par TeraOctet et par mois 1 Offres de stockage sur cloud commercial : ≈ 300K$/PO/an Offres Amazon S32 et Google3 à peu près équivalentes: ≈ 30$ par TeraOctet et par mois En plus: facturation des requêtes et des transferts de données Amazon S3: 0,1 $ par GOctet de donnée transférée de S3 vers internet (100K$/PO) Google: ≈ 0,2 $ par GOctet de donnée transférée de S3 vers internet (200K$/PO) 1: valable à partir de 300 Toctets 2: http://aws.amazon.com/fr/s3/pricing/ 3: https://cloud.google.com/products/cloud-storage/#pricing

Conclusion Les labos de l’IN2P3 ne sont plus seuls à traiter des très grands volumes de données scientifiques Mais nous avons des atouts uniques dans le monde académique Expertise et ressources humaines Nouveaux challenges (LSST) Légitimité/crédibilité Les labos de l’IN2P3 peuvent/doivent jouer un rôle moteur dans la mise en place, l’animation et la structuration des infrastructures nationales/régionales pour les données scientifiques L’implication dans RDA est un point de départ naturel Rôle politique et scientifique de l’institut et des chercheurs

Quelles données produites aujourd’hui seront encore utilisées dans 900 ans?

Transparents de secours