J. Nicolas IRISA / Inria Rennes

Slides:



Advertisements
Présentations similaires
Canal U.
Advertisements

Fabrice Lauri, François Charpillet, Daniel Szer
GDR CASSINI / SIGMA Présentation Janvier 2001.
Distance inter-locuteur
Projet Pres - Centre Ouest Pôle sciences - ULR 5 avril 2006 Pôle sciences - ULR 5 avril 2006.
ESPACE NUMERIQUE DE TRAVAIL ESUP-Portail Campus Numériques et Universités Numériques en Région Montpellier – 1/10/2003.
Journée d’échange du 17 Novembre
Télécom Bretagne Une Grande École dingénieurs et un centre de recherche international dans les sciences et technologies de linformation.
Applications de GdX Coordinateur thématique : Christophe Cérin
Les identités remarquables
Marseille-Nice genopole
Le Grid Computing et son utilisation dans les entreprises et les industries Laurent CANTONE Résoul UNAL.
Pons Nicolas, Jean-Michel Batto, S.Dusko Ehrlich, Pierre Renault
Résidences Universitaires Câblage informatique
Filière Systèmes Electroniques Embarqués Le choix de lalternance Lilian BOSSUET conseil dorientation du GIP CNFM, Paris
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Rappel des objectifs du WP10
18 avril 2002réunion Datagrid France1 E-toile Plate-forme RNTL 2001 Environnement matériel et logiciel pour le développement et l expérimentation de grille.
Présentation de GeneProt
Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand
Thème « Modélisation comportementale des Systèmes critiques »
IC 2 A - Ingénierie de la Cognition, de la Création et des Apprentissages web : Secrétariat : Razika Hammache,
AXES OBJECTIFS MESURES
Martine HEYDE8 juillet Lyon 1SPIRAL et ses utilisateurs LES TICE A LYON 1… Une politique de mutualisation Université Claude Bernard - Lyon 1 Martine.
Lenquête … (avril-mai 2006) INNOVATION EN INDUSTRIES ALIMENTAIRES Master Pro IIA.
Mention Physique-Imagerie Master Rech. « Imagerie du Vivant » (13 étudiants/an) Master Pro. « Technologies de lImagerie Médicale » (12 étudiants/an) Responsable.
Sélection automatique d’index et de vues matérialisées
Observatoire de lUFR, février 2012 (Licence PIP, 3 ème année ) 1 PROFIL DES ÉTUDIANTS Responsable de la licence: M. Rémy HOUSSIN Licence Production.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
THERESIEN Didier SEBASTIEN 15 septembre 2005
Bioinformatique =?? génomique protéomique
Plate-forme bioinformatique Toulouse-Midi-Pyrénées Génopole
Yoann Beausse Journée Bioinformatique des Génopoles
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Thomas LOPEZ - Equipe BUNRAKU Candidature au monitorat IFSIC – Mardi 6 Octobre 2008.
Certificat Informatique et Internet
Bilan du Projet Industriel
« Génome, adaptation et environnement »
LES NOMBRES PREMIERS ET COMPOSÉS
SCIENCES DE L ’INGENIEUR
La Bioinformatique à Nancy
COTRE COmposants Temps REel
LABEX NUMEV.
Diplôme universitaire
Plate-forme française de réalité virtuelle &. 2 Partenariat ENSMP Plate-forme RNTL : PerfRv.
L3 Module Libre Année universitaire Initiation à la Bioinformatique Jean-Michel RICHER.
UFR DE PHYSIQUE ET INGÉNIERIE Pré-industrialisation et Prototypage
Observatoire de lUFR, janvier 2011 (Master SPI, GI, 1 ère année ) 1 PROFIL DES ETUDIANTS Responsables de la formation: Emmanuel CAILLAUD, Bertrand.
Évaluer et analyser les coûts de la régie communautaire de leau, comment ? Restitution du 16 nov Cartographie des activités et inducteurs de coût.
SITRANS – Système d’information Transcriptome pour la plate-forme de la Genopole Rhône-Alpes Daniel CRISAN
Les Sciences de l’Ingénieur
Vers une génération automatique du mapping de sources biomédicales
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Qu’est ce qu’une grille ?
1Philippe Bardou – Séminaire GA/GAP – Transcriptôme et Statistiques associées – 12 juin 2008 Gestion des données - BASE.
Activités développées RTP 12 : Information et connaissance : "découvrir et résumer" Actions spécifiques et équipes-projets associées Objectifs thématiques.
GALAXY & LE GRAND OUEST Un groupe de travail : GUGGO Plusieurs instances : PCIM Brest (existante) ABiMS Roscoff (existante) GenOuest Rennes (existante)
Integration des pipelines d’analyse
Fadwa AMRI Fanny COUTURIER Virginie ROMAIN.
Les métiers de l’informatique
Supports de formation au SQ Unifié
Co-expression = fonction (Eisen et al., PNAS 1998)
Plate-forme MIRAGE Méso-Informatique Répartie pour des Applications en Géophysique et Environnement.
Historique Juillet 2000 : Dépôt d'un dossier Génopole Ouest auprès du Ministère Mars 2001 : expertise sur site par des experts internationaux Juillet 2001.
Nouveaux services et projet d’évolution de la plate-forme Esther KABORÉ Emmanuelle MORIN Anne-Sophie VALIN.
1 Deux exemples de management (et d’organisation) de la recherche : le CNRS et l’INRIA Club EEA, Tours, 13 mai 2009.
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
1 Présentation de l’Equipe MOC d’Angers Jean-Michel RICHER Université d’Angers France Mars.
GenoToul2007 Présentation Bilan 2007 Perspectives Plateforme bioinformatique C. Gaspin, C. Klopp, D. Laborie, J.-M. Larré, C. Noirot.
Transcription de la présentation:

J. Nicolas IRISA / Inria Rennes OUEST Genopole® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier

OUEST-Génopole® : un réseau de 54 unités de recherche 10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA 11 unités de recherche des Univ. d'Angers, Brest, Nantes et Rennes) 2000 personnes dont 800 chercheurs

Une histoire récente Juillet 2000 : Dépôt dossier Génopole Ouest au ministère Mars 2001 : Expertise sur site de la génopole Janvier 2002 : Labellisation OUEST-Genopole® CDDs plate-forme bioinformatique génopole Septembre 2002 : recrutement 1 an de E. Morin +recrutement 2ans de E. Kabore (CDD région) Juillet 2003 : recrutement 1 an de A.-S. Valin

OUEST-Génopole® : organisation Composantes Mer – Agronomie – Santé – BioInformatique Cinq plates-formes technologiques - Séquençage/Génotypage - Transcriptome - Protéome - Exploration fonctionnelle - Bio-informatique Groupement d'intérêt scientifique (GIS) en 2002

Les plates-formes OUEST-Génopole Génotypage Séquençage Protéomique Bioinformatique Exploration fonctionnelle Biopuces

Informatique - BioInformatique Chaine d’élaboration des connaissances Réponses Hypothèses Biblio Information Connaissances Données élaborées Données brutes Stockage Calcul Gestion Informatique - BioInformatique

Interactions inter-plate-formes : un modèle 3-tiles Domaine de Recherche bioinfo Plate-forme Bio-Informatique Stockage Archivage Veille outils problèmes Méthodes Prototypes Autre Plate-forme Outils Production Données élaborées Analyse Données brutes Gestion Exploitation Stockage Archivage Gestion

Ressources informatiques de la plate-forme SunFire 4800 12 procs Calcul Roscoff Pôle de calcul intensif de l'Ouest Logithèque, bases Service web Sécurisation Rennes SunFire 6800 SunFire 12000 Cluster PC 40 procs + 10 Brest Cluster Compaq 36 procs Pôle de calcul pour la Mer Réseau Angers Communications Calcul distribué Fusion de la puissance de calcul: GénoGRID Nantes

Parallélisme et architectures pour la génomique Motivation le volume des données génomique double approximativement tous les ans (plusieurs centaines de T bytes en 2010) la puissance des ordinateurs double tous les 18 mois (loi de Moore) Les temps de calcul augmentent et, pour certaines applications, devenir pénalisant ex : base de données ProDom - en 2001 = 31 jours de calcul - en 2002 = 64 jours de calcul Nouvelles méthodes algorithmiques Usage des machines parallèles Développement de machines spécialisées solutions

Parallélisme Projet GénoGRID (resp. D. Lavenier) une grille expérimentale pour la génomique objectif : mutualiser les ressources (banque de données, machines) sur des calculs intensifs deux niveaux de parallélisation grille = plusieurs nœuds nœuds = machines parallèles cluster de PC supercalculateurs applications : repliement des protéines comparaison génomes détection de séquences répétées Lille Roscoff Rouen Rennes Brest Angers

Architecture Exploration rapide des banques de données mise en parallèle d’une batterie de disques filtrage à la volée de l’information stockée sur disque Scan du génome humain en moins d’une seconde

Les acteurs de la bioinfo dans l’Ouest Roscoff Brest Rennes Organisme porteur: IRISA / INRIA - Rennes Nantes Angers LERIA Responsables O. Collin Roscoff H. Leroy Rennes U533

Comité correspondants Le réseau : animation Laure Berti-Equille Audrey Bihouée François Brücker Olivier Collin François Coste Christian Delamarche Didier Flament Marc Ferré Guillaume Fertin Christiane Guillouzo Nathalie Guitton Jin-Kao Hao Yannick Jacques Esther Kaboré Gilles Lassalle Dominique Lavenier Jean Léger Sandrine Laguarrigue Hugues Leroy Jérôme Mikolajczak Emmanuelle Morin Fouzia Moussouni Jacques Nicolas Philippe Picouet Charles Pineau Stéphanie Prioul Jean-Michel Richer Irèna Rusu Michel Samson Anne Siegel Dominique Tessier Tranh Vin   Responsables plate-forme: O. Collin (SBR) + pôle Mer, CS Genopole et H. Leroy (Irisa) + système, Genogrid Comité d’animation Relations inter plate-formes Stratégie domaine bio-informatique Comité correspondants Relations utilisateurs Mise en place des actions

Postes CDD sur Rennes Esther Kaboré (sept 2002) Ingénieur bases de données : gérer les comptes et les moyens de stockage sur le serveur du PCIO. ; accès et mise à jour d’un miroir local des principales banques publiques ; Coordination des choix sur chaque site de développement des bases de données proposition d’outils génériques pour le développement de bases de données spécialisées dans les laboratoires. Emmanuelle Morin (sept 2002) Ingénieur en bioinformatique  : choix, gestion et maintenance des logiciels applicatifs nécessaires en particulier pour l’étude de génomes complets; développement d’interfaces adaptées à un usage direct par les laboratoires de biologie des chaînes de traitement logiciel; Proposition de formations sur les outils de la plate-forme; intégration des outils de bio-info produits dans le cadre de la Génopole. Anne-Sophie Valin (juil 2003) Ingénieur en informatique : développement de la plate-forme de recherche et d'extraction de motifs (thème bioinfo génopole) veille logicielle dans ce domaine Formation aux outils, aide à l’utilisation.

Accueil Plan du site de la plate-forme Emplois présentation outils FAQ Stages Emplois Formations Consulter les demandes Déposer une demande Accès / Demande Accueil présentation outils Accès aux outils locaux Accès à des outils externes FAQ Poser une question Consulter les questions déjà posées banques Description des banques présentes sur le serveur Procédure de rapatriement Accès outils liés Maintenant que j’ai tenté d’expliquer le pourquoi du comment de ce site, je vais vous faire la présentation de son plan qui sera accompagné en simultané d’une exploration du site web. Ce site possède 7 menus différents : la présentation avec une fiche technique des machines, la liste des banques de séquences à disposition et les principaux acteurs de cette plate-forme (qui sont tous ici aujourd’hui !!!) Les outils : cette page s’organise ainsi les outils sont classés par catégorie et l’accès à chaque catégorie se fait par la sélection du lien correspondant, sont repérables par un petit logo Ouest_genopole les outils « maisons » càd les outils présents en local sur le serveur. Mais cette page n’est pas restrictive et trouve sa dynamique dans son interaction avec d’autres sites distants (expasy, infobiogen …) Les banques : sur cette page sont présents une description succincte de la banque présente sur le serveur (génome complet, chrom I …) avec un accès vers une description plus étoffée sur le ncbi, une procédure de rapatriement des bases et un accès directs à des outils liés à ces bases tel le blast contre les génomes complets. Nouveauté du site, une foire aux questions, qui permet de poser des questions aux bio-informaticiens sans être obligé de savoir c qui qui s’occupe de quoi et d’être renvoyé vers quelqu’un d’autre et suite à ces questions la foire se remplira permettant ainsi de pouvoir peut être trouver rapidement la réponse à une question. Stages / emplois / formations : cette page permet pour le moment de déposer une demande et / ou de consulter les demandes de stage, mais elle permet également d’accéder au formulaire d’inscription aux formations proposées par la plate-forme, il est prévu l’accès à partir de cette page aux formations universitaires de Rennes et autres.

Outils qui utilisent les ressources de calcul de la plate-forme Wisconsin package standard Blast Multiple rare FastMe rare Plate-forme de recherche exclusif et découverte de motifs (Smile, Model, Pratt…) Sont présentés ici les principaux outils applications disponibles sur le serveur: le WP qui est une suite logicielle d’environ 130 programme qui permet l’enchaînement de taches et l’enregistrement de ses données sur un compte personnel Blast qui présente la particularité de pouvoir soumettre un fichier de plusieurs séquences et offre également la possibilité de « blaster » ses propres séquences contre Unigène ce qui peut être apparenté à du clustering. FastMe qui est un logiciel de phylogénie rapide et précis, il est lié au package Phylip et construit des arbres à partir de matrices de distances. La plate-forme de découverte de motifs qui allient des programmes standards de recherche de motifs ( Pratt, Staden) et des programmes innovants (MoDEL, Smile …). Cette plate-forme permet l’enchaînement de tâches. GenoFrag : Programme de recherche d'oligonucléotides en deux étapes, premièrement une sélection d'amorces puis une fragmentation du génome. GenoFrag exclusif

Les banques de données publiques Genbank : version 137.0 (août 2003) PIR : version 77 (juillet 2003) Swiss-Prot : version 41 (février 2003) Banques de génomes : - 10 génomes eucaryotes - Beaucoup de génomes bactériens Mise à jour régulière Développement de banques à façon Rsync: mise à jour des sites distants (Ifremer, Roscoff)

Quelques bases de données de la génopole INSERM Rennes : Entrepôt de données « foie » GERM Rennes : base fédérée Expasy, base de donnée « Reproduction », base de données défensines INSERM Nantes/Rennes : base de données biopuces CNRS Rennes : base de données «canaux membranaires » INRA : Agena INRA : Stressgenes CNRS Roscoff : Génomer base de données EST Santé Agro Mer Structuration initiale par domaine puis ouverture progressive Point clé: sécurisation des données Harmonisation des approches, développement d’outils communs

Exemple d’utilisateur de la plate-forme : Identification et Cartographie de 10,000 gènes canins

Cartographie sur hybrides irradiés : ordonnancement des marqueurs par approche TSP (Hitte et al. J. Hered 2003) TSP variant maps Consensus map 20 40 60 80 100% 80 100% MLE OCB Mk_# Mk_Name |================ [ 35 35 35 38 35] (mk_35) EST7A10# 22 |==================== [ 33 33 33 33 33] (mk_33) EST3C10-B# 53 |================ [ 13 13 13 35 13] (mk_13) BAC_375-K3# 39 |================ [ 12 12 12 13 12] (mk_12) BAC_375-F13# |======== [ 6 6 51 12 70] (mk_6) BAC_372-E22# |============ [ 70 70 70 6 51] (mk_70) VCAM1 54 |============ [ 51 51 6 51 6] (mk_51) FH3445# |================ [ 48 48 48 70 48] (mk_48) FH3246# |================ [ 36 36 36 48 36] (mk_36) FH2119 |================ [ 28 28 28 36 28] (mk_28) EST17G5# 23 |================ [ 34 34 34 28 34] (mk_34) EST4F4-B# |================ [ 49 49 49 34 49] (mk_49) FH3282# |================ [ 26 26 26 49 26] (mk_26) EST14G8# Phase d’Analyse : Ordonner 100 marqueurs 1/2 h (- 5 CPUs PCIO-IDEFIX)

Analyses des Séquences BLASTn et/ou MegaBLAST (PCIO-IDEFIX / gcg - Wisconsin package) 5909 Dog Sequences Orthologue humain Structure de l’aligt Coord. génomique Orthologue murin Structure de l’aligt Coord. génomique DogSeq# Chr Gene Start End 1 Chr1 ENSG00000174633 594410 597598 1 Chr1 ENSG00000174633 594410 597598 2 Chr1 ENSG00000127055 708136 744003 Chr1 ENSG00000127055 708136 744003 GENE92 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE93 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE94 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE95 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE96 tigr_Chr1 Ren_Chr7 MMU-Chr6 GENE97 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE98 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE99 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE100 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE101 tigr_Chr1 Ren_Chr1 MMU-Chr4 Définition d’amorces : ~6h -5 CPUs- (PCIO-IDEFIX) Alignement séquences : BLAST ~16h x 2 (human/mouse) MegaBLAST ~80 h PCIO-IDEFIX -5 CPUs- Primer4.prog

Exemple de développement au niveau d’une plate-forme bio http://www Ouest Génopole. IFR 26 INSERM U.533

MADTOOLS Microarray Data Tools Database Database Probes & targets Gene sequences Array data Numerical processing KD http://cardioserve.nantes.inserm.fr/mad/

From Gene Expression Results to Literature Data Bibliographical Clusters GO Functional Cluster What co-expressed genes perform similar functions? What genes are co-citated in literature? What co-citated genes perform similar functions? Experimental Clusters Ouest Génopole. IFR 26 INSERM U.533

Exemple de demande de service ayant conduit à une collaboration puis au développement d’un outil Logiciel de Recherche d'Amorces Optimisées pour l’amplification de Chromosomes Bactériens par PCR Longue Portée Nouri BEN ZAKOUR Laboratoire de Microbiologie UMR1055 INRA ENSAR Dominique LAVENIER IRISA / CNRS - équipe Symbiose

Comparaison des différents profils = Informations sur la plasticité Approche PCR2 ~10Kb PCR Profil d'amplification Amorce sens Amorce antisens 10Kb Souche de référence Insertions Délétions PCR ~10Kb Souche non séquencée Même jeu d'amorces Comparaison des différents profils = Informations sur la plasticité

Validation biologique 2 régions de N315 amplifiées par LR-PCR A B

Bases de données spécialisées Esther Kaboré Didier Flament

Recherche de motifs et de signatures Cynthia Alland Emmanuelle Morin Anne-Sophie Valin

Les actions de formation - oct 2001 : GCG - nov 2002 : GCG Elaboration d'un catalogue

L'existant depuis 2000 DEA GetI Maîtrise de Biologie Maîtrise de d'informatique 31 étudiants formés 15 thèses en cours

Promotion 2003 12 étudiants 6 Biologistes 6 informaticiens

A partir de 2004 Master de bio-informatique Licence de Biologie et Informatique Master de bio-informatique

Le site de OUEST-Génopole® http://genouest.no-ip.org

Perspectives : Une richesse largement inexploitée : Banques de génomes complets Génomes Eukaryotes: Homo sapiens, Mus musculus, Ratus Norvegicus, Oryza sativa, Plasmodium falciparum, Caenorhabditis elegans, Saccharomyces serevisiae, Drosophila melagongaster, Encephalitozoon cuniculi Génomes Bactériens: Escherichia coli, Prochloroccocus marinus, Salmonella typhi, Staphylococcus aureus, vibrio cholerae, Neisseria meningitidis Yersinia pestis, …