La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

J. Nicolas IRISA / Inria Rennes

Présentations similaires


Présentation au sujet: "J. Nicolas IRISA / Inria Rennes"— Transcription de la présentation:

1 J. Nicolas IRISA / Inria Rennes
OUEST Genopole® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier

2 OUEST-Génopole® : un réseau de 54 unités de recherche
10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA 11 unités de recherche des Univ. d'Angers, Brest, Nantes et Rennes) 2000 personnes dont 800 chercheurs

3 Une histoire récente Juillet 2000 : Dépôt dossier Génopole Ouest au ministère Mars 2001 : Expertise sur site de la génopole Janvier 2002 : Labellisation OUEST-Genopole® CDDs plate-forme bioinformatique génopole Septembre 2002 : recrutement 1 an de E. Morin +recrutement 2ans de E. Kabore (CDD région) Juillet 2003 : recrutement 1 an de A.-S. Valin

4 OUEST-Génopole® : organisation
Composantes Mer – Agronomie – Santé – BioInformatique Cinq plates-formes technologiques - Séquençage/Génotypage - Transcriptome - Protéome - Exploration fonctionnelle - Bio-informatique Groupement d'intérêt scientifique (GIS) en 2002

5 Les plates-formes OUEST-Génopole
Génotypage Séquençage Protéomique Bioinformatique Exploration fonctionnelle Biopuces

6 Informatique - BioInformatique
Chaine d’élaboration des connaissances Réponses Hypothèses Biblio Information Connaissances Données élaborées Données brutes Stockage Calcul Gestion Informatique - BioInformatique

7 Interactions inter-plate-formes : un modèle 3-tiles
Domaine de Recherche bioinfo Plate-forme Bio-Informatique Stockage Archivage Veille outils problèmes Méthodes Prototypes Autre Plate-forme Outils Production Données élaborées Analyse Données brutes Gestion Exploitation Stockage Archivage Gestion

8 Ressources informatiques de la plate-forme
SunFire 4800 12 procs Calcul Roscoff Pôle de calcul intensif de l'Ouest Logithèque, bases Service web Sécurisation Rennes SunFire 6800 SunFire 12000 Cluster PC 40 procs + 10 Brest Cluster Compaq 36 procs Pôle de calcul pour la Mer Réseau Angers Communications Calcul distribué Fusion de la puissance de calcul: GénoGRID Nantes

9 Parallélisme et architectures pour la génomique
Motivation le volume des données génomique double approximativement tous les ans (plusieurs centaines de T bytes en 2010) la puissance des ordinateurs double tous les 18 mois (loi de Moore) Les temps de calcul augmentent et, pour certaines applications, devenir pénalisant ex : base de données ProDom - en 2001 = 31 jours de calcul - en 2002 = 64 jours de calcul Nouvelles méthodes algorithmiques Usage des machines parallèles Développement de machines spécialisées solutions

10 Parallélisme Projet GénoGRID (resp. D. Lavenier)
une grille expérimentale pour la génomique objectif : mutualiser les ressources (banque de données, machines) sur des calculs intensifs deux niveaux de parallélisation grille = plusieurs nœuds nœuds = machines parallèles cluster de PC supercalculateurs applications : repliement des protéines comparaison génomes détection de séquences répétées Lille Roscoff Rouen Rennes Brest Angers

11 Architecture Exploration rapide des banques de données
mise en parallèle d’une batterie de disques filtrage à la volée de l’information stockée sur disque Scan du génome humain en moins d’une seconde

12 Les acteurs de la bioinfo dans l’Ouest
Roscoff Brest Rennes Organisme porteur: IRISA / INRIA - Rennes Nantes Angers LERIA Responsables O. Collin Roscoff H. Leroy Rennes U533

13 Comité correspondants
Le réseau : animation Laure Berti-Equille Audrey Bihouée François Brücker Olivier Collin François Coste Christian Delamarche Didier Flament Marc Ferré Guillaume Fertin Christiane Guillouzo Nathalie Guitton Jin-Kao Hao Yannick Jacques Esther Kaboré Gilles Lassalle Dominique Lavenier Jean Léger Sandrine Laguarrigue Hugues Leroy Jérôme Mikolajczak Emmanuelle Morin Fouzia Moussouni Jacques Nicolas Philippe Picouet Charles Pineau Stéphanie Prioul Jean-Michel Richer Irèna Rusu Michel Samson Anne Siegel Dominique Tessier Tranh Vin   Responsables plate-forme: O. Collin (SBR) + pôle Mer, CS Genopole et H. Leroy (Irisa) + système, Genogrid Comité d’animation Relations inter plate-formes Stratégie domaine bio-informatique Comité correspondants Relations utilisateurs Mise en place des actions

14 Postes CDD sur Rennes Esther Kaboré (sept 2002) Ingénieur bases de données : gérer les comptes et les moyens de stockage sur le serveur du PCIO. ; accès et mise à jour d’un miroir local des principales banques publiques ; Coordination des choix sur chaque site de développement des bases de données proposition d’outils génériques pour le développement de bases de données spécialisées dans les laboratoires. Emmanuelle Morin (sept 2002) Ingénieur en bioinformatique  : choix, gestion et maintenance des logiciels applicatifs nécessaires en particulier pour l’étude de génomes complets; développement d’interfaces adaptées à un usage direct par les laboratoires de biologie des chaînes de traitement logiciel; Proposition de formations sur les outils de la plate-forme; intégration des outils de bio-info produits dans le cadre de la Génopole. Anne-Sophie Valin (juil 2003) Ingénieur en informatique : développement de la plate-forme de recherche et d'extraction de motifs (thème bioinfo génopole) veille logicielle dans ce domaine Formation aux outils, aide à l’utilisation.

15 Accueil Plan du site de la plate-forme Emplois présentation outils FAQ
Stages Emplois Formations Consulter les demandes Déposer une demande Accès / Demande Accueil présentation outils Accès aux outils locaux Accès à des outils externes FAQ Poser une question Consulter les questions déjà posées banques Description des banques présentes sur le serveur Procédure de rapatriement Accès outils liés Maintenant que j’ai tenté d’expliquer le pourquoi du comment de ce site, je vais vous faire la présentation de son plan qui sera accompagné en simultané d’une exploration du site web. Ce site possède 7 menus différents : la présentation avec une fiche technique des machines, la liste des banques de séquences à disposition et les principaux acteurs de cette plate-forme (qui sont tous ici aujourd’hui !!!) Les outils : cette page s’organise ainsi les outils sont classés par catégorie et l’accès à chaque catégorie se fait par la sélection du lien correspondant, sont repérables par un petit logo Ouest_genopole les outils « maisons » càd les outils présents en local sur le serveur. Mais cette page n’est pas restrictive et trouve sa dynamique dans son interaction avec d’autres sites distants (expasy, infobiogen …) Les banques : sur cette page sont présents une description succincte de la banque présente sur le serveur (génome complet, chrom I …) avec un accès vers une description plus étoffée sur le ncbi, une procédure de rapatriement des bases et un accès directs à des outils liés à ces bases tel le blast contre les génomes complets. Nouveauté du site, une foire aux questions, qui permet de poser des questions aux bio-informaticiens sans être obligé de savoir c qui qui s’occupe de quoi et d’être renvoyé vers quelqu’un d’autre et suite à ces questions la foire se remplira permettant ainsi de pouvoir peut être trouver rapidement la réponse à une question. Stages / emplois / formations : cette page permet pour le moment de déposer une demande et / ou de consulter les demandes de stage, mais elle permet également d’accéder au formulaire d’inscription aux formations proposées par la plate-forme, il est prévu l’accès à partir de cette page aux formations universitaires de Rennes et autres.

16 Outils qui utilisent les ressources de calcul de la plate-forme
Wisconsin package standard Blast Multiple rare FastMe rare Plate-forme de recherche exclusif et découverte de motifs (Smile, Model, Pratt…) Sont présentés ici les principaux outils applications disponibles sur le serveur: le WP qui est une suite logicielle d’environ 130 programme qui permet l’enchaînement de taches et l’enregistrement de ses données sur un compte personnel Blast qui présente la particularité de pouvoir soumettre un fichier de plusieurs séquences et offre également la possibilité de « blaster » ses propres séquences contre Unigène ce qui peut être apparenté à du clustering. FastMe qui est un logiciel de phylogénie rapide et précis, il est lié au package Phylip et construit des arbres à partir de matrices de distances. La plate-forme de découverte de motifs qui allient des programmes standards de recherche de motifs ( Pratt, Staden) et des programmes innovants (MoDEL, Smile …). Cette plate-forme permet l’enchaînement de tâches. GenoFrag : Programme de recherche d'oligonucléotides en deux étapes, premièrement une sélection d'amorces puis une fragmentation du génome. GenoFrag exclusif

17 Les banques de données publiques
Genbank : version (août 2003) PIR : version 77 (juillet 2003) Swiss-Prot : version 41 (février 2003) Banques de génomes : - 10 génomes eucaryotes - Beaucoup de génomes bactériens Mise à jour régulière Développement de banques à façon Rsync: mise à jour des sites distants (Ifremer, Roscoff)

18 Quelques bases de données de la génopole
INSERM Rennes : Entrepôt de données « foie » GERM Rennes : base fédérée Expasy, base de donnée « Reproduction », base de données défensines INSERM Nantes/Rennes : base de données biopuces CNRS Rennes : base de données «canaux membranaires » INRA : Agena INRA : Stressgenes CNRS Roscoff : Génomer base de données EST Santé Agro Mer Structuration initiale par domaine puis ouverture progressive Point clé: sécurisation des données Harmonisation des approches, développement d’outils communs

19 Exemple d’utilisateur de la plate-forme : Identification et Cartographie de 10,000 gènes canins

20 Cartographie sur hybrides irradiés : ordonnancement des marqueurs par approche TSP (Hitte et al. J. Hered 2003) TSP variant maps Consensus map 20 40 60 80 100% 80 100% MLE OCB Mk_# Mk_Name |================ [ ] (mk_35) EST7A10# 22 |==================== [ ] (mk_33) EST3C10-B# 53 |================ [ ] (mk_13) BAC_375-K3# 39 |================ [ ] (mk_12) BAC_375-F13# |======== [ ] (mk_6) BAC_372-E22# |============ [ ] (mk_70) VCAM1 54 |============ [ ] (mk_51) FH3445# |================ [ ] (mk_48) FH3246# |================ [ ] (mk_36) FH2119 |================ [ ] (mk_28) EST17G5# 23 |================ [ ] (mk_34) EST4F4-B# |================ [ ] (mk_49) FH3282# |================ [ ] (mk_26) EST14G8# Phase d’Analyse : Ordonner 100 marqueurs 1/2 h (- 5 CPUs PCIO-IDEFIX)

21 Analyses des Séquences
BLASTn et/ou MegaBLAST (PCIO-IDEFIX / gcg - Wisconsin package) 5909 Dog Sequences Orthologue humain Structure de l’aligt Coord. génomique Orthologue murin Structure de l’aligt Coord. génomique DogSeq# Chr Gene Start End Chr1 ENSG 1 Chr1 ENSG 2 Chr1 ENSG Chr1 ENSG GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr6 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 GENE tigr_Chr Ren_Chr MMU-Chr4 Définition d’amorces : ~6h -5 CPUs- (PCIO-IDEFIX) Alignement séquences : BLAST ~16h x 2 (human/mouse) MegaBLAST ~80 h PCIO-IDEFIX -5 CPUs- Primer4.prog

22 Exemple de développement au niveau d’une plate-forme bio http://www
Ouest Génopole. IFR 26 INSERM U.533

23 MADTOOLS Microarray Data Tools
Database Database Probes & targets Gene sequences Array data Numerical processing KD

24 From Gene Expression Results to Literature Data
Bibliographical Clusters GO Functional Cluster What co-expressed genes perform similar functions? What genes are co-citated in literature? What co-citated genes perform similar functions? Experimental Clusters Ouest Génopole. IFR 26 INSERM U.533

25 Exemple de demande de service ayant conduit à une collaboration puis au développement d’un outil Logiciel de Recherche d'Amorces Optimisées pour l’amplification de Chromosomes Bactériens par PCR Longue Portée Nouri BEN ZAKOUR Laboratoire de Microbiologie UMR1055 INRA ENSAR Dominique LAVENIER IRISA / CNRS - équipe Symbiose

26 Comparaison des différents profils = Informations sur la plasticité
Approche PCR2 ~10Kb PCR Profil d'amplification Amorce sens Amorce antisens 10Kb Souche de référence Insertions Délétions PCR ~10Kb Souche non séquencée Même jeu d'amorces Comparaison des différents profils = Informations sur la plasticité

27 Validation biologique
2 régions de N315 amplifiées par LR-PCR A B

28 Bases de données spécialisées
Esther Kaboré Didier Flament

29 Recherche de motifs et de signatures
Cynthia Alland Emmanuelle Morin Anne-Sophie Valin

30 Les actions de formation
- oct 2001 : GCG - nov 2002 : GCG Elaboration d'un catalogue

31 L'existant depuis 2000 DEA GetI Maîtrise de Biologie
Maîtrise de d'informatique 31 étudiants formés thèses en cours

32 Promotion 2003 12 étudiants 6 Biologistes 6 informaticiens

33 A partir de 2004 Master de bio-informatique
Licence de Biologie et Informatique Master de bio-informatique

34 Le site de OUEST-Génopole®

35 Perspectives : Une richesse largement inexploitée : Banques de génomes complets
Génomes Eukaryotes: Homo sapiens, Mus musculus, Ratus Norvegicus, Oryza sativa, Plasmodium falciparum, Caenorhabditis elegans, Saccharomyces serevisiae, Drosophila melagongaster, Encephalitozoon cuniculi Génomes Bactériens: Escherichia coli, Prochloroccocus marinus, Salmonella typhi, Staphylococcus aureus, vibrio cholerae, Neisseria meningitidis Yersinia pestis, …

36


Télécharger ppt "J. Nicolas IRISA / Inria Rennes"

Présentations similaires


Annonces Google