Le séquençage à grande échelle au Genoscope

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Forum MDP Maroc – Marrakech, avril Capacity Development for CDM MDP au niveau international: situation actuelle et perspectives Forum MDP.
1 Révision du R(CE) 388/2006 établissant un plan pluriannuel pour lexploitation durable du stock de sole du golfe de Gascogne : Évaluation du plan mis.
Distance inter-locuteur
Évaluation des requêtes relationnelles
© UMS 2414 RIATE 2010 European Observation Network for Territorial Development and Cohesion Calls for Proposals and Expression of Interests (24/01/2011.
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros
Les numéros 70 –
Les numéros
© 2009 IBM Corporation IBM Institute for Business Value Le Nouveau Visage du DSI Étude IBM Global Chief Information Officer Study.
DES MEDECINE INTERNE INSCRITS (Définitivement) en 2006 – 2007.
Répondez à ces quelques questions
Cest parti ! 4x 28 x 25 Levez la tête ! 3 x 0 x 18.
REFERENCES : Décret n° du
Identités remarquables : introduction Les 3 identités remarquables
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
Avis de lAQIISTI sur la formation infirmière en systèmes et technologies de linformation: composante essentielle au développement de la pratique infirmière.
2iE contribution to development in Africa. A strong worldwide attractivity on-site learning: applications from 36 countries e-learning : applications.
Révision (p. 130, texte) Nombres (1-100).
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Quel est cet astre au comportement si curieux ?
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
RÉUNION PUBLIQUE // PUBLIC MEETING TAUX LOCATION TERRAINS SPORTIFS RENTAL FEES SPORTS FIELDS Hôtel de ville de Rockland City Hall 1560 rue Laurier Street.
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Projet - Edulink - Project AUDIS -African Universities International Dimension Strengthening (2007-9) Informative Seminar Séminaire informatif Leuven,
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Présentation générale
Les puissances de 10 - Sommaire
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Unit 2, lesson A : Objectif
Les Monnaies et billets du FRANC Les Monnaies Euro.

RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
13e édition de la Semaine des infrastructures urbaines 1 PLAN D'INTERVENTION ET STRATÉGIES D'INVESTISSEMENTS DU RÉSEAU ROUTIER, TEL QUE VU PAR LA JAMAICA.
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Objectives Revise the numbers Say and ask for the time in French Say when you do different activities Ecrivez la date.
TAX & LAW M EMBRE DU R ÉSEAU E RNST & Y OUNG 25 March 2008 HEC International Business Seminar : Key Factors and Business Location Case Study Tuesday 25.
Les Nombres 0 – 100 en français.
Les nombres.
BIOS – – Mise en œuvre Projet RosEST Développements Sebastien Carrere, LIPM Thibaut Hourlier, LIPM Coordination.
Les Nombres! de 0 à 20.
Copyright 2011 – Les Chiffres Copyright 2011 –
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Quelle heure est-il? What time is it ?.
Objectives Revise the numbers Say and ask for the time in French Tell what part of the day it is Ecrivez la date Aujourd’hui c’est _________, le _____.
Repetez
Présentation A I B BANQUE INTERNATIONALE ARABE DE TUNISIE
CALENDRIER-PLAYBOY 2020.
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
Projet de stage d’année IIR4 sous le thème:
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Knowledge Mobilization and Research Impact at UQAM La mobilisation des connaissances et l’impact de la recherche à l’UQAM KMb & Research Impact at UQAM.
Resource allocation: what can we learn from HPC? 20 janvier 2011 Vincent Breton Crédit: Catherine Le Louarn.
Transcription de la présentation:

Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Status: Public Institute Mission : provide high-throughput sequencing data to the French Academic community , and carry out in-house genomic projects Creation 1997 Part of the CEA Institut de Génomique since 05/2007

Procedures on Scientific Projects in house : evaluated by the Scientific Committee collaborative: - proposed by external labs (annual call for proposals) - evaluated by the Scientific Committee - supported by Genoscope's budget shared cost: - consumables and labor supported by applicant - other costs on Genoscope's budget - approval by Scientific committee >100 000 reads paid services

Breakdown of sequencing activity since 1998 Total reads 41 681 315

Breakdown of sequencing activity in 2006 Total reads 12 138 976 Coûts partagés 1,4%

Successful applications since 1998 Total 188

Sequence categories

Genomes (finished and in progress)

L’organisation du séquençage au Genoscope

Personnel (01/01/06) 11 7 43 9 5 26 3 6 16 140 2001 Mapping 3 6 16 140 2001 Mapping Libraries, subcloning Sequencing + template prepping Finishing Development Research projects R and D Robotics Informatics Bio-informatics QC and QA Infrastructure (Kitchen, building etc.) TOTAL (FTE) 8 11 18 15 4 27 3 21 24 2 9 150

Niveaux d’accès aux capacités du Genoscope par Appel d’Offres Projet Séquençage Sanger, 454 (2007), Solexa (2008) Assemblage, finition, clustering Annotation procaryote (MAGE) Annotation eucaryote (GAZE)

Sélection des projets Appel d’offres évalué annuellement par un conseil scientifique externe (1998-2007) A partir de 2008 : Appel d’offres (GIS Ibisa) Projets ANR (Programme Génomique)

Sequencing equipment total capacity ABI 3730 19 (30 M bases/day) 454/GSFLX 1 (100 M bases/day)

Impact des nouvelles technologies de séquençage

Evaluation des NTSs au Genoscope Qualité : des lectures et des assemblages Applications : fonction de la taille des génomes, complémentarité aux autres technologies Impact sur l’obtention d’une séquence «finie »

Exemple du séquenceur Roche / 454

454 data (flowgram) Sanger data (chromatogram)

Evaluation de la qualité des lectures : Mapping des lectures 454 sur la séquence finie d’Acinetobacter baylyi 478.961 lectures mappées (soit 99,55%) 98.200.952 nt alignés contenant 1.451.396 erreurs (soit 1,48% d’erreurs) Avec Q ≥ 20, 790.487 erreurs (8.10-3) et Q ≥ 40, 343520 erreurs (3.10-3) Sur les 172.668 lectures mappées à 100%, 60.550 sont sans erreurs (35%)

Position des erreurs dans les lectures 454

Position des erreurs par type dans les lectures 454

Evaluation des assemblages 454 Deux types d’assemblage proposés : De novo Dirigé (en utilisant la séquence d’un génome très proche)

Taille du N50 à différentes profondeurs (assemblage de novo)

Taille du N50 à différentes profondeurs (de novo vs dirigé)

Erreurs concentrées dans les régions homopolymériques Fonction de la taille de l’homopolymère Pour M. agalactiae, couverture de 30x si (N)n avec n<5, taux d’erreur ~1% si (N)n avec n<9, taux d’erreur ~5%  Le taux d’erreur dépend de la fréquence des régions homopolymériques Ce n’est pas une valeur absolue

Evaluation des NTSs au Genoscope Qualité : des lectures et des assemblages Applications : fonction de la taille des génomes, complémentarité aux autres technologies Impact sur l’obtention d’une séquence «finie »

De l’assemblage 454 au génome fini Points positifs : Pas de clonage  présence des régions incompatibles avec E. coli Quasi-insensibilité aux biais compositionnels Vitesse : une semaine de l’ADN à la séquence Points négatifs: Pas de liens entre séquences  pas de supercontigage Taux d’erreur élevé dans les homopolymères pas d’assemblage des séquences répétées

Microbial Genome Sequencing Until December 2006 : 12x coverage with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb) From january 2007 : 4x Sanger coverage, single library (10 or 40 kb) + 20x coverage GS20 reads Assembly with Arachne (Broad Institute) using Sanger reads and Newbler contigs From June 2007, 4x Sanger coverage, single library (10 or 40 kb) , + 15x coverage GSFLX reads Assembly with Arachne (Broad Institute) using Sanger reads and Newbler contigs or with Newbler2 using Sanger reads and GSFLX reads

Le séquenceur Solexa / illumina 1G Amplification directe sur lames (pas de PCR en émulsion) Séquençage par terminateurs reversibles Longueurs de lecture : 25-35 bases Débit : 40 000 000 lectures / run

Applications du Solexa/Illumina 1G (ou ABI Solid) SNP detection ChIp-Seq Quantitative / qualitative transcriptomics small RNAs …

Méthodes pour le re-séquençage : environnement informatique Objectif : aligner chaque lecture à une localisation unique (si elle existe) sur le génome de référence Exemple si utilisation de blast : 1 lecture contre 140Mb (chr9 humain) ~ 18s/CPU 1 lecture contre 3Gb ~ 386s/CPU 1Gb lectures Solexa contre 3Gb ~ 490 années/CPU 20x de lectures Solexa contre 3 Gb ~ 44.000 années/CPU Nécessité d’utiliser des méthodes différentes qui tiennent compte de la petite taille des lectures : phageAlign : compare chaque lecture avec les k-mers génomique (en triant les k-mers et en exploitant les parties communes des préfixes pour réduire le travail) ELAND : place les lectures dans une structure de données et les aligne toutes en même temps

Perspectives d’utilisation Solexa / Illumina 1G Small RNAs, tags … : avantage de coût par rapport au 454/Roche Séquençage de génomes : attente du développement d’assembleurs adaptés Amélioration de la qualité des séquences 454/Roche assemblés

Notions de coût par base (ordre de grandeur) Sanger (ABI3730xl) : 1000 euros / Mbase  taux d’erreur < 99%, assemblage de qualité à ~10 équivalents, supercontigage immédiat Roche/454 GSFLX : 100 euros / Mbase  taux d’erreur > 1% dans les régions homopolymériques, assemblage de qualité à ~20 équivalents, pas de supercontigage Illumina 1G : <10 euros / Mbase  taux d’erreur <99.9 % , pas d’assemblage de qualité …

4x 15x 0.5x 10-100x Assemblage, finition Assemblage, finition 15x

Evolution accélérée des NTSs Roche / 454 2006 : 20 Mb par run (100 bases par lecture) 2007 : 100 Mb par run (250 bases par lecture) 2008 : 1 Gb par run (500 bases par lecture) Solexa/Illumina 1G 2007 : 1 Gb par run (32 bases par lecture) 2008 : 3 Gb par run (50 bases par lecture, lectures en paires)  Difficile de prévoir quelle technologie sera utilisée pour séquencer un génome dans 1-2 ans …

Vers un séquençage génomique à très bas coût Dépendra de la capacité à assembler des séquences courtes et peu chères : Développement de lectures « paired-ends » ? Allongement des longueurs utiles de type Solexa ? Baisse des coûts des lectures 454 ? Amélioration spectaculaire des logiciels d’assemblage ? Arrivée d’une nouvelle technologie ?

Une perspective très mobile … Les programmes de comparaison multi-génomes devraient se généraliser La métagénomique connaîtra un développement exponentiel De nombreux projets jugés jusqu’alors trop coûteux deviennent réalisables … Mais toutes ces perspectives nécessitent des progrès pour être envisageables pour des génomes de grande taille

Une perspective très mobile … Les technologies utilisées peuvent devenir caduques très vite Les besoins informatiques augmentent considérablement Risque d’envahissement par des données massives de faible qualité

Director : J. Weissenbach Sequencing coordination : P. Wincker Production Sequencing: J. Poulain Roche / 454 development : C. Cruaud Informatics: C. Scarpelli, V. Vico, V. Anthouard, J. Leseaux Assembly : J.M. Aury