Séquençage à Haut Débit et applications Valérie Duranton-Tanneur Laboratoire de Génétique des Tumeurs Solides
Historique des technologies
Historique des technologies Méthode Sanger « historique » ADN inconnu à séquencer ATGCATGCAGTCGCCT TACG* synthèse du brin d’ADN complémentaire TACGTACG* TACGTACGTCAG* TACGTACGTCAGCG* TACGTACGTCAGCGG * * arrêt de la synthèse par utilisation du ddGTP 4 réactions de séquences contenant : ADN matrice l’amorce (ou primer) l’ADN polymérase I les nucléotides (dATP,dCTP, dGTP, dTTP) + 1 di-déoxynucléotide marqué au 35S La méthode qualitative repose sur l’utilisation de ddNTP qui va terminer la séquence de manière aléatoire Migration des fragments sur gel en fonction de leur taille – lecture de séquence manuelle
Historique des technologies Evolution de la technique Sanger Di-désoxynucléotides marqués avec des fluorophores différents = 4 réactions dans le même tube Séquençage automatisé des produits de PCR par électrophorèse à haute résolution (séquenceur en gel plat, séquenceur capillaire) Résultat = gain de temps considérable ATGCATGCAGTCGCCT TACGTACGTC sens de copie
Historique des technologies Puces à ADN Analyse qualitative et quantitative des séquences
Séquençage haut débit NGS : Next Generation Sequencing / HTS : High Throughput Sequencing Grands principes : Intégration (système combinant les avantages de la PCR et des puces) Parallélisation (PCR multiplex) Miniaturisation
Le NGS a permis le séquençage entier du génome humain
Séquençage haut débit : Principe Matériel biologique : ADN ou ARN Etapes communes aux différentes technologies : Fragmentation enzymatique de l’ADN Préparation d’une banque d’ADN (library) par ligation d’adaptateurs Amplification clonale Séquençage générant des signaux (luminescent ou fluorescent Détection des signaux émis et conversion en séquence Voelkerding 2010
Technologies de séquençage à haut débit
Comparaison des technologies de séquençage à haut débit Tothill 2011 Séquenceur de paillasse Un run (réalisation d’un processus complet par la machine) produit un grand nombre de lectures (reads) correspondant à des séquences d’ADN ou d’ARN. La capacité de la machine se mesure en nombre total de bases séquencées.
Préparation des banques (« Library ») Fragmentation de l’ADN ou du cDNA et/ou sélection des molécules à séquencer (ARN, ADN immuno-précipités) Ligation à bout franc d’adaptateurs spécifiques à chaque technologie pour permettre une amplification par PCR.
Amplification clonale Crée jusqu’à 1000 copies identiques de chaque molécule (« clusters ») jusqu’à 10 millions de clusters par cm2
Séquençage et analyse Chaque plateforme possède sa propre méthode de séquençage : Pyroséquençage – Roche 454 Reverse Dye Terminator (RDT) – Illumina Séquençage par ligation- 5500 series SOLiD sequencers(Life Tech) Séquençage par mesure ionique – Ion Torrent (Life Tech)
Applications du NGS ADN ARN Génome entier ADN codant ADN immuno- précipité ADN méthylé ARN immuno- précipité ARN Non codant ARNm miARN Genome de novo Mutations/SNP Small RNASeq RNASeq ExomeSeq ClipSeq ChipSeq Séquençage de novo Re- séquençage Séquençage d’ARN MeDIPSeq BisulfiteSeq Interactions ADN/protéines Interactions ARN/protéines Méthylation De l’ADN
Principales applications du NGS Etudes génomiques DNA-Seq : Séquençage de fragments d’ADN comparaison de souches bactériennes ou virales, comparaison de régions ciblées au sein d’une espèce DNA Exome-Seq : Séquençage de fragments d’ADN de régions exoniques choisies détection et identification de SNP Etudes transcriptomiques RNA-Seq : Séquençage de fragments transcrits transcriptome (comparaison de l’expression des gènes entre conditions biologiques/échantillons), découverte de nouveaux transcrits, identification de sites d’initiation de la transcription Etudes épigénétiques MeDIP-Seq (Methylated DNA immunoprecipitation) : Séquençage de fragments d’ADN isolés par immunoprécipitation avec un Ac dirigé contre la 5-methylcytosine permettant d’étudier la méthylation de l’ADN CHIP-Seq (Chromatin immunoprecipitation) : Séquençage de de fragments d’ADN en interaction avec une protéine d’intérêt
Avantages du NGS Très grande sensibilité de détection (1 copie par cellule) Lecture de plus en plus longue en un temps de plus en plus court ex : 454 (Roche) 20 Mb/run – 100 bp/read en 2006 700 Mb/run – 700 bp/read en 2012 Coût de – en – élevé avec l’apparition de NGS de paillasse Giraud et Salson 2011 Critères rendant envisageable une application en diagnostic
Limites du NGS Quantité de données recueillies (traitement et stockage des données, recours à un bio-informaticien) Problèmes au niveau insertions/délétions Ethique
NGS dans le cadre des thérapies ciblées du cancer 2006 : création des plateformes de génétiques hospitalières des cancers Mise au point de 14 tests déterminants pour l’accés aux thérapies ciblées Actuellement 1 test = 1 technique
Exemple d’un adénocarinome pulmonaire
Exemple d’un autre cas d’adénocarinome pulmonaire : les choses se corsent!
Evolution des techniques 454/Roche Illumina
Observed Raw Error Rate Plateform SOLID 5500xl (Life Tech) GS FLX+ (Roche) HiSeq 2000 (Illumina) Ion Torrent GS Jr. MiSeq Total output/run 95 Gb 700 Mb 600 Gb 1 Gb on 318 chip 35 Mb ~4 Gb Run Time 6 days 23 hours 11 days 2 hours 10 hours 24 hours Read length 2X60 bases Up to 1kb 2X100 bases ~200 bases ~400 bases 2X150 bases Observed Raw Error Rate 1% ~1% 0,26 % 1,71 % 0,80 % Instrument cost $ 595 $ 500 $ 650 $ 80 K $ 125 K $ 130 K Sequencing Cost per Gb $ 100 $ 115 $ 41 $ 80 $ 35 ~$ 250