La Génomique Présentation dans le cadre du cours BIN 6002 Caroline Labelle, Lisa-Marie Legault, Sandra Therrien-Laperrière
Introduction à la génomique et son utilité en science Lisa-Marie Legault
Génomique - Définition Mader 2010 Génomique - Définition Étude de l’ensemble du génome d’un organisme pour comprendre son fonctionnement, sa structure et son organisation Étude de grande échelle, évite de se limiter à un gène. Peu étudier le génome de tout organisme vivant.
La génomique et le séquençage www.illumina.com La génomique et le séquençage Séquence génomique = Séquence d’ADN. Composé de nucléotides ACTG. Génomique = séquençage. Séquençage haut-débit, beaucoup de séquences pour un prix abordable
Historique de la génomique www.yourgenome.org Historique de la génomique 1976 : premiers génome séquencés Génome du bactériophage MS2 (génome d’ARN, 3569bp) Génome du Phage PhiX174 (génome d’ADN, 5386bp). 1995 : première bactérie séquencée Heamophilus influenza, 1.8 millions bp. 1996 : premier eucaryote séquencé Saccharomyces cerevisiae, 12.1 millions bp. Et l’humain? 2001 : première fois que le génome humain fut séquencé 12.1 millards bp. Coût : 2.7 millards
www.1000genomes.org 1000 genomes project De 2008 à 2015 But : séquencer 1000 génomes humains. Trouver le plus de variations génétiques présentes chez au moins 1% de la population étudier. Créer une banque de données sur les variations et différents génotypes du génome humain
1000gp – analyses et résultats www.1000genomes.org 1000gp – analyses et résultats Final : 2504 génomes séquencés d’individus provenant de 26 population Données avec «low coverage » et contenant les séquences des exons 24 individus séquencés « high coverage » pour validation Analyse pour trouver les variations courtes, et celles dans la structure des génomes.
1000gp – dernière publication Sudmant et al, 2015 1000gp – dernière publication Mapping des variations dans le génome humain
www.encodeproject.org; Leja et al, 2016 The ENCODE project But : Créer une liste/banque de données des différents éléments fonctionnelles du génome humain Éléments régulateurs S’intéresse pas juste à la séquence d’ADN, mais à l’ensemble des éléments du génome.
Génomique structurale Mader 2010 Génomique structurale Étude des structures du génome d’un organisme. Connaître la séquence des bases et le nombre de gène Séquençage du génome Annotation du génome : prédiction et identification (par homologie ou par des algorithmes) des séquences correspondant aux gènes, aux « enhancers », aux éléments transposables, aux séquences régulatrices.
Génomique fonctionnelle Mader, 2010 et Olkkola et al., 2016 Génomique fonctionnelle Identification de la fonction et du processus cellulaire relié aux séquences annotées du génome. Ex. Identification d’un nouveau gène de résistance chez une bactérie.
Génomique comparative Mader 2010 Génomique comparative Étude de comparaison entre le génome de plusieurs organismes ou de quelques souches d’un organisme. Compare les séquence pour identifier des fonctions par homologies, compréhension du métabolisme. Compréhension des relations de parasitisme Étude phylogénomique : rapprochement de deux organismes
Génomique comparative Liu et al., 2016 Génomique comparative
Applications de la génomique Reuter et al., 2015 Applications de la génomique
Application - Mutation Campbell & Reece., 2011 Application - Mutation Découverte de mutations : SNPs, insertion, délétion. Permet d’estimer la fréquence d’un allèle dans une population. Utile pour les études génétiques (statistiques associés à certains génotypes), prévalence et le diagnostic de plusieurs maladies. ACCTAGAC ACCTAGAC ACCTAGAC ACCAAGAC ACCTGCTAGAC ACGAC
Génomique, mutations et maladies Toogeh et al., 2016; Yavuzyigitoglu et al., 2016 Génomique, mutations et maladies Certains SNPs peuvent augmenter ou diminuer la prévalence d’une maladie Certaines mutations causent une maladie
Découverte de mutation Altmann et al., 2012; Yu and Sun, 2013 Découverte de mutation Données de Whole genome sequencing ou Whole exome sequencing. Alignement au génome de référence (si disponible), puis algorithme pour détecter les SNPs. Coverage suffisant : séquence lu 10X ou plus selon les études. Permet une meilleure prédiction. Études pour développer et tester des algorithmes de prédiction pour les cas de données avec peu de couverture (low-coverage).
Kim et al. , 2011; Nielsen et al. , 2011; Nielsen et al Kim et al., 2011; Nielsen et al., 2011; Nielsen et al., 2012 Cheng et al., 2014 Analyse des mutations Importance d’avoir des algorithmes robustes et outils d’analyses : différences entre un SNP et un erreur de séquençage. Plusieurs études ont comparé ces algorithmes
Application – Méthylation Smith et al., 2009; Harris et al., 2010 Application – Méthylation Épigénétique : étude la méthylation du génome par Whole genome bisulfite sequencing (WGBS) et Reduced representation bisulfite sequencing (RRBS) Techniques encore très utilisées
Smith et al., 2009 WGBS/RRBS Séquençage sur Illumina HiSeq2500 125bp paired-end de librairies d’ADN convertie au bisulfite Permet d’étudier la méthylation du génome et donc l’expression des gènes. Utile pour connaître et comprendre certaines maladies et dans le domaine de la reproduction. Analyse : Besoin d’un pipeline bio-informatique spécifique pour l’alignement d’ADN convertie au bisulfite
Reduced Representation Bisulfite Sequencing (RRBS) Harris et al., 2010; McGraw et al., 2015 Reduced Representation Bisulfite Sequencing (RRBS) Génome de référence 100 bp Compartiment = tuile Cartographie de la méthylation avec haute résolution 1.5 millions de sites CpG à travers le génome Localiser et quantifier la méthylation de CpGs individuels 225 millions de reads Analyse RRBS : 250 000 tuiles totales
Méthylation - résultats Adapté de Legault et al., en préparation Méthylation - résultats
Application - Chromatine Mardis, 2007 Application - Chromatine Épigénétique : étude de la chromatine et des modifications des histone par ChIP-Seq Séquençage sur Illumina HiSeq2500 50bp paired-end de librairies d’ADN précipité avec des anticorps spécifiques pour certaines marques d’histones (immunoprécitation de chromatine ).
ChIP-seq Permet d’étudier la chromatine du génome. Jones, 2016 ChIP-seq Permet d’étudier la chromatine du génome. Étude génomique de l’expression des gènes Utile pour connaître et comprendre certaines maladies et la réponse à certains traitements (ex. cancer). Ex. Certaines modifications d’histones augmentent le risque de maladie
Adapté de Legault et al., en préparation ChIP-seq - résultats
Application - phylogénie Bowden et al., 2015 Application - phylogénie Étude de phylogénomique Génomique comparative L’étude du génome de plusieurs souches ou plusieurs organismes Établir les relations et le liens entre eux, leur proximité. Prédictions de fonctions Photo génomique comparative (papier)
Phylogénomique Encore beaucoup d’étude en phylogénomique. Bowden et al., 2015; Uribe-Convers et al., 2016; Zhang et al., 2016 Phylogénomique Encore beaucoup d’étude en phylogénomique. Comprendre l’évolution des espèces
Application - Relations Mader, 2010 Application - Relations Étude des relations endosymbiotiques Pourquoi certaines relations sont mutualistes et d’autres parasitismes. Utilise la génomique comparative 2 exemples d’études
Fenn and Blaxter, 2006 Wolbachia Pathogènes chez les arthropodes, mutualistes chez les nématodes. Études du génome, annotation et recherche de fonction. Certains phages sont présents chez les Wolbachia des arthropodes et absents chez les Wolbachia des nématodes Métabolisme mutualisme?
Fenn and Blaxter, 2006 Pseudovibrio Grande variété de souche. Pas toutes le même potentiel pathogénique chez différentes espèces. Annotation des génomes de plusieurs souches, analyse vs le génome de référence et analyse phylogénomique. Systèmes sécréteurs de toxines et leurs effecteurs exprimés différemment
La génomique et notre projet Relation endosymbiotique entre une bactérie et son hôte eucaryote. Bactérie ne peut vivre sans l’hôte et l’hôte ne peut vivre sans la bactérie. Pourquoi? Pathogène pour certains autres eucaryotes (mutualisme vs parasitisme). Pourquoi? Proximité avec un autre pathogène connu pour l’espèce ou un autre endosymbiote? (phylogénomique)
Génomique et endosymbiose Assemblage et annotation du génome. Détermination des protéines, fonctions et processus cellulaires des séquences génomique de la bactérie. Logiciels spécialisés
Génomique et endosymbiose Fenn et Blaxter, 2006 Génomique et endosymbiose Recherche de fonction et processus cellulaire essentiel à l’autre (ex molécule produite par la bactérie essentielle à l’hôte où enzyme manquant dans un pathway de la bactérie). Exemple de Wolbachia :
Phylogénomique et endosymbiose Proximité avec un autre pathogène connu pour l’espèce ou un autre endosymbiote connu pour l’hôte : étude phylogénomique Alignement avec des génomes de référence d’autres espèces connus Similitude avec notre génome Comparaison des annotations de fonctions
Le séquençage de nouvelle génération et le séquençage à haut débit Caroline Labelle
Les technologies de séquençage Metzker, 2010 Les technologies de séquençage Séquençage de première génération i.e. Automated Sanger sequencing Séquençage de prochaine génération (NGS) Clonage bactériale et PCR Purification de template Identification de fragments d’ADN Méthode de chain terminaison i.e transfert d’énergie ADN polymérase dNTPs marqués d’un colorant Electrophorèse capillaire Détection de fluorescence Préparation des templates Séquençage et imagerie Méthodes d’alignement de génome et/ou d’assemblage REF: Metzker, M.L., Sequencing technologies - the next genera=on. Nat Rev Genet, 2010. 11(1): p. 31-46.
Première vs. Prochaine génération Metzker, 2010 Première vs. Prochaine génération « The major advance offered by NGS is the baility to produce an enormous volume of data cheaply » Le prix de séquençage d’un million de nucléotides équivaut entre 4 et 0.1% du prix pour le même nb de nucléotides avec la méthode Sanger La variété de NGS proposés fait en sorte que plusieurs plateformes peuvent être mises en place et coexistant sur le plan économique: chacune ayant plus ou moins de nets avantages que d’autres pour des applications aprticulières REF: Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46.
Le séquençage de prochaine génération NHGR, 2015 Le séquençage de prochaine génération REF: National Human Genome Research Institue (https://www.genome.gov/27541954/dna-sequencing-costs/)
Le séquençage de prochaine génération Reuter et al., 2015 Le séquençage de prochaine génération REF: Reuter, J.A., D.V. Spacek, and M.P. Snyder, High-throughput sequencing technologies. Mol Cell, 2015. 58(4): p. 586-97.
Méthodes de séquençage: FGS Séquençage capillaire, Sanger Kircher and Kelso, 2010 Méthodes de séquençage: FGS Séquençage capillaire, Sanger REF: Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36.
Méthodes de séquençage: NGS Pyroséquençage, Roche/454 Metzker, 2010 Méthodes de séquençage: NGS Pyroséquençage, Roche/454 A. B. C. REF: Metzker, M.L., Sequencing technologies - the next genera=on. Nat Rev Genet, 2010. 11(1): p. 31-46.
Méthodes de séquençage: NGS Séquençage par ligature, Life/APG Metzker, 2010; Kircher and Kelso, 2010 Méthodes de séquençage: NGS Séquençage par ligature, Life/APG A. B. C. The sequence extension reaction is not carried out by polymerase, but ligase Un primer est hybridée au brin que l’on séquencer Ajout d’une mixture de probes Chacun ayant 4 marqueurs fluorescents distincts Les probes sont en compétition pour se lier au primer Une lié, le fluorophore REF (A,C): Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. REF (B): Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36
Metzker, 2010 Méthodes de séquençage: NGS Séquençage à terminaison réversible, Illumina A. B. REF : Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. C.
Comparaison des méthodes de NGS/HTS Metzker, 2010; Kircher and Kelso, 2010; Morey et al., 2013 Comparaison des méthodes de NGS/HTS Plateforme Débit (Mb/jour) Prix ($/Mb) Longueur (bases) Avantages Désavantages Source(s) principale(s) d’erreurs Roche/454 750 20 330* Meilleur « mapping » de régions répétitives Rapide (23 heures) Coût des réactifs Haut taux d’erreurs homopolymère (répétition) Amplification Interférence (voisin) Homopolymère Life/APG 5,000 0.50 50 « Two-base encoding » Haut débit Lent (14 jours) Déclinaison du signal Illumina 5, 000 75 ou 100 Plateforme la plus utilisée Plusieurs applications Faible capacité de multiplexage « Base labelling » REF: Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36 REF: Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. REF: Morey, M., et al., A glimpse into past, present, and future DNA sequencing. Mol Genet Metab, 2013. 110(1-2): p. 3-24 * Longueur moyenne des « reads »
Séquençage de troisième génération Morey et al., 2013 Séquençage de troisième génération « The main advantage og TGS is their ability to sequence single molecules of DNA with no need of clonal amplification sequencing» REF: Morey, M., et al., A glimpse into past, present, and future DNA sequencing. Mol Genet Metab, 2013. 110(1-2): p. 3-24
Les outils d’analyse bio-informatique Sandra Therrien-Laperrière
Workflow : Séquençage du Génome Entier Pré-traitement des données (qualité) Assemblage du génome et évaluation Prédiction et annotation de protéines Prédiction des voies métaboliques
1.1 Pré-traitement - Qualité des reads - FastQC Score de qualité Par position des Bases. Distribution des Scores de qualité Pour l’ensemble des reads. Contenu en base à chaque position pour l’ensemble des reads. Distribution de la longueur des Séquences.
Algorithmes: Window Based ou Running Sum 1.2 Pré-traitement Gesstion des nucléotides de basse qualité Solution 1: corriger les erreurs en se basant sur la superposition des reads Solution 2: « trim » i.e. enlever les reads de mauvaises qualités Algorithmes: Window Based ou Running Sum
Trim analysis on Genome Federico M. Giorgi (2013)
Trim analysis on Genome Federico M. Giorgi (2013)
2. Alignement et Assemblage Alignement sur un génome de référence Alignement Hashed-seed Arbre des suffixes Logiciels BLAST, LASTZ, MOSAÏK Bowtie, BWA backtrack, SOAPS Forces + Précis + Utilise peu d’espace mémoire Faiblesses - Utilise beaucoup de mémoire - Moins précis
2. Alignement et Assemblage Wenyu et al., 2011 2. Alignement et Assemblage 2. Assemblage de novo
2. Évaluation de l’assemblage Analyse de l’assemblage, intégration de plusieurs assemblage Métriques: nombre de nucléotides assemblés couverture moyenne N50 Longueur des contigs Logiciels: CISA, contigs integrator MUMmer, Mugsy, BLAST MAUVE
3. Prédiction et annotation de protéines Cheng et al., 2014 3. Prédiction et annotation de protéines Comparison of the accuracy of variant calling methods across various sequencing coverage depths for variants (filtered) on chromosome 20 of the Omni1-Quad array Comparison of the accuracy of variant calling methods across various sequencing coverage depths for variants (filtered) on chromosome 20 of the Omni1-Quad array. Accuracy values for 1kgp-GATK and 1kgp-SAMtools at 10 and 20× are interpolated between 5 and 30× © The Author 2014. Published by Oxford University Press. All rights reserved. For Permissions, please email: journals.permissions@oup.com
3. Annotation Analyse de l’assemblage, intégration de plusieurs assemblages Logiciels PROKKA: plusieurs Algorithme de BLAST, outils de prédiction Glimmer: identification de gène SignalP: pour identification de peptides Infernal: AND non-codant
Seemann, 2014 3. Annotation Analyse de l’assemblage, intégration de plusieurs assemblage E. coli K-12 accession U00096.2
4. Prédiction de voies métaboliques Athey, 2011 4. Prédiction de voies métaboliques
Discussion