La Génomique Présentation dans le cadre du cours BIN 6002

Slides:



Advertisements
Présentations similaires
L’exemple du « run Auto SEQ-15 18 » correspond au séquençage d’un génome bactérien (environ 4Mb) sur une puce 316 (100Mb) et va servir de base à une présentation.
Advertisements

Taxonomie bactérienne
L’ADN, support universel de l’information génétique
L'hybridation fluorescente (FISH)
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Le séquençage à grande échelle au Genoscope
La génétique bactérienne cours 5
I) Obtention de l’ADN recombinant
Marqueurs génétiques Caractères (phénotypiques, biochimiques, moléculaires) polymorphes (entre individus, espèces, …) permettant - l’établissement de cartes.
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Les enzymes : outils de biologie moléculaire Enzymes de restriction: endonucléases Kinases: ajoutent un phosphate (P*) Phosphatases: retirent un phosphate.
Analyse bioinformatique de données de séquençage NGS médicales
Le séquençage à haut débit : les enjeux et applications
ADN.
Projet Génome Humain (HGP)
Collège Lionel-Groulx
Partie 2: Du génotype au phénotype, relations avec l’environnement
BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:
Identifier les composants structurels et fonctionnels encodés dans le génome humain.
Etablissement d’une carte génomique pour l’espèce canine
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Département Génétique et Génomique Evolutives
Traitement de l'information chez les organismes vivants
CHAPITRE 19 - La génétique des populations
Clonage Moléculaire.
La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)
LA SYNTHÈSE DES PROTÉINES
ADN à ARN La synthèse des protéines étape 1
LA SYNTHÈSE DES PROTÉINES
Génétique de la résistance aux mammites chez les bovins laitiers
"POLYMORPHISME" Plusieurs Formes
Applied Genomics (TAG)
Co-expression = fonction (Eisen et al., PNAS 1998)
Formation Bio-informatique IRD
Les biotechnologies « L’homme est devenu trop puissant pour se permettre de jouer avec le mal. L’excès de sa force le condamne à la vertu » Jean Rostand,
Introduction Matériels et méthodes Résultats
Collège Lionel-Groulx
Introduction à la Pathologie Moléculaire du Gène
Réseau d’interactions Développement, reproduction,
De l’ADN aux protéines Introduction.
Analyse de données NGS par Galaxy
Quelques notions de génétique
Clonage Moléculaire.
Institut Universitaire de Technologie de Clermont-Ferrand
La génétique et la biométrie
Cartographie génomes entiers
L’analyse d’ADN et la génomique
Aspects techniques des biotechnologies
« Ecologie et dynamique des populations » Unité de Pathologie Végétale
Introduction à la bioinformatique « Génomique Nouvelle Génération »
Chapitre 2 : La nature du vivant.
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
P Analyse méthylomique prénatale non invasive par séquençage pangénomique au bisulfite de l’ADN plasmatique maternel F.M.F. Lun, R.W.K. Chiu, K. Sun, T.Y.
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
CHMI 4206 Bioinformatique appliquée
Les biotechnologies « L’homme est devenu trop puissant pour se permettre de jouer avec le mal. L’excès de sa force le condamne à la vertu » Jean Rostand,
Aspects techniques des biotechnologies
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Techniques d’Analyse Moléculaire
Séquençage à Haut Débit et applications
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
La parasexualité des bactéries Le génome bactérien.
Le séquençage du génome entier : prochain test central des laboratoires de génétique médicale ? Damien Sanlaville Nicolas Chatron Laboratoire de Cytogénétique.
Plan du cours 1. Introduction 2. L’eau 3. Les acides aminés, les peptides et les protéines 4. La structure tridimensionnelle des protéines 5. Exploration.
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
Transcription de la présentation:

La Génomique Présentation dans le cadre du cours BIN 6002 Caroline Labelle, Lisa-Marie Legault, Sandra Therrien-Laperrière

Introduction à la génomique et son utilité en science Lisa-Marie Legault

Génomique - Définition Mader 2010 Génomique - Définition Étude de l’ensemble du génome d’un organisme pour comprendre son fonctionnement, sa structure et son organisation Étude de grande échelle, évite de se limiter à un gène. Peu étudier le génome de tout organisme vivant.

La génomique et le séquençage www.illumina.com La génomique et le séquençage Séquence génomique = Séquence d’ADN. Composé de nucléotides ACTG. Génomique = séquençage. Séquençage haut-débit, beaucoup de séquences pour un prix abordable

Historique de la génomique www.yourgenome.org Historique de la génomique 1976 : premiers génome séquencés Génome du bactériophage MS2 (génome d’ARN, 3569bp) Génome du Phage PhiX174 (génome d’ADN, 5386bp). 1995 : première bactérie séquencée Heamophilus influenza, 1.8 millions bp. 1996 : premier eucaryote séquencé Saccharomyces cerevisiae, 12.1 millions bp. Et l’humain? 2001 : première fois que le génome humain fut séquencé 12.1 millards bp. Coût : 2.7 millards

www.1000genomes.org 1000 genomes project De 2008 à 2015 But : séquencer 1000 génomes humains. Trouver le plus de variations génétiques présentes chez au moins 1% de la population étudier. Créer une banque de données sur les variations et différents génotypes du génome humain

1000gp – analyses et résultats www.1000genomes.org 1000gp – analyses et résultats Final : 2504 génomes séquencés d’individus provenant de 26 population Données avec «low coverage » et contenant les séquences des exons 24 individus séquencés « high coverage » pour validation Analyse pour trouver les variations courtes, et celles dans la structure des génomes.

1000gp – dernière publication Sudmant et al, 2015 1000gp – dernière publication  Mapping des variations dans le génome humain

www.encodeproject.org; Leja et al, 2016 The ENCODE project But : Créer une liste/banque de données des différents éléments fonctionnelles du génome humain Éléments régulateurs S’intéresse pas juste à la séquence d’ADN, mais à l’ensemble des éléments du génome.

Génomique structurale Mader 2010 Génomique structurale Étude des structures du génome d’un organisme. Connaître la séquence des bases et le nombre de gène Séquençage du génome Annotation du génome : prédiction et identification (par homologie ou par des algorithmes) des séquences correspondant aux gènes, aux « enhancers », aux éléments transposables, aux séquences régulatrices.

Génomique fonctionnelle Mader, 2010 et Olkkola et al., 2016 Génomique fonctionnelle Identification de la fonction et du processus cellulaire relié aux séquences annotées du génome. Ex. Identification d’un nouveau gène de résistance chez une bactérie.

Génomique comparative Mader 2010 Génomique comparative Étude de comparaison entre le génome de plusieurs organismes ou de quelques souches d’un organisme. Compare les séquence pour identifier des fonctions par homologies, compréhension du métabolisme. Compréhension des relations de parasitisme Étude phylogénomique : rapprochement de deux organismes

Génomique comparative Liu et al., 2016 Génomique comparative

Applications de la génomique Reuter et al., 2015 Applications de la génomique

Application - Mutation Campbell & Reece., 2011 Application - Mutation Découverte de mutations : SNPs, insertion, délétion. Permet d’estimer la fréquence d’un allèle dans une population. Utile pour les études génétiques (statistiques associés à certains génotypes), prévalence et le diagnostic de plusieurs maladies. ACCTAGAC ACCTAGAC ACCTAGAC ACCAAGAC ACCTGCTAGAC ACGAC

Génomique, mutations et maladies Toogeh et al., 2016; Yavuzyigitoglu et al., 2016 Génomique, mutations et maladies Certains SNPs peuvent augmenter ou diminuer la prévalence d’une maladie Certaines mutations causent une maladie

Découverte de mutation Altmann et al., 2012; Yu and Sun, 2013 Découverte de mutation Données de Whole genome sequencing ou Whole exome sequencing. Alignement au génome de référence (si disponible), puis algorithme pour détecter les SNPs. Coverage suffisant : séquence lu 10X ou plus selon les études. Permet une meilleure prédiction. Études pour développer et tester des algorithmes de prédiction pour les cas de données avec peu de couverture (low-coverage).

Kim et al. , 2011; Nielsen et al. , 2011; Nielsen et al Kim et al., 2011; Nielsen et al., 2011; Nielsen et al., 2012 Cheng et al., 2014 Analyse des mutations Importance d’avoir des algorithmes robustes et outils d’analyses : différences entre un SNP et un erreur de séquençage. Plusieurs études ont comparé ces algorithmes

Application – Méthylation Smith et al., 2009; Harris et al., 2010 Application – Méthylation Épigénétique : étude la méthylation du génome par Whole genome bisulfite sequencing (WGBS) et Reduced representation bisulfite sequencing (RRBS) Techniques encore très utilisées

Smith et al., 2009 WGBS/RRBS Séquençage sur Illumina HiSeq2500 125bp paired-end de librairies d’ADN convertie au bisulfite Permet d’étudier la méthylation du génome et donc l’expression des gènes. Utile pour connaître et comprendre certaines maladies et dans le domaine de la reproduction. Analyse : Besoin d’un pipeline bio-informatique spécifique pour l’alignement d’ADN convertie au bisulfite

Reduced Representation Bisulfite Sequencing (RRBS) Harris et al., 2010; McGraw et al., 2015 Reduced Representation Bisulfite Sequencing (RRBS) Génome de référence 100 bp Compartiment = tuile Cartographie de la méthylation avec haute résolution 1.5 millions de sites CpG à travers le génome Localiser et quantifier la méthylation de CpGs individuels 225 millions de reads Analyse RRBS : 250 000 tuiles totales

Méthylation - résultats Adapté de Legault et al., en préparation Méthylation - résultats

Application - Chromatine Mardis, 2007 Application - Chromatine Épigénétique : étude de la chromatine et des modifications des histone par ChIP-Seq Séquençage sur Illumina HiSeq2500 50bp paired-end de librairies d’ADN précipité avec des anticorps spécifiques pour certaines marques d’histones (immunoprécitation de chromatine ).

ChIP-seq Permet d’étudier la chromatine du génome. Jones, 2016 ChIP-seq Permet d’étudier la chromatine du génome. Étude génomique de l’expression des gènes Utile pour connaître et comprendre certaines maladies et la réponse à certains traitements (ex. cancer). Ex. Certaines modifications d’histones augmentent le risque de maladie

Adapté de Legault et al., en préparation ChIP-seq - résultats

Application - phylogénie Bowden et al., 2015 Application - phylogénie Étude de phylogénomique Génomique comparative L’étude du génome de plusieurs souches ou plusieurs organismes Établir les relations et le liens entre eux, leur proximité. Prédictions de fonctions Photo génomique comparative (papier)

Phylogénomique Encore beaucoup d’étude en phylogénomique. Bowden et al., 2015; Uribe-Convers et al., 2016; Zhang et al., 2016 Phylogénomique Encore beaucoup d’étude en phylogénomique. Comprendre l’évolution des espèces

Application - Relations Mader, 2010 Application - Relations Étude des relations endosymbiotiques Pourquoi certaines relations sont mutualistes et d’autres parasitismes. Utilise la génomique comparative 2 exemples d’études

Fenn and Blaxter, 2006 Wolbachia Pathogènes chez les arthropodes, mutualistes chez les nématodes. Études du génome, annotation et recherche de fonction. Certains phages sont présents chez les Wolbachia des arthropodes et absents chez les Wolbachia des nématodes Métabolisme mutualisme?

Fenn and Blaxter, 2006 Pseudovibrio Grande variété de souche. Pas toutes le même potentiel pathogénique chez différentes espèces. Annotation des génomes de plusieurs souches, analyse vs le génome de référence et analyse phylogénomique. Systèmes sécréteurs de toxines et leurs effecteurs exprimés différemment

La génomique et notre projet Relation endosymbiotique entre une bactérie et son hôte eucaryote. Bactérie ne peut vivre sans l’hôte et l’hôte ne peut vivre sans la bactérie. Pourquoi? Pathogène pour certains autres eucaryotes (mutualisme vs parasitisme). Pourquoi? Proximité avec un autre pathogène connu pour l’espèce ou un autre endosymbiote? (phylogénomique)

Génomique et endosymbiose Assemblage et annotation du génome. Détermination des protéines, fonctions et processus cellulaires des séquences génomique de la bactérie. Logiciels spécialisés

Génomique et endosymbiose Fenn et Blaxter, 2006 Génomique et endosymbiose Recherche de fonction et processus cellulaire essentiel à l’autre (ex molécule produite par la bactérie essentielle à l’hôte où enzyme manquant dans un pathway de la bactérie). Exemple de Wolbachia :

Phylogénomique et endosymbiose Proximité avec un autre pathogène connu pour l’espèce ou un autre endosymbiote connu pour l’hôte : étude phylogénomique Alignement avec des génomes de référence d’autres espèces connus Similitude avec notre génome Comparaison des annotations de fonctions

Le séquençage de nouvelle génération et le séquençage à haut débit Caroline Labelle

Les technologies de séquençage Metzker, 2010 Les technologies de séquençage Séquençage de première génération i.e. Automated Sanger sequencing Séquençage de prochaine génération (NGS) Clonage bactériale et PCR Purification de template Identification de fragments d’ADN Méthode de chain terminaison i.e transfert d’énergie ADN polymérase dNTPs marqués d’un colorant Electrophorèse capillaire Détection de fluorescence Préparation des templates Séquençage et imagerie Méthodes d’alignement de génome et/ou d’assemblage REF: Metzker, M.L., Sequencing technologies - the next genera=on. Nat Rev Genet, 2010. 11(1): p. 31-46.

Première vs. Prochaine génération Metzker, 2010 Première vs. Prochaine génération «  The major advance offered by NGS is the baility to produce an enormous volume of data cheaply » Le prix de séquençage d’un million de nucléotides équivaut entre 4 et 0.1% du prix pour le même nb de nucléotides avec la méthode Sanger La variété de NGS proposés fait en sorte que plusieurs plateformes peuvent être mises en place et coexistant sur le plan économique: chacune ayant plus ou moins de nets avantages que d’autres pour des applications aprticulières REF: Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46.

Le séquençage de prochaine génération NHGR, 2015 Le séquençage de prochaine génération REF: National Human Genome Research Institue (https://www.genome.gov/27541954/dna-sequencing-costs/)

Le séquençage de prochaine génération Reuter et al., 2015 Le séquençage de prochaine génération REF: Reuter, J.A., D.V. Spacek, and M.P. Snyder, High-throughput sequencing technologies. Mol Cell, 2015. 58(4): p. 586-97.

Méthodes de séquençage: FGS Séquençage capillaire, Sanger Kircher and Kelso, 2010 Méthodes de séquençage: FGS Séquençage capillaire, Sanger REF: Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36.

Méthodes de séquençage: NGS Pyroséquençage, Roche/454 Metzker, 2010 Méthodes de séquençage: NGS Pyroséquençage, Roche/454 A. B. C. REF: Metzker, M.L., Sequencing technologies - the next genera=on. Nat Rev Genet, 2010. 11(1): p. 31-46.

Méthodes de séquençage: NGS Séquençage par ligature, Life/APG Metzker, 2010; Kircher and Kelso, 2010 Méthodes de séquençage: NGS Séquençage par ligature, Life/APG A. B. C. The sequence extension reaction is not carried out by polymerase, but ligase Un primer est hybridée au brin que l’on séquencer Ajout d’une mixture de probes Chacun ayant 4 marqueurs fluorescents distincts Les probes sont en compétition pour se lier au primer Une lié, le fluorophore REF (A,C): Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. REF (B): Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36

Metzker, 2010 Méthodes de séquençage: NGS Séquençage à terminaison réversible, Illumina A. B. REF : Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. C.

Comparaison des méthodes de NGS/HTS Metzker, 2010; Kircher and Kelso, 2010; Morey et al., 2013 Comparaison des méthodes de NGS/HTS Plateforme Débit (Mb/jour) Prix ($/Mb) Longueur (bases) Avantages Désavantages Source(s) principale(s) d’erreurs Roche/454 750 20 330* Meilleur « mapping » de régions répétitives Rapide (23 heures) Coût des réactifs Haut taux d’erreurs homopolymère (répétition) Amplification Interférence (voisin) Homopolymère Life/APG 5,000 0.50 50 « Two-base encoding » Haut débit Lent (14 jours) Déclinaison du signal Illumina 5, 000 75 ou 100 Plateforme la plus utilisée Plusieurs applications Faible capacité de multiplexage « Base labelling » REF: Kircher, M. and J. Kelso, High-throughput DNA sequencing--concepts and limita=ons. Bioessays, 2010. 32(6): p. 524-36 REF: Metzker, M.L., Sequencing technologies - the next generation. Nat Rev Genet, 2010. 11(1): p. 31-46. REF: Morey, M., et al., A glimpse into past, present, and future DNA sequencing. Mol Genet Metab, 2013. 110(1-2): p. 3-24 * Longueur moyenne des « reads »

Séquençage de troisième génération Morey et al., 2013 Séquençage de troisième génération «  The main advantage og TGS is their ability to sequence single molecules of DNA with no need of clonal amplification sequencing» REF: Morey, M., et al., A glimpse into past, present, and future DNA sequencing. Mol Genet Metab, 2013. 110(1-2): p. 3-24

Les outils d’analyse bio-informatique Sandra Therrien-Laperrière

Workflow : Séquençage du Génome Entier Pré-traitement des données (qualité) Assemblage du génome et évaluation Prédiction et annotation de protéines Prédiction des voies métaboliques

1.1 Pré-traitement - Qualité des reads - FastQC Score de qualité Par position des Bases. Distribution des Scores de qualité Pour l’ensemble des reads. Contenu en base à chaque position pour l’ensemble des reads. Distribution de la longueur des Séquences.

Algorithmes: Window Based ou Running Sum 1.2 Pré-traitement Gesstion des nucléotides de basse qualité Solution 1: corriger les erreurs en se basant sur la superposition des reads Solution 2: « trim » i.e. enlever les reads de mauvaises qualités Algorithmes: Window Based ou Running Sum

Trim analysis on Genome Federico M. Giorgi (2013)

Trim analysis on Genome Federico M. Giorgi (2013)

2. Alignement et Assemblage Alignement sur un génome de référence Alignement Hashed-seed Arbre des suffixes Logiciels BLAST, LASTZ, MOSAÏK Bowtie, BWA backtrack, SOAPS Forces + Précis + Utilise peu d’espace mémoire Faiblesses - Utilise beaucoup de mémoire - Moins précis

2. Alignement et Assemblage Wenyu et al., 2011 2. Alignement et Assemblage 2. Assemblage de novo

2. Évaluation de l’assemblage Analyse de l’assemblage, intégration de plusieurs assemblage Métriques: nombre de nucléotides assemblés couverture moyenne N50 Longueur des contigs Logiciels: CISA, contigs integrator MUMmer, Mugsy, BLAST MAUVE

3. Prédiction et annotation de protéines Cheng et al., 2014 3. Prédiction et annotation de protéines Comparison of the accuracy of variant calling methods across various sequencing coverage depths for variants (filtered) on chromosome 20 of the Omni1-Quad array Comparison of the accuracy of variant calling methods across various sequencing coverage depths for variants (filtered) on chromosome 20 of the Omni1-Quad array. Accuracy values for 1kgp-GATK and 1kgp-SAMtools at 10 and 20× are interpolated between 5 and 30× © The Author 2014. Published by Oxford University Press. All rights reserved. For Permissions, please email: journals.permissions@oup.com

3. Annotation Analyse de l’assemblage, intégration de plusieurs assemblages Logiciels PROKKA: plusieurs Algorithme de BLAST, outils de prédiction Glimmer: identification de gène SignalP: pour identification de peptides Infernal: AND non-codant

Seemann, 2014 3. Annotation Analyse de l’assemblage, intégration de plusieurs assemblage E. coli K-12 accession U00096.2

4. Prédiction de voies métaboliques Athey, 2011 4. Prédiction de voies métaboliques

Discussion