La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CHMI 4206 Bioinformatique appliquée

Présentations similaires


Présentation au sujet: "CHMI 4206 Bioinformatique appliquée"— Transcription de la présentation:

1 CHMI 4206 Bioinformatique appliquée
Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne Génomique 2: séquençage des génomes CHMI 4206F - Automne 2010

2 Séquençage des génomes
Une fois la carte génétique et physique établie, nous disposons des points de repères appropriés pour entreprendre le séquençage. Technologie de base: méthode de Sanger: Basé sur la réplication in-vitro de molécules d’ADN en présence de petites quantités de didéoxynucléotides qui termineront au hasard la réplication d’ADN. Le site suivant présente des animations intéressantes sur le séquençage: CHMI 4206F - Automne 2010

3 Séquençage méthode de Sanger
Matériel requis: Gabarit d’ADN (l’ADN qu’on veut séquençer) Fragments d’ADN ADN cloné dans un vecteur dNTPs Inclure 1 dNTP marqué radioactivement, p. ex. [a35S]dCTP ADN polymérase Amorce d’ADN 1 ddNTP très petite quantité comparé aux dNTPs 1 ddNTP différent par réaction de séquence. Donc: 4 tubes par réaction: ddATP, ddGTP, ddCTP, ddTTP CHMI 4206F - Automne 2010

4 Séquençage méthode de Sanger
L’ADN polymérase utilise l’amorce (en bleu) comme point de départ pour la synthèse d’un nouveau brin d’ADN; L’incorporation aléatoire d’un ddNTP arrête la synthèse et donne un fragment de taille précise; L’électrophorèse sur gel de polyacrylamide permet de séparer les fragments issus du séquençage; La séquence est visualisée après exposition du gel à un film à rayons-X (pour détecter le brin d’ADN radioactif); La lecture de la séquence se fait du bas vers le haut, et donne l’orientation 5’3’; Tube 1 Tube 2 = incorporation de dCTP radioactif Tube 3 Tube 4 CHMI 4206F - Automne 2010

5 Séquençage méthode de Sanger
CHMI 4206F - Automne 2010

6 Séquençage méthode de Sanger
La méthode de séquençage de Sanger permet de séquencer approximativement 400 pb par réaction. Pour séquencer des fragments d’ADN plus longs, on peut procéder par « marche sur le gène »: On fait une seconde réaction de séquence en utilisant une amorce déduite à partir de la première réaction de séquence, ce qui nous permet d’obtenir 400 bp de plus de séquence; On répète la marche jusqu’à ce qu’on ait terminé de séquencer le fragment d’ADN d’intérêt. Note: cette marche est faite dans les deux orientations afin de séquencer chacun des 2 brins d’ADN. Ceci permet de confirmer la séquence obtenue. CHMI 4206F - Automne 2010

7 Séquençage Marche sur le Gène
CHMI 4206F - Automne 2010

8 Séquençage Marche sur le Gène
400pb Amorce #1 CHMI 4206F - Automne 2010

9 Séquençage Marche sur le Gène
400pb 800pb Amorce #2 CHMI 4206F - Automne 2010

10 Séquençage Marche sur le Gène
400pb 800pb 1200pb Amorce #3 CHMI 4206F - Automne 2010

11 Séquençage Marche sur le Gène
400pb 800pb 1200pb 1600pb Amorce #4 CHMI 4206F - Automne 2010

12 Séquençage Marche sur le Gène
400pb 800pb 1200pb 1600pb 1899pb Amorce #5 CHMI 4206F - Automne 2010

13 Séquençage Marche sur le Gène
ADN 1 25000 Première réaction de séquence 5’……GCTCGTAGCTCGATCGATCGCTGATCGATGCTCGCAGGAACGCTCGTAGCTCGATCGATCGCTGATCGATGCTCGCAGGAACGCTCGTAGCTCGATCGAT3’ Bout 3’ de la séquence obtenue Amorce pour la deuxième réaction de séquence 5’CTCGTAGCTCGATCGAT3’ Chaque flèche représente une réaction de séquence; La direction de la flèche est 5’3’ CHMI 4206F - Automne 2010

14 Séquençage Marche sur le Gène
Première réaction de séquence ADN 1 25000 Deuxième réaction de séquence ADN 1 25000 Troisième réaction de séquence ADN 1 25000 CHMI 4206F - Automne 2010

15 Séquençage Marche sur le Gène
Xième réaction de séquence ADN 1 25000 Dans ce cas précis, il aurait donc fallu faire 55 réactions de séquence par brin d’ADN pour séquencer le fragment au complet. Évidemment, cette façon de procéder n’est pas réaliste dans le cas du séquençage d’un génome, dont la taille dépasse le million de pb (dans le simple cas des bactéries). CHMI 4206F - Automne 2010

16 Séquençage de génomes Innovations principales:
Techniques de laboratoire 1 - Utilisation de didéoxynucléotides fluorescents 2 - Séquençage par PCR 3 - Électrophorèse par capillaire Traitement des données de séquençage: Programme de lecture de séquence PHRED Programme d’assemblage de séquences PHRAP. CHMI 4206F - Automne 2010

17 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
CHMI 4206F - Automne 2010

18 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
CHMI 4206F - Automne 2010

19 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
CHMI 4206F - Automne 2010

20 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
CHMI 4206F - Automne 2010

21 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
Chaque couleur dénote un ddNTP différent; Permet donc de faire migrer 96 réactions par gel au lieu de seulement 24! CHMI 4206F - Automne 2010

22 Séquençage de génomes 1 - Utilisation de didéoxynucléotides fluorescents
CHMI 4206F - Automne 2010

23 Séquençage de génomes 2- Séquençage par PCR
Nécessite beaucoup moins d’ADN que le protocole original de Sanger; L’utilisation d’ADN polymérases thermostables permet de faire la réaction de séquence à une température plus élevée, diminuant la formation de structure secondaire par le gabarit d’ADN; La température élevée permet aussi d’augmenter la fidélité de l’hybridation de l’amorce au gabarit; Les gabarits comme les BACs ou YACs, difficiles à purifier en grande quantité, sont plus facilement séquencés. CHMI 4206F - Automne 2010

24 Séquençage de génomes En , le NIH et la compagnie Celera commencent le séquençage du génome humain; À l’époque: un très bon labo pouvait séquencer 3 millions de paires de bases par année, à un coût de 1.5$ par paire de base; Donc, à ce rythme, le séquençage du génome humain aurait: Pris 1000 ans à faire! Coûté 3 milliards de dollars US! Donc: il était crucial de développer une méthode permettant de séquencer l’ADN à une échelle plus grande; CHMI 4206F - Automne 2010

25 Séquençage de génomes 3 - Électrophorèse en capillaires
Lorsqu’une solution d’électrolyte (e.g. ADN) présente dans un capillaire très fin est soumise à un champs électrique, les ions migreront dans le capillaire selon leur charge; Ainsi l’ADN, étant chargé négativement (à cause des phosphates…), migrera vers l’anode (électrode positive); La migration de l’ADN à l’intérieur du capillaire se fera en fonction de la taille des fragments, les fragments plus courts migrant plus rapidement; Les molécules d’ADN (marquées lors du séquençage par un dNTP fluorescent) seront détectés par excitation du fluorophore par un rayon laser et capture de la lumière émise par un détecteur; Un programme informatique transformera alors le signal de fluorescence en une séquence en nucléotide. CHMI 4206F - Automne 2010

26 Séquençage de génomes 3 - Électrophorèse en capillaires
1. Rapide 2. Nécessite de très petits volumes d’échantillons pl (10-12 l) à nl (10-9l) 3. Très grande résolution 4. Grande sensibilité 5. Détection en temps réél 6. Capacité élevée (plusieurs capillaires par appareil = beaucoup de séquences faites simultanément!) CHMI 4206F - Automne 2010

27 Séquençage de génomes 3 - Électrophorèse en capillaires
CHMI 4206F - Automne 2010

28 Automatisation du séquençage
MegaBase units, GE-Healthcare Automatisation: Purification de l’ADN (robotique) Réaction de séquence (par PCR) Séquençage (par électrophorèse en capillaires) Analyse des données 600 pb par réaction Séquençage: 1.5 h/échantillon 288 échantillions par appareil par expérience; 4608 échantillons/24 hrs Donc: >2.5 million de bases par jour et par appareil! CHMI 4206F - Automne 2010

29 Lecture de séquences - PHRED
Les données générées par les séquenceurs n’ont pas de valeur assignée (i.e. A, C, G, T) (c.f. page suivante). Phred utilise les fichiers de chromatogrammes en format ABI ou SCF (les deux formats des données générées par les séquenceurs) et: 1. assigne la bonne identité (A, C, G, T) aux pics de séquençage; 2. présente le résultat sous forme de séquence en nucléotides; Phred va aussi donner une probabilité d’erreur pour la lecture de chaque base. Ceci permettra au scientifique de déterminer le degré de confiance qu’il/elle doit avoir face à ce résultat. Les bases dont l’identité est incertaine seront identifiés par la lettre “N”. Phred fonctionne en 4 étapes: 1) Prédit la position de pics théoriques, i.e. la position attendue des pics on peut prédire la position des pics parce qu’on sait comment les molécules d’ADN vont migrer dans le type de gel utilisé; 2) Localise les pics réels obtenus lors du séquençage; 3) Compare la position des pics théoriques et ceux observés sur le chromatogramme. Ces pics seront alors superposés. 4) Les pics expérimentaux qui ne peuvent pas être superposés à des pics théoriques seront analysés davantage pour maximiser le pairage. Pour faire tout cela, Phred tient compte de la hauteur des pics, de l’espace entre pics adjacents ainsi que de la compression entre pics (p.ex. Pics qui sont plus près l’un l’autre que ce à quoi on se serait attendu – c’est le cas des séquences répétées de G et C). CHMI 4206F - Automne 2010

30 Séquençage de génomes 3 - Électrophorèse en capillaires
PHRED CHMI 4206F - Automne 2010

31 Stratégies de séquençage de génomes
Implique les étapes suivantes: 1. Clonage du génome Utilisation de YACs, BACs, plasmides 2. Cartographie Carte physique, génétique 3. Séquençage et assemblage des séquences 4. Annotation Identification des gènes, séquences régulatrices (promoteurs), séquences répétées, etc. 5. Analyse CHMI 4206F - Automne 2010

32 Stratégies de séquençage de génomes
Méthode hiérarchique Méthode « shotgun » CHMI 4206F - Automne 2010 NATURE REVIEWS | GENETICS VOLUME 2 | AUGUST 2001 | 573

33 Séquençage par « shotgun »
Méthode aléatoire inventée par Craig Venter Méthode utilisée par Celera, la compagne de biotechnologie qui rivalisait le consortium publie pour le séquençage du génome humain; Consiste aux étapes suivantes: Coupe le génome en très petits fragments (2-3 kpb) Clone les fragments dans des plasmides Séquence des millions d’inserts Assemblage des séquences par ordinateur Avantages: Simple Rapide Peu coûteux Inconvénients: page 35 CHMI 4206F - Automne 2010

34 Séquençage par « shotgun » Assemblage de séquences avec PHRAP
PHRAP: programme d’assemblage de séquences Moyen rapide et efficace d’assembler un grand nombre de données de séquences de petite taille (i.e. résultats de PHRED, environ 500pb) en un nombre raisonnable de contigs; Utilise les données de PHRED et compare les séquences d’ADN afin de trouver des régions de chevauchement (overlap) aux bouts de paires de fragments. PHRAP va ensuite assembler les bouts identiques et créer le contig le plus long possible avec les données disponibles. PHRAP Séquences Contig: contiguous sequenced region CHMI 4206F - Automne 2010

35 Séquençage par « shotgun » Assemblage de séquences avec PHRAP
Problèmes potentiels (et bien réels!): Erreurs pendant le séquençage (instruments, PHRED, etc.) Taux d’erreur d’environ 1-2% (surtout des substitutions plutôt que des insertions/délétions); Fusion de 2 séquences en une (chimérisme) Pendant la lecture de la séquence (fusion de la séquence de 2 réactions adjacentes); Fusion de deux fragments d’ADN, normalement non-adjacents, lors du clonage de l’ADN en vue du séquençage Séquences provenant du vecteur de clonage Contaminations par le l’ADN étranger (e.g. contamination par de l’ADN humain ou bactérien lors du séquençage de l’ADN de souris). Présence d’ADN répété (problème majeur dans le séquençage de génomes de mammifères). CHMI 4206F - Automne 2010

36 Séquençage hiérarchique
Méthode systématique utilisée par le consortium public de séquençage du génome humain (piloté par Francis Collins); Implique: Clonage du génome Cartographie (assemblage de contigs) Séquençage « shotgun » de chaque clone Bac Assemblage de la séquence Avantage majeur: moins de risque d’erreurs lors de l’assemblage parce que chaque clone BAC est séquencé individuellement: donc, il y a moins de pièces à assembler pour chaque contig; Désavantage majeur: beaucoup plus long et coûteux que la méthode “Shotgun” CHMI 4206F - Automne 2010

37 Après le séquençage? "Finishing" Annotation:
Est-ce-que la séquence est complète? Remplir les trous de régions non-séquencées Résoudre les difficultés posées par les séquences répétées Comparaison avec d’autres projets de séquençage et résolutions des différences entre les deux brouillons de séquence Annotation: Nombre et nature des gènes Cadres de lecture ouverts (open reading frames): codent pour les protéines Séquences de régulation (promoteurs) Fonction des séquences annotées? Outils nécessaires: programmes informatique d’accès et d’analyse des bases de données de séquences. CHMI 4206F - Automne 2010

38 Séquençage des génomes
CHMI 4206F - Automne 2010


Télécharger ppt "CHMI 4206 Bioinformatique appliquée"

Présentations similaires


Annonces Google