SEQUENCAGE DES GENOMES EUCARYOTES

Slides:



Advertisements
Présentations similaires
Du gène à la protéine A. Les molécules
Advertisements

L'hybridation fluorescente (FISH)
La biotechnologie SNC4U.
L’information génétique
Les virus cours 3.
I) Obtention de l’ADN recombinant
Biologie Moléculaire des Hépatites Virales
Question. Compléter les phrases suivantes.
Transcription de l’ADN
PLAN I. Support et organisation de l'IG
Acide désoxyribonucléique : ADN
Les enzymes : outils de biologie moléculaire Enzymes de restriction: endonucléases Kinases: ajoutent un phosphate (P*) Phosphatases: retirent un phosphate.
ADN.
Le noyau : le centre de commande de la cellule
Le noyau Pages 22 /
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
Chapitre 11: La technologie de l'ADN recombinant
Correction du TP sur la transcription.
L’EPISSAGE ALTERNATIF DE L’ARN
Projet Génome Humain (HGP)
La Régulation génétique chez les Procaryotes
Présenté par: Dr TAIBI Faiza
Ordre des chapitres : 1 – 3 – 2 – 4 1.
Mardi 23 janvier 2007 LE CYCLE CELLULAIRE.
LA TRANSCRIPTION DE L’ADN CHEZ LES PROCARYOTES
Le code génétique Biologie 122.
Synthèse de protéines (et d’ARN)
La transcription.
Rappels de 1èreS Rappelez la définition du génotype et celle du phénotype. Génotype : ensemble des gènes d’un individu existant sous leur forme allélique.
Chapitre 3 - Les fondements chromosomiques de l'hérédité
Expression du Génome Le transcriptome.
La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)
LA SYNTHÈSE DES PROTÉINES
L’ADN M. E. McIntyre.
ADN à ARN La synthèse des protéines étape 1
1) Structure du noyau 2) Structure des gènes et des chromosomes
LA SYNTHÈSE DES PROTÉINES
LA REGULATION DE L’EXPRESSION DES GENES
La structure et la reproduction de l’ ADN
Méthodes de séquençage d’ADN
p 1 Acides nucléiques / Condensation de l’ADN / Réplication de l’ADN
Figure 33 : un brin d’ARN obtenu à partir de l’ADN
"POLYMORPHISME" Plusieurs Formes
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
Biologie cellulaire IUT du Havre HSE Morgane Gorria.
Acides nucléiques: réplication
Ordre des chapitres : 1 – 3 – 2 – 4 1.
Collège Lionel-Groulx
CHMI 2227F Biochimie I Expression des gènes
Par: Laura Chiasson et Stephanie Alcock
Révision chapitre 8 Page
Page Révision du chapitre 7
Révision ADN et protéines
La génétique et la biométrie
Cartographie génomes entiers
Aspects techniques des biotechnologies
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
REGULATION DE L’EXPRESSION DES GENES
Régulation de l’expression génétique: la transcription
Pr B. AITABDELKADER CPMC
Régulation de l’expression génétique: la traduction
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Aspects techniques des biotechnologies
Techniques d’Analyse Moléculaire
Séquençage à Haut Débit et applications
Chapitre 2 2ème partie Transcription et traduction titre.
Plan du cours 1. Introduction 2. L’eau 3. Les acides aminés, les peptides et les protéines 4. La structure tridimensionnelle des protéines 5. Exploration.
Transcription de la présentation:

SEQUENCAGE DES GENOMES EUCARYOTES (et procaryotes)

Séquençage d’ADN • 2 méthodes publiées in 1977 – méthode chimique: Maxam, A.M. and Gilbert, W. (1977) A new method for sequencing DNA. Proc. Natl. Acad. Sci. USA, 74, 560-564. – méthode biochimique: Sanger, F., Micklen, S., and Coulson, A.R. (1977) DNA sequencing and chain terminating inhibitors. Proc. Natl. Acad. Sci. USA, 74, 5463-5467.

Séquençage de Maxam-Gilbert Clivage chimique d’ADN marqué à son extrémité 1. Marquage radioactif des extrémités (5' or 3') , 2. Dénaturation de l’ADN 3. Quatre réactions chimiques spécifiques, représentant 4 combinaisons possibles: – G seulement: DMS, piperidine – A + G: DMS, acide formique, piperidine – C+T: Hydrazine, piperidine – C seulement: Hydrazine dans 1.5M NaCl, piperidine

Séquençage de Maxam-Gilbert – le premier composé chimique casse la liaison glycosidique entre le ribose et la base, déplaçant la base. – le traitement piperidine catalyse la coupure de la liaison phosphodiester d’où la base a été déplacée. – les produits de réactions sont soumis à une électrophorèse sur un gel de polyacrylamide en condition dénaturante. Les fragments les plus petits se déplacent le plus facilement. La séquence est lue du bas du gel (5’) vers le haut du gel (3’).

Séquençage de Maxam-Gilbert • le principal avantage de cette technique est qu’elle n’est pas dépendante des problèmes de synthèse d’ADN par une polymérase (terminaison précoce due à la séquence ou à la structure de l’ADN). • le principal inconvénient est la toxicité des composés chimiques utilisés.

méthode biochimique aussi appelée séquençage par terminaison de chaîne ou aux dideoxy. basée sur l’incorporation d’un dideoxynucléotide à l’extrémité d’une molécule d’ADN en cours de synthèse. Technique de séquençage de SANGER

Technique de séquençage de SANGER 1- hybridation du primer de séquençage sur la matrice simple brin à séquencer. 2- préparation des 4 mélanges réactionnels en parallèle. Chaque mélange contient chacun des 4 dNTP (un est marqué en α avec du 32P, du 35S ou du 33P) et un des 4 ddNTP. 3- la réaction démarre lorsque la DNA polymérase est ajoutée au mélange (Klenow, T7, Taq)

Technique de séquençage de SANGER 4- la synthèse du brin d’ADN cesse par l’incorporation d’un ddNTP et la réaction est arrêtée par l’addition du tampon de charge du gel de séquençage contenant de la formamide. 5- chauffage des échantillons pour défaire les structures de l’ADN avant de charger sur le gel dénaturant de polyacrylamide/urée pré-chauffé. 6- les petits fragments migrent plus loin. L’extremité 5’ est en bas du gel et l’extrémité 3’ en haut. 7- la séquence lue est la séquence complémentaire de la matrice.

Technique de séquençage de SANGER

Technique de séquençage de SANGER La séquence de la matrice est la séquence complémentaire de la séquence lue sur le gel.

Séquençage d’ADN automatisé Version améliorée de la méthode de Sanger: marquage radioactif  marquage fluorescent des ddNTP film autoradiographique  détection par faisceau laser en cours d’électrophorèse polymérase de Klenow  Taq polymérase quantité de matrice  quantité plus faible que pour la méthode de Sanger classique car thermocyclage

Séquençage d’ADN automatisé procédure de séquençage basique en cycle - hybridation du primer sur la matrice sous forme simple brin - extension du primer lors d’une réaction limitante en ddNTP fluorescent et en excès de dNTP (rapport 1/100). - dénaturation et redémarrage d’un nouveu cycle détection par émission de fluorescence après stimulation du colorant fluorescent; couleur et position sont enregistrée dans un fichier séquence. format de sortie du fichier: chromatogramme ou fichier de séquence

Le séquençage des génomes Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Le séquençage des génomes Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Deux approches : Multitude de laboratoires : 46 laboratoires pour B subtilis en 1997 34 laboratoires pour Xylella fastidiosa en 2000 35 laboratoires pour la levure en 1991 Genome Centers : Grande échelle de production Séquenceurs automatiques Organismes séquencés Recherche fondamentale : E coli, B subtilis, S. pombe, A thaliana, drosophile, nématode, Neurospora crassa Utilisation industrielle : Agrobacterium tumefaciens, Lactococcus lactis, Archébactéries (haute température, métabolismes particuliers) Intérêt médical : procaryotes pathogènes

Séquençage du génome humain

Séquençage du génome de la tomate

méthode dite « bac-to-bac » Stratégies de séquençage des génomes complets méthode dite « bac-to-bac » ou « map-based » méthode dite de « shotgun » L’approche « bac-to-bac » passe par la création d’une carte physique brute de l’ensemble du génome avant le séquençage. La construction de la carte nécessite de couper les chromosomes en grands fragments et de déterminer la position relative de ces fragments avant de les séquencer. La méthode de “shotgun” passe directement par l’étape de séquençage Sans création d’une carte physique (évidement ça paraît plus facile).

Stratégies de séquençage des génomes complets Les étapes BAC to BAC SHOTGUN 1- plusieurs copies du génome sont coupées au hasard en fragments d’environ 150 kpb. 1- plusieurs copies du génome sont cassées au hasard en fragments de 2 kpb en faisant passer l’AND sous pression dans l’aiguille d’une seringue. Cette étape est renouvelée de façon à générer des fragments de 10 kpb. 2- chacun des fragments est inséré dans un BAC constituant ainsi la banque BAC. 2- chaque fragment de 2 ou 10 kpb est inséré dans un plasmide.

3- chaque fragment est marqué d’une empreinte qui va donné à chaque BAC une identification Unique qui va permettre de déterminer l’ordre des fragments les uns par rapport aux autres. L’empreinte est obtenue en coupant chaque fragment du BAC par un enzyme et en séquençant l’extrémité du BAC afin de positionner les BAC le long des chromosomes. 3- chaque banque de plasmides de 2 ou 10 kpb est séquencée. 500 pb de l’extrémité de chaque fragment sont décodées. Le séquençage de chacune des extrémités est déterminant pour l’assemblage de l’ensemble des chromosomes. 4- des algorithmes assemblent les millions de fragments séquencés en un ensemble continu correspondant à chaque chromosome. 4- Chaque BAC est cassé au hasard en fragments d’environ 1, 5 kpb clonés dans des phagemides.

5- chaque banque de phage est séquencée. 500 pb de l’extrémité de chaque fragment sont séquencées. 6- ces séquences alimentent un programme informatique appelé PHRAP qui identifie les séquences communes qui joignent 2 fragments adjacents.

Séquençage du génome du riz

Comparaison des cartes du génomes d’Arabidopsis thaliana séquence génétique physique Comparaison des cartes du génomes d’Arabidopsis thaliana

Les choix stratégiques Identification des gènes Identification facile chez les Procaryotes : promoteurs, séquences codantes, signaux de terminaison Pas ou peu de séquences intergéniques Identification difficile chez les Eucaryotes : Découpage des gènes en introns et exons Régions intergéniques parfois très vastes Levure : 5% des gènes sont morcelés et régions non-codantes peu abondantes Nématode, Drosophile, Arabette : régions codantes majoritairement fragmentées et régions non-codantes très étendues Comparaison des séquences génomiques et des séquences d’ADNc (EST ou séquence complète d’ARNm)alignement : séquence transcrite Outils informatiques de prédiction : recherche de phase ouverte de lecture, signaux d’épissage, composition en bases Utilisation des données d’un autre organisme. Ex : EST de Caenorhabditis briggsae pour Caenorhabditis elegans

Le séquençage des génomes Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Génomes procaryotes Structure chromosomique Abondance en guanine et cytosine Un faible taux de G+C indique souvent un mode de vie parasitique ou synbiotique La réplication du chromosome se fait dans deux directions opposées divergeant à partir de l’origine de réplication. Chacune de ces deux moitiés est appelée réplichore Le séquençage révèle parfois des plasmides, des plasmides linéaires ou des mégaplasmides

Génomes procaryotes Organisation des gènes La fraction codante est élevée (environ 90%) La taille moyenne des gènes est de 1 kb Le nombre de gènes est très variable (500 à 8000) Les unités transcriptomiques sont fréquemment organisées en opérons Les gènes codant pour les ARNr sont le plus souvent agencés en 16S-23S-5S avec des gènes d’ARNt entre les gènes Le nombre de pseudogènes (gènes mutés non-transcrits ou non-traduits) est faible. Exception Mycobacterium leprae avec 24% de régions non codantes et 27% de gènes.

Génomes procaryotes Séquences non codantes Régions intergéniques (séquences régulatrices, parfois des séquences répétées et quelques rares introns) Chez E coli taille moyenne des régions intergéniques :118 pb Les séquences répétées en tandem comprennent un motif de 1 à 6 nt répété de 2 à quelque dizaine de fois Les séquences dédiées à la transformation comme les USS (Uptake Signal Sequence) de H influenzae (1465 USS par génome)

Génomes procaryotes Retombées médicales et commerciales De nombreuses retombées médicales sont espérées : La syphilis touche 50 106 de personnes La lèpre touche 15 106 de personnes Chaque minute la tuberculose atteint 10 personnes La comparaison de génomes d’espèces proches mais causant des maladies très différentes comme Mycobacterium leprae , Mycobacterium tuberculosis , Neisseria meningitidis , devrait permettre d’identifier les gènes responsables de tel ou tel autre effet pathogène Diagnostic ou pronostic de développement d’infection (ex recherche de la séquence répétée Ng-rep utilisée pour détecter une contamination par Neisseria meningitidis ) Des protéines de bactéries extrêmophiles sont commercialisées (ex la Taq de Thermus aquaticus)

Le séquençage des génomes Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Génomes des modèles eucaryotes Structure des chromosomes Chez la levure , les régions riches en G+C correspondent aux régions riches en gènes. Les brins complémentaires codent pour un nombre similaire de gènes sauf pour le chromosome II et pour la région centrale du chromosome VI Chez C elegans le génome est remarquablement uniforme en teneur G+C le long des chromosomes. La densité des gènes est plus élevées dans les régions centrales que dans les bras chromosomiques. La densité des gènes est faible sur le chromosome X. Chez la drosophile, 180 Mb avec 60 Mb d’hétérochromatine (séquence répétée, éléments transposables, deux blocs de gènes ribosomiques). L’euchromatine couvre 120 Mb qui contient la majorité des gènes. Chez la souris 20 paires de chromosomes (19 autosomes et une paire de chromosomes sexuels) tous acrocentriques. Chez A thaliana, 5 chromosomes tous autosomiques (2 acrocentriques, 2 submétacentriques et 1 métacentrique. L'hétérochromatine ne change pas d'état de condensation au cours du cycle cellulaire si le bras court est presque aussi long que le bras long, le chromosome est dit métacentrique; s'il est plus court, il est dit sub-métacentrique. Enfin, si ce bras p est très petit, le chromosome est dit acrocentrique

Génomes des modèles eucaryotes Identification des gènes

Génomes des modèles eucaryotes Fonctions des gènes reconnus ou prédits Prédiction de fonction : le nombre de gènes potentiellement impliqués dans une fonction biologique donnée s’est soudainement accru avec le séquençage systématique (selon l’espèce 40 à 60 % des gènes ne sont toujours pas reliés à des gènes de fonction connue) Chez la levure : identification d’un nouveau gène codant pour l’histone H1. Chez le nématode : identification de protéines SXC impliquées dans des interactions avec la matrice extracellulaire. Chez l’Arabette : identification d’un gène codant pour la lyase hydroxynitrile qui produit de l’acide cyanhydrique (répulsif d’herbivores) Les gènes codant pour les cyclines de la levure sont différents de ceux très similaires de la drosophile, du nématode, des vertébrés

Génomes des modèles eucaryotes Régions non codantes Plus faible que chez l’homme Séquences répétées en tandem : les microsatellites : répétitions de motifs de 1 à 13 nt, polymorphes et distribués le long des chromosomes Les minisatellites : répétitions de motifs de 14 à 500 nt, distribués sur 0,5 à 30 kb. Séquences répétées dispersées : (40 % du génome murin) LINE, SINE, rétrotransposons à LTR et les rétrotransposons à ADN

Microsatellite Minisatellite

Le séquençage des génomes Les choix stratégiques Approches utilisées pour le séquençage à grande échelle Organismes séquencés Identification des gènes Génomes procaryotes Structure chromosomique Organisation des gènes Séquences non codantes Retombées médicales et commerciales Génomes des modèles eucaryotes Structure des chromosomes Identification des gènes Fonctions des gènes reconnus ou prédits Régions non codantes Génome humain Les chromosomes humains Identification des gènes Séquences répétées

Génome humain Les chromosomes humains La longueur totale du génome humain : 3000 Mb 20 laboratoires de 6 pays (USA, GB, Japon, France, Allemagne et Chine) 1000 nt / sec

Génome humain Identification des gènes 535 gènes codant pour des ARNt (plus faible que chez le nématode et plus élevé que chez la drosophile) 150 à 200 groupes de gènes codant pour les ARNr 18S, 28S et 5,8S sur les chromosomes 13, 14, 15, 21 et 22 2000 gènes codant pour l’ARNr 5S sur le chromosome 1 Les gènes codants pour des protéines ont été prédits : Comparaison aux bases de données d’EST Comparaison aux séquences complètes d’ARNm Programme de prédiction comme GENESCAN Le nombre total de gènes varient entre 26000 et 35000 gènes (2x plus que le nématode ou la drosophile). 11,1 gènes / Mb Taille moyenne des gènes 27900 nt répartis en 8 à 9 exons de 145 nt environ avec des introns d’environ 3500 nt. Plus de 35 % des gènes ont un épissage alternatif 28% du génome serait transcrit en ARNr, ARNm, ARNt ou ARN de petite taille et 1,4 % serait traduit. Le gène le plus grand est celui de la dystrophine (2,4 Mb) Le plus grand messager est celui de la titine (80780 nt) avec 178 exons et l’exon le plus grand (17 106 nt)

Génome humain Séquences répétées