GENOME COURS I
UE Spécifique ANALYSE ET METHODES D’ ETUDE DU GENOME
I- STRUCTURE DU GENOME Organisation Composition Les différentes séquences Le gène
INTRODUCTION Ensemble du matériel génétique d’un organisme Il est constitué d’ADN pour la majorité des organismes Certains virus ont un génome constitué d‘ARN La taille du génome varie en fonction des espèces
ORGANISATION Chez la majorité des bactéries ( procaryotes) le génome est contenu dans UN seul chromosome circulaire Le génome peut être linéaire (actinomycètes) Chez les eucaryotes : ADN nucléaire , ADN mitochondrial
DENSITE DES GENOMES Chez E.Coli , le génome est composé presque exclusivement de gènes 4.6 Mégabases / 4000 Gènes / soit 950/MGb Chez l’Homme 3200 Mégabases / 25000 Gènes / 8 / MGB La quasi-totalité génome bactérien est codant !
Espèce Humaine Génome nucléaire: 3,2 109 pb pour n chromosomes et répartis dans 22 autosomes + 2 chromosomes sexuels Génome mitochondrial : 16 559 pb, épisome Aucune corrélation entre la taille du génome et la complexité des organismes Plus grands génomes : > 150 109 pb : pins, plantes
COMPOSITION DU GENOME HUMAIN Des gènes : environ 25 000 composés de séquences codantes ( exons) et non codantes (les introns, séquences régulatrices; promoteur, silencer, enhancer …) régions codantes : 1.5% du génome ; introns 25%, région régulatrices: 5% Des Pseudogènes 1.5% De très nombreuses séquences répétèes 60% Autres régions non codantes : séquences uniques ou très peu répétées 7%
Séquences répétées Répétées en Tandem minisatellites : des séquences de 10 à 25 pb sont répétées un grand nombre de fois ( empreintes génétiques) microsatellites : 1à 5 pb répétées x fois sur plusieurs kb ADN satellite : centromères , télomères ( 10% du génome humain)
Les plus étudiés (CG; CA)n Microsatellites Dispersés sur tout le génome 1 à 5 nucléotides Copies A(n) / T(n) 107 (CG)n / (CA)n/ (GT)n 7 106 (CT)n / (GA)n 3 x 106 Les plus étudiés (CG; CA)n CG n = 23 n = 20 n = 15 CGCGCGCG TANDEM
Séquences répétées dispersées Les SINE(s) blocs de 130 à 500 pb ( Alu) Les LINE(s) blocs de 5- 7 kb Les LTR(s) quelques dizaines de paires de bases ( 400 000 copies) Les transposons ( 300 000 copies)
Séquences répétés dispersées SINEs : Famille ALU Copies : 7 105 250-400 pb 250-400 pb 104 pb ALU ALU Famille Kpn (L1) 1300 pb copies 6 104 Peuvent être transcrites
Séquences SINEs ALU REPEAT 120 135 290 (AAA)n AT RICH GC RICH GC RICH
Eléments transposables IS éléments 2600 – 700 pb 5' 3' CTGACTT 3' 5' TTCAGTC Répétition aux extrêmités (Maïs)
Gène Séquence d'acides nucléiques contenant une information codée, transmissible, pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit en une chaîne polypeptique Certains gènes codent seulement des ARN sans traduction en protéine
Les gènes des rétrovirus sont constitués d'ARN
Pseudogènes Séquences partiellement homologues aux gènes qui ne donnent jamais de protéines correspondantes Soit anciens gènes fonctionnels qui ont muté Soit des ARN retro-transcrit ADN intégration ADN génomique ( transposition)
ANATOMIE DU GENE b globine
1 30 31 104 105 146 IVS1 IVS2 Gène b globine 1600 pb Exon I Exon II Zone des promoteurs 5' UTR 3' UTR 1 30 31 104 105 146 Exon I IVS1 Exon II IVS2 Exon III Gène b globine 1600 pb
Région régulatrice en 5' Zone des promoteurs Facteurs de transcription -105 -100 -80 -70 -30 -25 CAP CACCC CACCC CCAAT TATA A/T A A/T A G G CCCCC Site d'initiation de la transcription
Région 5' non Traduite 5' UTR CAP Codon initiateur 8 - 13 +30...... CACCATG +50 CTTCTG Région 5' UTR - Attachement aux ribosomes - Régulation transcription +/-
Exon Partie codante d'un gène protéine Exon 1 ATG IVS1 30 Exons Traduction protéine
Zone non traduite IVS1 130 pb Exon 2 GT Donneur de l'épissage AG Accepteur de l'épissage
Région 3' UTR Codon 147 146 AATAAA STOP 20 AAAAAA 132 Nucléotides AATAAA : Signal de polyadénylation : Clivage de l'ARN après transcription (AAAAA)n : Stabilise l'ARN ( ajouté après la transcription)
II ETUDE DU GENOME A- Les expériences fondamentales qui ont révélé l’ existence de l’ADN comme Génome L’ Etude du génome complet d’un individu est très récente et découle du séquençage d’un génome entier ( début XXI)
C’est l’analyse de l‘ADN Elle était indirecte avant l’invention des techniques du séquençage (1977) Elle utilisait l’étude des protéines qui renseignaient indirectement sur les gènes Des mutants de bactéries , de drosophiles
Origines de l’étude du Génome Dès le XIX siècle : l’étude de la transmission des caractères sur des critères d’analyses qualitatives et statistiques ( Lois de Mendel 1860) Mise en évidence de l ’ADN (1865) Génétique formelle Morgan ( 1920 drosophile) critères d’analyses qualitatives et statistiques Puis des techniques bactériologiques et biochimiques ont permis de franchir une étape dans le degré d’investigation de l’étude des génomes ( 1920-1952) Structure ADN (1953 )
Expérience de Griffith (1928) Bactérie : Diplococcus pneumoniae 2 souches S = capsule polysaccharidique > infectieux R = dépourvue de capsule > non infectieux
Des lots de souris Groupe1 : Injection souche S à des souris > pneumonie Groupe 2 : Injection souche R > pas d’infection Groupe 3 : Injection d’une souche R + souche S préalablement tuée par la chaleur => pneumonie
RESULTAT Le sang des souris du groupe 3 est mis en culture : on recueille soit des souches R soit des souches S virulentes ... L’expérience fût refaite en 1944 avec la conclusion que l’ADN était le matériel héréditaire
Avery, Mac Leod, Mac Carthy Interprétation : Les souches S tuées sont capables d’induire une transformation des bactéries R en bactéries S Quelle est la nature de ce matériel transmissible ? En ajoutant l’ ADN purifié des souches S à des colonies de type R les colonies R > S Les autres fractions (polysaccharides,protéines) n’ont pas de pouvoir transformant...
Lorsque l’ADN des souches S est traité par la DNAse avant d’être ajouté aux bactéries de souche R > pas de bactérie de type S La transformation des souches R en souche S est la conséquence d’un transfert d’ADN L’ADN est donc le matériel génétique
33
De 1944 à 1952 une partie de la communauté scientifique n’était toujours pas convaincue par cette conclusion et l’hypothèse que les protéines étaient le matériel héréditaire était encore défendue
Colette VENDRELY ( professeur d’embryologie à Amiens ) & R Colette VENDRELY ( professeur d’embryologie à Amiens ) & R. VENDRELY démontrent en 1949 que la quantité d‘ADN présente dans les gamètes est la moitié de celle contenue dans les cellules somatiques. Ce résultat est le seul travail français internationalement cité comme contribution majeure à la preuve de l’ADN comme matériel héréditaire
UN pas décisif vers la découverte de la structure de l ’ADN En 1950 Erwin Chargaff découvre que l'adénine et la thymine existent en quantités égales, et qu'il en est de même de la guanine et de la cytosine, d'où la célèbre équation % A = % T % G = % C
Expérience Hershey & Chase 1952, ils démontrent en utilisant le phage T2 traité au tritium * (acides nucléiques radio-actifs) que les ADNs répliqués sont radioactifs. Les protéines ne sont pas radioactives donc ne se répliquent pas …
Découverte de la structure de l’ADN 1953
39
Découverte de la structure de l’ADN 40
“ It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material ” . « Il n’ a pas échappé à notre attention que la les appariements spécifiques que nous proposons suppose immédiatement un mécanisme de copie du matériel génétique » Le modèle de réplication semi-conservatif sera prouvé en 1958 par Meselson et Stalh
Le modèle semi conservatif de la réplication Le bon modèle pour 3 possibilités
modèle conservatif A partir d'une molécule d'ADN bicaténaire "mère", on forme une nouvelle molécule d'ADN bicaténaire. On garde donc ici une molécule "mère", non modifiée (elle est donc conservée), tout en "créant" une nouvelle molécule ("fille").
On ne conserve aucun brin intact On ne conserve aucun brin intact. La copie se réalise par fragments dispersés dans l'ensemble de l'ADN, permettant de former les deux molécules d'ADN bicaténaires "filles".
Dissociation des deux brins de la molécule d'ADN bicaténaire "mère" Dissociation des deux brins de la molécule d'ADN bicaténaire "mère". Chaque brin sert donc de matrice à la synthèse d'un brin complémentaire, l'ensemble reformant une molécule d'ADN bicaténaire. Chaque nouvelle molécule "fille" ne conserve donc que la moitié de la molécule mère
Dans le tube 0 la totalité de l’ADN est marqué à l’ azote 15 ( les 2 brins) . Après une réplication la moitié de l’ADN est radio actif . Au fur et à mesure des réplications la quantité d’ADN marqué diminue l’ADN au profit d’abord d’ ADN hybride , puis d’ADN froid.
Le résultat observé après séparation des ADNs répliqué correspond au modèle semi conservatif
Propriétés physico-chimiques Déroulement de tout l’ ADN d’une cellule d’un individu : 1.6 Mètre Déroulement de l’ADN de toutes les cellules d’un individu : diamètre du système solaire! ADN cellulaire : 6,6-6,4 x 10 9 pb (2n)
Quelques valeurs … Pb = 6 .10 9 Masse Moléculaire = 2x330 g x 6.109 /6,02.1023 moles de nucléotides > = 6,6.10-12 g d’ADN Il y a environ 6 picogrammes d’ADN dans une cellule diploide 1 µg d’ADN génomique -> 10-6 g /6.6 10-12 g/cellule >> 107 cellules diploides
II ETUDE DU GENOME B) LES OUTILS
B- 1- PURIFICATION DE l’ ADN Méthode au Phénol / Chloroforme Purification des cellules Lyse des cellules ( SDS, Lysozyme) Action protéinase K, Rnase Extraction au phénol Action du CHCl3 Précipitation dans l’éthanol en milieu salin Re-suspension en présence de tampon TRIS - EDTA ( 1 mM) ( 100 microG / microl)
B-2 Les Enzymes de Restriction Sont des ciseaux moléculaires qui hydrolysent l’ADN; Ils reconnaissent des séquences palindromiques (Ex RADAR) Ils permettent de mette en évidence des variations de séquence ( polymorphismes, mutations) Ils sont utilisés en génie génétique ( clonage) En diagnostic de routine en génétique médicale
Des enzymes de Restriction
5'-G*GATCC-3' Bam HI 3'-CCTAG* G-5’ 5 '-G -3' --- 5'- GATCC-3' 3'-CCTAG-5' ----> 3'- G-5'
B-3 L’ Hybridation et les sondes Hybridation par complémentarité de séquence et appariement des bases Sonde : petite séquence d'ADN ou d'ARN marquée par un composé fluorescent, ou radioactif Les sondes doivent être spécifiques d’une séquence et très sensibles. Utilisation diagnostique
S I M P L E B R N Cot (mole sec .l-1) Rapide Lent 100 ADN hautement répétitif S I M P L E B R N % 60 ADN moyennement répétitif ADN peu répétitif 20 10-2 Copies uniques 10-3 100 101 102 104 Cot (mole sec .l-1) Rapide Lent Taux de Renaturation
B-4 Application sondes et ER : "POLYMORPHISME" Plusieurs Formes Toute variation de séquence de l'ADN, qu'elle soit ponctuelle ou qu'elle intéresse une répétition de mini / micro satellites est un polymorphisme si sa fréquence est 1 % dans une population donnée à une fréquence < 1 % mutation (privée) Les polymorphismes sont soit : - Neutres - Avantageux - Désavantageux
Les Polymorphismes L'ADN n'est pas un élément statique Il est sujet à des modifications transmissibles Les variations de séquence sont appelées polymorphismes lorsqu'elles surviennent à une fréquence > 0.01 (moins de 1 % : mutations) L'hétérozygotie moyenne de l'ADN humain est d'environ 0,004 (1 base différente toutes les 250 - 300 bases entre 2 allèles ou 2 séquences, entre 2 individus)
Le polymorphisme affecte toutes les régions de l'ADN - Séquences codantes - Introns - ADN répété (mini, microsat…) Il peut modifier : - 1- Un site de restriction - 2- La longueur d'un motif répété
Un polymorphisme peut induire une longueur détectable par enzyme de restriction Microsatellites Minisatellites
Les polymorphismes du DNA servent à son analyse
RFLP Un RFLP est défini par un couple : Sonde / Enzyme Sa localisation précise, sa variabilité et sa transmission mendélienne lui confèrent un caractère de marqueur génétique codominant. Le couple sonde / enzyme se caractérise par : + / - et correspond à un bi-allélisme Les RFLPs sont mis en évidence par la méthode de Southern ou PCR Pour être informatif : le RFLP doit être reconnu par une sonde unique
A B Exemple EcoR1 reconnaît, puis hydrolyse 5' GAATTC 3' 3' CTTAAG 5' Si cette séquence est mutée l'enzyme ECOR1 ne peut plus hydrolyser l'ADN à cet endroit. A B GAGTTC CTCAAG (A + B)
On distingue des sites de restriction obligatoires (toujours présents) et des sites de restriction variables Polymorphisme MSt II 1 2 3 4 5 Chez un individu sur 100 on découvre
Ces fragments peuvent être différencier par leur taille Marqueur Position non connue avec précision Eco RI+ Gène 4kb Eco R1- Gène muté maladie M 5kb Ces fragments peuvent être différencier par leur taille
Polymorphisme de Répétition EcoRI EcoRI (CA)n Allèle A 200 pb EcoRI EcoRI + 2(CA)n Allèle B 300 pb sonde A/B A/A B/B 300 200