Codage et expression de l’information génétique Pascale Giraudet www.univ-tln.fr/~giraudet Séminaire GRIM 4 mars 2003
Plan de l’exposé Introduction : qu’est-ce que l’information génétique ? Codage et transmission de l’information génétique Expression de l’information génétique Génétique et informatique
Qu’est-ce que l’information génétique ? Chaque individu présente des caractères propres Certains sont acquis (musculature, …) D’autres héréditaires (couleur des yeux, groupe sanguin, …) transmis d’une génération à l’autre information génétique
Introduction : qu’est-ce que l’information génétique ? Codage et transmission de l’information génétique Localisation de l’information génétique Support de l’information génétique Codage de l’information génétique sur l’ADN Transmission de l’information génétique Expression de l’information génétique Génétique et informatique
I.1) Localisation de l’information génétique Expérience de Gurdon (1960) Noyau cellule grenouille B Œuf énucléé grenouille A > obtention d’un clone de la grenouille B
I.2) Support de l’information génétique Chromosome G: *10 000 N = 2*23 Cellule G: *1000 N = 1013 ADN G: *107 L 2 m
I.2) Support de l’information génétique Watson et Crick, 1953 Paires de bases G: *107 N 3 * 109
I.2) Support de l’information génétique Bases puriques (R) Bases pyrimidiques (Y) (A) (G) (T) (C) -> ADN Succession de 3 * 109 lettres d’un alphabet quaternaire
I.3) Codage de l’information génétique sur l’ADN Succession presque linéaire de 3*109 lettres d’un alphabet moléculaire quaternaire (A,C,G,T) Seule non-linéarité : ADN porté par 2n chromosomes (n=23 chez l’homme) Le brin complémentaire n’apporte aucun complément d’information (stabilité chimique) Il existe de l’ADN hors du noyau : ADN mitochondrial (104 paires de bases)
I.4) Transmission de l’information génétique Transmission conforme : la réplication lors de la division cellulaire Brassage génétique lors de la reproduction sexuée Génération N Cellule du père 2n chromosomes Cellule de la mère 2n chromosomes méiose Gamète du père n chromosomes Gamète du père n chromosomes Gamète de la mère n chromosomes Gamète de la mère n chromosomes fécondation Cellule oeuf n+n chromosomes Génération N+1
I.4) Transmission de l’information génétique Erreurs de copie : les mutations Substitution aléatoire d’une lettre par une autre lettre de l’alphabet Insertion aléatoire d’une lettre (ou d’un groupe de lettres) Suppression aléatoire d’une lettre (ou d’un groupe de lettres) Sélection des mutants …ACCTGC… …ACTTGC… …ACCTGC… …ACCATGC… …ACCTGC… …AGC…
Introduction Codage et transmission de l’information génétique Expression de l’information génétique Principes de l’expression : les protéines De l’ADN à la protéine Transcription Traduction et code génétique Régulations de l’expression génétique Génétique et informatique
II.1) Principes de l’expression : les protéines Génotype Protéines Phénotype Protéines constitutives Métabolisme Physiologie Développement ADN Protéines sécrétées Enzymes (protéines) Production De glucides Production De lipides
II.1) Principes de l’expression : les protéines Les protéines, molécules de passage du génotype (information génétique) au phénotype (ensemble des caractères) La génétique s’intéresse à l’expression de l’information génétique jusqu’à la production des protéines L’étude du rôle des protéines dans l’expression du phénotype est du domaine de la biochimie, de la biologie cellulaire, du développement, de la physiologie…
II.1) Principes de l’expression : les protéines
II.2) De l’ADN à la protéine Transcription ARN m Traduction Protéine
II.3) Transcription
Épissage
II.4) Traduction et code génétique
Bilan Notion de gène Linéarité apparente de l’expression génétique Un gène une protéine (excision des introns) Un gène : du codon départ au codon STOP Ensemble des gènes zone exprimée de l’ADN 35 000 gènes chez l’Humain 1,5 % de l’ADN -> à quoi sert le reste ?? Similitude entre les gènes des êtres vivants 40 % de nos gènes commun avec une plante 80 % avec un Mammifère 98,5 % avec un Chimpanzé 99,9 % avec un autre Humain Linéarité apparente de l’expression génétique Codage quasi-linéaire de l’information génétique sur l’ADN Transcription : bijection de {A, T, C, G} sur {A, U, C, G} Traduction : surjection de {A, U, C, G}3 sur {Phe, Leu, Ile, Met, Val, Ser, Pro, Thr, Ala, Tyr, His, Gln, Asn, Lys, Asp, Glu, Cys, Trp, Arg, Gly}
Bilan Pourtant variabilité de l’expression Dans l’espace : Toutes les cellules n’ont pas la même forme Toutes les cellules n’ont pas la même fonction Dans le temps : Activité cellulaire dépendant du stade de développement Selon l’environnement : Activité cellulaire dépendant de son environnement chimique Réorganisation de l’information génétique lors de son expression par régulations multiples
II.5) Régulations de l’expression génétique gène Organisation structurale de l’ADN transcription Facteurs de régulation de la transcription noyau pré-ARNm épissage Epissage alternatif ARNm Maturation, transport, adressage des ARNm Durée de vie des ARNm ARNm traduction Contrôle de la traduction des ARNm protéine Modifications post-traductionnelles protéine modifiée protéine active Adressage, et régulation de l’activité protéine dégradée Contrôle de la dégradation protéique
II.5) Régulations de l’expression génétique gène transcription Facteurs de régulation de la transcription noyau pré-ARNm épissage Epissage alternatif ARNm ARNm traduction protéine protéine modifiée protéine active Produits de l’activité protéique Environnement protéine dégradée
Un exemple de la régulation de la transcription chez les Procaryotes : l’opéron tryptophane Gènes codants pour les enzymes nécessaires à la synthèse du tryptophane
Un exemple eucaryote : les gènes homéotiques
Epissage alternatif
Introduction : qu’est-ce que l’information génétique ? Codage et transmission de l’information génétique Expression de l’information génétique Génétique et informatique Apports de l’informatique à la génétique L’inspiration génétique en informatique
III.1) Apports de l’informatique à la génétique Analyse de séquences de bases Identification de motifs Localisation de motifs connus Détection de régularités, périodicités Comparaison de séquences Recherche des similarités Recherche des mutations Calcul de taux de divergence Élaboration de modèles d’évolution Élaboration d’arbres phylogénétiques Modélisation de la structure 3d de protéines
III.1) Apports de l’informatique à la génétique Analyse de séquences de bases Identification de motifs Localisation de motifs connus Détection de régularités, périodicités Comparaison de séquences Recherche des similarités Recherche des mutations Calcul de taux de divergence Élaboration de modèles d’évolution Élaboration d’arbres phylogénétiques Modélisation de la structure 3d de protéines
IDENTIFICATION DE MOTIFS (PROGICIEL SQX, SITE INFOBIOGEN) POS: 1 2 3 TOTAL A 24% 31% 23% 26% C 25% 21% 26% 24% G 34% 22% 24% 27% T 18% 26% 27% 24% Fréquence des bases sur un gène de 7784 pb Phe TTT 1.7 Ser TCT 1.6 Tyr TAT 1.2 Cys TGT 0.8 Phe TTC 2.0 Ser TCC 0.5 Tyr TAC 1.7 Cys TGC 1.3 Leu TTA 0.9 Ser TCA 0.9 *** TAA 1.2 *** TGA 0.9 Leu TTG 0.6 Ser TCG 0.7 *** TAG 0.2 Trp TGG 1.4 Leu CTT 1.4 Pro CCT 0.9 His CAT 1.3 Arg CGT 3.8 Leu CTC 1.0 Pro CCC 0.3 His CAC 1.4 Arg CGC 1.9 Leu CTA 0.4 Pro CCA 1.0 Gln CAA 1.4 Arg CGA 1.1 Leu CTG 4.0 Pro CCG 2.2 Gln CAG 2.1 Arg CGG 0.7 Ile ATT 2.3 Thr ACT 1.0 Asn AAT 1.0 Ser AGT 0.4 Ile ATC 2.3 Thr ACC 1.5 Asn AAC 2.5 Ser AGC 1.8 Ile ATA 0.3 Thr ACA 0.9 Lys AAA 3.9 Arg AGA 0.8 Met ATG 1.9 Thr ACG 0.8 Lys AAG 1.7 Arg AGG 0.3 Val GTT 2.7 Ala GCT 1.9 Asp GAT 2.5 Gly GGT 2.6 Val GTC 1.1 Ala GCC 1.5 Asp GAC 2.5 Gly GGC 2.8 Val GTA 1.5 Ala GCA 2.1 Glu GAA 4.7 Gly GGA 0.9 Val GTG 1.9 Ala GCG 2.8 Glu GAG 1.9 Gly GGG 0.7 Fréquence (%) des bases sur le même gène de 2594 codons http://www.infobiogen.fr/doc/SQXdoc/ http://www.infobiogen.fr/doc/SQXdoc/freqces.html
DÉTECTION DE PÉRIODICITÉS (LAB INFO DE l’IGM) Proba 1 Proba d’apparition de GTC n bases après CGC en phase de lecture -> périodicité 0 [3] Proba d’apparition de TCG n bases après ATC en phase de lecture -> périodicité 1 [3] Proba d’apparition de CGT n bases après CCC en phase de lecture -> périodicité 2 [3] n Proba 2 Proba 3 n n
ce sont, toutes les trois, des codes circulaires maximaux, Classement des trinucléotides en fonction de leur phase d'apparition préférentielle T0 AAA AAC AAT ACC ATC ATT CAG CTC CTG GAA GAC GAG GAT GCC GGC GGT GTA GTC GTT TAC TTC TTT T1 AAG ACA ACG ACT AGC AGG ATA ATG CCA CCC CCG GCG GTG TAG TCA TCC TCG TCT TGC TTA TTG T2 AGA AGT CAA CAC CAT CCT CGA CGC CGG CGT CTA CTT GCA GCT GGA GGG TAA TAT TGA TGG TGT Propriétés de ces 3 classes de trinucléotides d'un point de vue théorie des codes: ces 3 classes de trinucléotides s'échangent par permutation circulaire, ce sont, toutes les trois, des codes circulaires maximaux, ces 3 codes possèdent une propriété de complémentarité : auto-complémentarité pour T0, et échange de T1 et T2 par complémentarité, codes non triviaux ( codes obtenus par des techniques classiques de génération). http://www-igm.univ-mlv.fr/LabInfo/rapport/igm_new005.html
Hypothèse biologique : gènes primitifs = mots du langage To ? Phase de lecture repérable automatiquement -> ne nécessite pas de codon initiateur Auto-complémentarité -> codage simultané et en phase des deux brins de l’ADN Modélisation de l’évolution de ce langage selon mutations
CALCUL DE TAUX DE DIVERGENCE Comparaison de 2 séquences : Définition des opérations élémentaires pour passer de l’une à l’autre = mutations (substitution, insertion, suppression) Attribution d’un coût à chaque opération élémentaire (w1,w2,w3) Calcul du coût total minimal d pour passer d’une chaîne à l’autre : d(ai,bj)=min[d(ai-1,bj-1)+ w1* (aibj), d(ai,bj-1)+ w2, d(ai-1,bj) + w3] d(,)=0 d(, bj)=d(, bj-1)+ w2 d(ai,)= d(ai-1, )+ w3 … ou autres méthodes plus rapides (réseaux systoliques) Alignement pour coût total minimal = distance entre les deux séquences But : élaboration d’un arbre phylogénétique Pearson et Miller : Dynamic programming algorithms for biological sequences comparison Quinton et Robert : Algorithmes et architectures systoliques
ÉLABORATION D’ARBRES PHYLOGÉNÉTIQUES Distance augmentant linéairement avec le temps depuis divergence (horloge biologique) Dépend de la base utilisée Dépend du choix de la distance d’une feuille à un nœud non terminal
III.2) L’inspiration génétique en informatique Support de l’information génétique Codage et transmission de l’information génétique Applications Enroulement de l’ADN et théorie des nœuds Algorithmes génétiques Ordinateurs génétiques
ENROULEMENT DE L’ADN ET THÉORIE DES NŒUDS Double hélice d’ADN : Transcription -> sur-enroulement en amont, et sous-enroulement en aval -> activité des topo-isomérases Chez Procaryotes, chromosome circulaire inspirant un parallèle avec la théorie des nœuds Nœuds topologiquement équivalents si on peut passer de l’un à l’autre sans topo-isomérase Une topo-isomérase est responsable d’une transformation mathématique élémentaire (flip, décroisement…)
Prennent en compte : Codage et transmission de l’information génétique Aspects aléatoires des mutations Sélection naturelle des meilleurs résultats Ne prennent pas en compte : Modularité de l’expression
ORDINATEURS GÉNÉTIQUES
… et à la prochaine fois pour le codage neuronal ? merci… … et à la prochaine fois pour le codage neuronal ?