La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

Présentations similaires


Présentation au sujet: "1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U."— Transcription de la présentation:

1 1. LADN et linformation génétique

2 lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U

3 traduction linformation génétique est organisée par triplets (codons)

4 1 triplet = 1 codon = 3 lettres = 1 acide aminé le code génétique le code génétique est dégénéré : 4 3 = 64 > 20 !

5 le gène unité de linformation génétique gène introns : non codantsexons : codants

6 le gène gène unité de linformation génétique

7 le génome organisation de linformation génétique chez la bactérie : Escherichia Coli bps 4732 gènes

8 le génome organisation de linformation génétique codant séquences répétées non codant pseudogènes chez lhomme : 3 milliards de pbs ~20000 gènes < 2 % dADN codant !

9 le génome pourcent dADN non codant et « complexité » des organismes quantité dADN codant en fonction de la taille du génome

10 ADN codant et non codant ADN « poubelle » exons introns pourquoi autant dADN non codant ? peut-on en comprendre le rôle ? en résumé :

11 2. étudier les séquences dADN comparaison entre séquences / alignement de séquences : recherche de gènes recherche de similarités entre espèces - évolution recherches de motifs répétés - régulation, organisation à la recherche de caractéristiques « globales » : différencier les régions codantes et non codantes rechercher un « ordre » dans le désordre apparent… approche « déterministe » : approche statistique :

12 analyse statistiques des séquences mesurer lordre dans lADN quest-ce qui différencie les séquences dADN de simples séquences aléatoires ? 1.information mutuelle 2.fonction de corrélation / densité spectrale de puissance 3.techniques basées sur la « marche ADN » 4.…

13 de la séquence symbolique à une séquence numérique choisir un code binaire : par exemple ATGCATGC AGTCAGTC double liaison hydrogène triple liaison hydrogène ou purines pyrimidines n= … A T C G G T C A T A… n = … on peut donc étudier la variable numérique binaire n = 1 où n = position on obtient :

14 le signal n (ADN) signal aléatoire signal déterministe signal corrélé

15 3. fonction de corrélation et densité spectrale de puissance (DSP) xx ( ) S xx ( f ) T 1/T

16 fonction de corrélation soit (t) signal aléatoire fonction du temps t, stationnaire : 1. on peut définir la fonction de corrélation de (t) 2. si « ergodique », on peut remplacer la moyenne densemble par une moyenne sur le temps : chaque t 0 initial considéré comme une nouvelle réalisation

17 fonction de corrélation Signal temporel Périodicités cachées Signal musical (Strauss) : La fonction de corrélation présente de pics pour des retards multiples du « tempo » (msec) t (sec)

18 fonction de corrélation Signal temporel Signaux persistants : la fonction de corrélation décroît plus lentement pour des signaux qui ont tendance à varier lentement Une mesure de la « mémoire » du signal

19 (bruit blanc) Signal « sans mémoire » : chaque valeur est indépendante de la précédente fonction de corrélation bb ( ) = ( ) doù b 2 = bb ( ) = + b(t) b(t) signal stationnaire, b(t) = 0 (centré),

20 effet du bruit

21 densité spectrale de puissance (DSP) 3. on peut passer à la représentation en fréquence par transformée de Fourier (TF) : on obtient la densité spectrale de puissance 4. Théorème de Wiener-Khintchine : où limitée à lintérvalle [0, T] 5. On peut alors évaluer S ( f ) directement à partir du signal : estimateur de la DSP dun signal réel :

22 ( ) ~ exp(- / a) exponentielle S ( f ) ~ 1/( 1+(2 a f ) 2 ) lorentzienne f largeur de bande 2. échelle de « mémoire » = a largeur de bande 1/ a 1. périodicité « cachée » = T pic à la fréquence 1/T xx ( ) S xx ( f ) f T 1/T Fonction de corrélation et DSP

23 4. corrélation à longue portée

24 si léchelle de mémoire est infinie ( xx ( ) nest pas intégrable) on parle de corrélation à longue portée. Typiquement, loi de puissance : corrélation à longue portée (échelle log) ) (échelle log) pente 1/ f (échelle log) S(f) (échelle log) pente 1/

25 5. corrélation et ADN

26 ADN : résultat 1 – périodicité 3 périodicité dans la fonction de corrélation positions n = 3i positions n = 3i+1, 3i+2 d C(d) lié à la structure en triplets (codons) du code génétique ; mais comment ? pourquoi ?

27 résultat 2 – corrélation à longue portée R. F. Voss, PRL, 1992 (variation de la méthode : construction de 4 sous-séquences 0/1 pour A, T, C, G) résultat 1 : pic à f = 1/3 cytomégalovirus, pbs (codant) résultat 2 : DSP 1/f le résultat semble plutôt général… (non codant) échelle log-log : log(DSP) - log(f) f=1/3

28 pour lADN codant des résultats controversés : pas de corrélation ? (Stanley group, ) LADN codant est sans doute moins corrélé que le non codant

29 positions n = 3i positions n = 3i+1, 3i+2 d C(d) revenons à la fonction de corrélation pour bien analyser les résultats obtenus : comment évolue lamplitude des pics en position 3i ? on la reporte en échelle log : décroissance en d corrélation longue portée pour « une base sur trois » ? d C(d) séquence codante

30 dégénérescence sur la troisième lettre du codon séquences codantes : la dégénérescence du code laisse « passer » un peu de corrélation longue portée H calculé sur différentes échelles q introns : H0.6 position 1 du codon : H0.55 position 2 du codon : H0.55 position 3 du codon : H0.58 Arnéodo group, la position 3 du codon, plus libre, peut suivre la contrainte « globale »

31 pourquoi une mémoire étendue ? procaryotes (bactéries et archea) ADN : un filament hautement compacté bps 2 cm dADN taille de la cellule 1 m ratio =

32 pourquoi une mémoire étendue ? eucaryotes : CHROMATINE ! Goodsell nucléosomes DNA histones nucléosomes fibre de chromatine chromatine DNA fibre de chromatine boucles noyau cellulaire parties verrouillées parties transcrites une structure fonctionnelle hautement organisée

33 dautres images

34 un rôle pour les séquences non codantes les séquences non codantes montrent toujours une corrélation à longue portée lADN « poubelle » participe à létablissement dun arrangement fonctionnel de lADN dans le noyau/la cellule ! la corrélation à longue portée indique la présence dun ordre global ;

35 interprétation rôle de la fonction biologique : codage dune protéine : représente une contrainte sur le choix des bases, lié à la bonne séquence da.a. corrélation longue portée : en général, reflet dune contrainte sur lordre global de lADN séquences non codantes séquences codantes soumises à deux contraintes : peut-on les « simuler » ?

36 signal discret fonction de corrélation de n n = … A T C G G T C A T A C… n = … n signal aléatoire discret fonction de la position n plutôt que du temps t : si =0 (autrement, on soustrait la moyenne) alors la fonction de corrélation sécrit d = distance entre 2 sites le long de la séquence moyenne densemble moyenne sur n

37 fonction de corrélation de n en pratique : sur un ordinateur, le signal est toujours discret ! z(t) (z 1, z 2, z 3, z 4,… z N ) = z pour nous, le signal est intrinsèquement discret (pas=1), car cest la séquence. sous scilab, il donc dutiliser la fonction : corr : corr(z, d max ) =fonction de corrélation de x, en fonction de la distance d, pour d = 0, 1, 2,… d max -1 sous scilab, corr soustrait automatiquement la moyenne de z

38 DSP de n – 1. calculer la TF : x(t)x(t) t |X(f)| f SpectreSignal Signal échantillonné t Spectre périodique de période ƒ e = 1/t Signal echantillonné : x k = k t de 0 à T e = N T tktk xkxk f -f e f e /2 0 FFT du signal : ƒ n = n ƒ de 0 à ƒ e = N ƒ Transformée de Fourier Rapide : FFT

39 DSP de n – 2. déduire la DSP: Wiener-Khintchine : estimateur DSP = doù |fft(z)| 2 / N DSP de z sous scilab, commencer par soustraire la moyenne de z FFT = transformée de Fourier Rapide sous scilab : fft : fft(z, -1) = fft(z) = TF de z donne la TF pour f = 0, f, 2f,… f e -1

40 fin

41 1. information mutuelle probabilité jointe davoir les symboles i et j à distance d probabilités davoir les symboles i et j (densités) zéro si indépendants car P ij (d)=P i P j remarque : en thermo, S = -k Bp i lnp i … cest une mesure dentropie! voir « entropie de Shannon »


Télécharger ppt "1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U."

Présentations similaires


Annonces Google