La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Présentations similaires


Présentation au sujet: "Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)"— Transcription de la présentation:

1 Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

2 Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques. Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique. Paradigme : comparaison biologie/aléatoire

3 >MET1MET1 upstream sequence, from -702 to -1, size 702 TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA >MET2MET2 upstream sequence, from -800 to -1, size 800 GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA >MET3MET3 upstream sequence, from -800 to -1, size 800 AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC >MET6MET6 upstream sequence, from -222 to -1, size 222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT >MET14MET14 upstream sequence, from -800 to -1, size 800 TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC >ZWF1MET19 upstream sequence, from -558 to -1, size 558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA >MET17MET25 upstream sequence, from -800 to -1, size 800 TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA >MET30MET30 upstream sequence, from -800 to -1, size 800 CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC >MUP3MUP3 upstream sequence, from -61 to -1, size 61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA >SAM1SAM1 upstream sequence, from -548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT Extraction de promoteurs Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden] La probabilité dune telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10 -9

4 HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL G+ +VK+HGKKV A+++++AH+D LS+LH KL 130 HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL HBA_HUMAN GSAQVKGHGKKVADALTNAVAHV---D--DMPNALSALSDLHAHKL H+ KV + +A ++ +L+ L+++H+ K 10 LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG HBA_HUMAN --GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL V+G + + D M + H -46 1tlk ILDMDVVEGSAARF-DCKVEGYPDPEVMWFKDDNPVKESRHFQ BLOSUM50, pénalités de gap –14/-4 Seuils pour la comparaison de séquences Score

5

6 Vers des modèles statistico-syntaxiques Enrichir les modèles par plusieurs types de propriétés des séquences biologiques considérées, pour affiner les résultats de la comparaison biologique/aléatoire. Ajouter aux paramètre statistiques classiques des paramètres structurels (syntaxiques). Deux types dapproches : Approches analytiques Approche expérimentale

7 5 3 ARN 16S E. coli Contraintes structurelles : ARN Problème : comment engendrer des structures secondaires dARN ayant des propriétés statistiques données ? (nombre de tiges, longueur des tiges, nombre de boucles internes…)

8 Objectifs : déterminer des paramètres biologiques pour la mesure de distance (matrices de substitution), étalonner et comparer les algorithmes, définir des seuils dhomologie. Modèles combinatoires dARN et génération aléatoire. Conception de matrices dhomologie daprès létude statistique des mutations dans les ARN. Comparaison dARN [LaBRI, LRI, IGM]

9 NNX XXY YYZAUG HSP Heptamère glissantStructure stimulatrice 5 3 Espaceur E Modèle de site de décalage [IGM, LRI]

10 - ( ( ( ( ( ) ) ) ( - - ( ( ) ) - - ) - - ) ) c a a a a a c c c b b b a c c a a c c c c b b c c b c c b b Un langage pour les structures secondaires S a S b S | c S |

11 Une grammaire pour les structures secondaires dARN S a S b S | c S | S cS caSbS caaSbSbS caaaSbSbSbS caaaaSbSbSbSbS caaaaSbSbSbSbS caaaaaSbSbSbSbSbS caaaaacSbSbSbSbSbS … caaaaacccbbbaccaaccccbbccbccbb = S cS caSbS cabS cabcS cabc

12

13 aabbaccbacbcacbcabababcccacbcacbcabcccabcccc Génération aléatoire uniforme S aSbSaSbS cScS Longueur = 4 5/94/9 acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 1/5 2/5 1/2 ?? S a S b S | c S |

14 Génération aléatoire non uniforme contrôlée aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 14/4228/42 1/14 8/14 5/14 8/2820/28 4/8 1/5 4/5 4/8 4/20 16/20 S a S b S | c S | + de nucléotides non appariés : Poids (a) = (b)=1 (c) = Longueur = 4 [AD, O.Roques, M.Termier 2000]

15 La pondération étant donnée, quelle est la fréquence moyenne i de la lettre x i ? Soit Alors où et Les fréquences des lettres étant données, quelle doit être la pondération ? Cas rationnel fortement connexe : résoudre un système déquations algébriques. Cas algébrique : à traiter… Calculs de fréquences et de pondérations

16 GenRGenS Generation of Random Genomic Sequences

17 GenRGenS Generation of Random Genomic Sequences ModèlesSéquences

18 Modèles Séquences GenRGenS Generation of Random Genomic Sequences - Markov homogène - Markov hétérogène - Context-Free Grammars Master generation Expressions régulières (Motifs ProSite) - Profils Généralisés - Modélisation des Pseudo-Nœuds ???

19 ARN 3 Ladder 5 3 t 3 3 | 5 t 5 5 | 3 5 Ladder ARN Une grammaire pour la structure secondaire dARN ( Inspirée de Waterman 78 )

20 ARN 3 Ladder 5 Une grammaire pour la structure secondaire dARN Ladder a After_Ladder b After_Ladder a After_Ladder b After_Ladder Ladder

21 ARN 3 Ladder 5 Une grammaire pour la structure secondaire dARN Ladder a After_Ladder b After_Ladder a After_Ladder b | c Bulge Ladder Bulge c Bulge | Bulge Ladder After_Ladder

22 ARN 3 Ladder 5 Une grammaire pour la structure secondaire dARN Ladder a After_Ladder b After_Ladder a After_Ladder b | c Bulge Ladder | d Internal_Loop Ladder Internal_Loop d Internal_Loop d Internal_Loop | Ladder Internal_Loop After_Ladder | Ladder c Bulge

23 ARN 3 Ladder 5 Une grammaire pour la structure secondaire dARN Ladder a After_Ladder b After_Ladder a After_Ladder b | c Bulge Ladder | d Internal_Loop Ladder Internal_Loop d | e Loop Loop e Loop | After_Ladder Loop | Ladder c Bulge

24 ARN 3 Ladder 5 Une grammaire pour la structure secondaire dARN Ladder a After_Ladder b After_Ladder a After_Ladder b | c Bulge Ladder | d Internal_Loop Ladder Internal_Loop d | e Loop | f Multi_Loop Ladder f Multi_Loop Ladder Next_MLoop Multi_Loop f Multi_Loop | Next_MLoop Multi_Loop | f Multi_Loop Ladder Next_MLoop Multi_Loop Ladder Next_Mloop After_Ladder | Ladder c Bulge

25 Génération équiprobable de structures secondaires a a c c a a a a c c a d d d a a d a f a a f a a d a a e e b b d b b f f a d d a e b d b f f f a e b f b c b f f a d d a d a e e e e b d b d d b f f a a e e b b b d b b d d b b b b b b c c c c c c b c a a c a f f f f f a e b f a a a a f a f a e e b f f f f a a f f a c c c a c c a d a a e e b b d b b b f a e b f f a d a e b d b f f f b b f b f a e b f b b b b f f f a e e e e b f f b b c b c c c c c c a a f a e e b f a c a a f f f a c c c a a a a e b b b c c b b f a c a c a e e b b b b c c c b b f f f f f a f f a f a a e b b f f f a d d a e b d b b f a a a a a e b b b c c c c c b c b b f f b b c c c a a f a a c a e b b c b f a c a f a e e b f f a a f a a e b c b f a d a c a f a d a f a e b f a a e b b b d b f a f a e b f a a a e b b b f b b b d b f f a a d a e b d d b c b b b f f f b b b c b c a a f f a f a e b f a e b f a f a f a f a c c a a d a c a a e b b b d b b b f f a e b b f a a e e e b b b f f a f a f f a a e b b f f f f f f f a e e e b b f a e e e b f b b f f b f a a e b b f b b a a a f a a d d d d d d d a a a f a d d a a a a c c a c a f a d d d d d d a d a a e b b d d b d d b f f a e b b b b b b c c c c b d b f f a e e e e e b f f f b b b d d d d d b b f a a e e b c b b b b a d a f a a c a a e e e e e b c b b c c b f f a d a d a f a f f a f f f f f f f f a a c c a a a e b b c c b b b f f a c c c a e e e e e b b f f b f a e e e e b f f f b f a e e e b f b d b d d b b d b c a f a e b f f f a a d d d a c c a f a a c c a c c a a e e b c c b b b c c c b f a e b f f f a a e e b b f a e b f f f a a c c a e b b b b b d b b f a a a d d d d d d a f a e e b f a e b b d b b b b c c c c c c a a a c a a a a c a f a f f a e b f a c a d d d d a f f f a c a a e b c c b b f a e b b d d d d b b f a c c a a a a e b b c b b b f f b f f a a e b c b f a e e e b b b b c c c b b b b c b a f a c a c c a e b b b f f a f f a a d a e b d d b c c c b f f a a f f a a e b b f f a e e e b b b f f b f a a a d d d d d a a a c c a f a e e b f a a c a e e b b b b b b c c c c c b d d b b b f b c a f a e b f a a f a c a e e e b b f f f a e b f a e b f f b c c b f a a a f f f a e b f a c a f a a d d d a e b d d b c b f a a c c c a a a a c a e e b b b b b b c b f f f a e b b b f f b b c c b b c a f f a f a a a e e b b b f a a f f f a f f a e e b f f a c a f f a a c a e e b b c c c c c b f a e e b b b f f b f a e b f a a e b b f b c c c c c c b b f f f a c c a d a c a e e b b d b b b c c c c a f f f a a e b c b f f f a e e e b f f f a f a f a e b f f a e e b f a f a a c c a e b b b f a c c a a c c a e b b c b b b f f a c a a a e b c b b b b f a d a a a c a e e b b c c b b d d b b f f b c + RNAViz GenRGenS

26 Génération équiprobable de structures secondaires

27 Génération équiprobable de structures secondaires - Structures trop complexes - Trop de bases non appariées - Trop de Bulges - Bulges trop gros - Boucles pas assez grosses Pondération des terminaux On contraint ainsi les fréquences des terminaux. On ne peut pas contraindre les fréquences des Bulges, Loop, … !!!

28 ARN 3 Ladder 5 Introduction de marqueurs dans la grammaire Ladder m a After_Ladder m b After_Ladder a After_Ladder b | m c Bulge Ladder | m d Internal_Loop Ladder Internal_Loop m d | m e Loop | m f Multi_Loop Ladder m f Multi_Loop Ladder Next_MLoop Next_MLoop Multi_Loop | m f Multi_Loop Ladder Next_MLoop | Ladder m c Bulge 3 t 3 3 | 5 t 5 5 | Bulge c Bulge | Loop e Loop | Internal_Loop d Internal_Loop | Multi_Loop f Multi_Loop |

29 mambmcmemdmfabcdefmambmcmemdmfabcdef Pondérations

30 mambmcmemdmfabcdefmambmcmemdmfabcdef Pondérations

31 Perspectives A partir de structures secondaires réelles : Calculer les fréquences dapparition des Bulges, Loop … Calculer une pondération telles que ces fréquences soient atteintes asymptotiquement. Recherche dune pondération adéquate : Intégration de contraintes thermodynamiques simples : Grammaire Markovienne pénalisant linstabilité.


Télécharger ppt "Génération aléatoire de structures secondaires dARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)"

Présentations similaires


Annonces Google