La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB.

Présentations similaires


Présentation au sujet: "Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB."— Transcription de la présentation:

1 Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB

2 Mireille Régnier Julie Bernauer Yann Ponty Jean-Marc Steyaert Equipe(s) Bioinfo 2 Christine Froidevaux Patrick Amar Sarah Cohen Boulakia Loïc Paulevé Sabine Peres Olivier Lespinet Christine Drevet Anne Lopes Alain Denise

3 A cell’s life Two major actors : Proteins and RNAs © Ebbe Sloth Andersen

4 The role of RNA molecules Until the 1990’s, proteins were considered as almost the only actors in all cell processes. RNA was an intermediate between DNA and proteins. Rare exceptions were known : ribosomal RNAs, transfer RNAs, … In the 1990’s the multiple roles of non coding RNAs were discovered.

5 Non coding RNAs Are involved in all cellular processes. Most of them have been discovered in the last 10 years. More and more sequence data thanks to new high-troughput sequencing technologies. We need to know the functions of all these molecules. Function is closely related to molecular structure.

6 RNA structure …AAGCUC… Linear polymer Sugar-Phosphate backbone Sequence of bases : A, C, G, U

7 RNA structure Folds into itself by forming basepairs. © Yann Ponty

8 Structure de l’ARN 8 PrimaireSecondaireTertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)

9 Structure de l’ARN 9 PrimaireSecondaire+Tertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)

10 Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 10

11 Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 11

12 Motivation initiale -Collaboration avec l’équipe de Yi Zhang (Wuhan), biologie expérimentale -Etude des ESE : Exon Splicing Enhancer, motif des ARN pré- messagers qui facilite l’épissage alternatif. 12 Question : la fonctionnalité du motif est-elle influencée par son contexte structural ?

13 Motivation initiale 13 Créer et tester in vivo des séquences synthétiques. Structure : une tige-boucle. Contraintes de motifs : Un ESE (7 bases) obligatoire à une position précise : UCGUCGC. Les 1475 autres ESE et ESS sont interdits. (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006)

14 Design d’ARN 14 Prédiction : (n 3 ) Design : NP(-dur) ???

15 Modèle d’énergie du repliement 15 Biological sequence analysis Durbin, Eddy, Krogh, Mitchison Cambridge Univ. Press 1998 Thermodynamique : la séquence se replie dans une conformation d’énergie libre minimale. Energie d’une structure: somme des énergies de ses constituants Empilements de paires de bases Boucles terminales Boucles internes Bases isolées etc. (Freier et al. 1986, Turner et al. 1987, …, Turner et al. 2004)

16 Design d’ARN : définitions Donnée: une structure secondaire cible (sans séquence) Résultat: une ou plusieurs séquences qui se replient selon cette structure. Problème d’optimisation: -Créer une séquence compatible avec la structure. -Maximiser sa propension à se replier selon cette structure (comparativement aux autres structures possibles). Contraintes de motifs: -Positions fixées : imposer ou interdire des bases à des positions fixées. -Motifs interdits : aucun motif de la liste ne doit apparaître dans la séquence. -Motifs imposés : chaque motif de la liste doit apparaître au moins une fois dans la séquence. 16

17 Design d’ARN: état de l’art 17 Un seul gère les motifs interdits : NUPack. Mais la recherche locale ne supporte pas bien les motifs interdits. Aucun ne garantit un temps d’exécution raisonnable. Recherche locale : RNAInverse (1994) RNA-SSD (2004) INFO-RNA (2006) Inv (2010) NUPack (2011) Algorithmes génétiques : FRNAKenstein (2012) RNAFBinv (2013) Approches exactes : RNAiFold (2013) CO4 (2013)

18 18

19 19

20 Notre approche : design « global » au moyen de la génération aléatoire de structures

21 -(((((---)))(--((----))--)--) ) caaaaacccbbbaccaaccccbbccbccbb S  aSbS | cS |  Grammaires algébriques et structures secondaires d’ARN 21

22 aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS longueur = 4 5/94/9 acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 1/5 2/5 1/2 ?? S  a S b S | c S |  [Flajolet, Zimmermann, Van Cutsem 1994] Génération aléatoire uniforme 22

23 aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 14/4228/42 1/14 8/14 5/14 8/2820/28 4/8 1/5 4/5 4/8 4/20 16/20 S  a S b S | c S |  Plus de bases isolées: poids  (a) =  (b)=1  (c) = 2 1441444416 longueur = 4 Génération aléatoire non uniforme contrôlée 23

24 Génération aléatoire non uniforme contrôlée

25 Given the weight fonction , how to compute the expected frequency  i of letter x i ? Let Then where and Given the frequencies of letters, how to compute  ? 25 Calcul des poids en fonction des fréquences

26 Déterminer les poids réalisant des fréquences attendues Approche analytique [Drmota97] [Denise, Ponty, Termier 2010] Si une grammaire satisfait certaines conditions (type simple), alors le nombre total d’occurrences d’un terminal t parmi tous les mots de taille n est asymptotiquement de la forme Construire un système mettant en relation les pondérations et les fréquences attendues pour les non-terminaux. Inverser le système. réalisant Trouver une pondération réalisant des proportions  i des différents symboles terminaux x i Prob : système insoluble dans le cas général ! MAIS système insoluble dans le cas général ! (Système d’équations algébriques de degré non-borné)

27 Déterminer les poids réalisant des fréquences attendues Approche heuristique [Denise, Ponty, Termier 2010] 1.Algorithme évaluant en O(n 4 ) les fréquences pour toute pondération donnée. 2.Notion de distance sur vecteurs de proportions  3.Utilisation de l’algorithme CONDOR [ Vanden Berghen05] qui optimise une fonction par itérations successives. réalisant Trouver une pondération réalisant des proportions  i des différents symboles terminaux x i Prob :

28 Structures d’ARN aléatoires 28

29 Structures d’ARN aléatoires 29

30 Grammaires pondérées pour le design avec contraintes Structure cible Positions fixées Modèle d’énergie:Pondération Motifs imposés Motifs interdits Théorème (folklore) : Rec ∩ CFL CFL  Construction « économique » de la grammaire  Génération aléatoire pondérée 30 [Zhou, Ponty, Vialette, Waldispühl, Zhang, Denise 2013] Automate fini Grammaire algébrique

31 Construction de la grammaire 31

32 Construction de la grammaire 32

33 Construction de la grammaire 33

34 Construction de la grammaire 34

35 Construction de la grammaire 35

36 Construction de l’automate 36

37 Construction de l’automate 37

38 Construction de l’automate 38

39 Construction de l’automate 39

40 Construction de l’automate 40

41 Construction de l’automate 41

42 Combiner grammaire et automate 42

43 Génération aléatoire 43

44 Complexité 44

45 CFGRNAD vs NUPack 45 Génération sans contraintes de motifs. Pour un même nombre de séquences engendrées, les résultats de NUPack sont meilleurs. Mais pour le même temps d’exécution, ceux de CFGRNAD sont meilleurs pour des tailles allant jusqu’à environ 80nt.

46 CFGRNAD vs NUPack 46 Génération avec contraintes de motifs : Motifs interdits : U, AG, CA, CG, GC. NUPack : aucune solution trouvée CFG-RNA-D : indique le nombre de solutions : 6 et les trouve 

47 Résultats in vivo 47 Créer et tester in vivo des séquences synthétiques. Un ESE dans une tige est inactif. Un ESE dans une boucle terminale a une activité variable selon son contexte immédiat. Un ESE gagne en efficacité s’il est situé en aval de la tige-boucle. [Liu, Zhou, Hu, Sun, Denise, Fu, Zhang 2010]

48 Conclusion - Perspectives De l’informatique théorique à la validation expérimentale. Programme téléchargeable - application web (en développement) : http://www.lix.polytechnique.fr/RNADesignStudio/ http://www.lix.polytechnique.fr/RNADesignStudio/ Perspectives : Améliorer le design par de la recherche locale « guidée par la grammaire » Ajouter des contraintes de motifs « non locaux ». Exemple : pseudo-noeuds, motifs structuraux. 48

49 Remerciements/références 49 Orsay/Palaiseau : Yann Ponty (LIX/AMIB) Yu Zhou (LRI/Wuhan) Michel Termier (IGM) Marne-La-Vallée Stéphane Vialette (LIGM) Montréal Jérôme Waldispühl (McGill) Wuhan XiangDong Fu Zexi Hu Wei Liu Tao Sun Yi Zhang Yu Zhou A. Denise, Y. Ponty and M. Termier. Controlled non uniform random generation of decomposable structures. Theoretical Computer Science 411 (2010) 3527-3552. W. Liu, Y. Zhou, Z. Hu, T. Sun, A. Denise, X. Fu, and Y. Zhang. Regulation of splicing enhancer activities by RNA secondary structures. FEBS Letters 584(21) (2010), pages 4401-4407. Y. Zhou, Y. Ponty, S. Vialette, J. Waldispühl, Y. Zhang, and A. Denise. Flexible RNA design under structure and sequence constraints using formal languages. Proceedings of ACM-BCB 2013. V. Reinharz, Y. Ponty, and J. Waldispühl. A weighted sampling algorithm for the design of RNA sequences with targeted secondary structure and nucleotide distribution. Bioinformatics, 29(13):i308-i315, 2013 A. Levin, M. Lis, Y. Ponty, C. O'Donnell, S. Devadas, B. Berger, and J. Waldispühl. A global sampling approach to designing and reengineering RNA secondary structures. Nucleic Acids Research, 40(20):10041-52, 2012

50 50

51 I have designed a set of sequences by using this strategy. The constraints are: mandatory motif: one known ESE motif ‘UCGUCGC’; base constraint: upstream 5 nt ‘cucga’, downstream 5 nt ‘aauuc’; forbidden motifs: 1475 hexamer ESEs/ESSs from (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006). The ESE contains two hexamer ‘UCGUCG’ and ‘CGUCGC’, which are in the set of forbidden motifs. The designed sequences are listed in Table 5.1. For the constructs dedicated to put ESE in single-strand state, the selection was also based on the PU (Probability Unpaired) value computed by the script from (Hiller, Zhang et al. 2007). When the ESE was before a stem-loop, it was easy to pair with upstream parts, like in C group and D4- D7, which were not the structure we expected. My solution was to add some nucleotides ‘UUGUCACA’ before ‘UCGUCGC’, to pair with upstream bases to block those bases which could form pairing with the ESE. It could be allowed for putative ESE to be present in a strong stem, because we have experimental evidence that it would not work. 51

52 Génération aléatoire de structures décomposables 52 Structures décomposables [Flajolet et al. 1994] Structures définies récursivement : Eléments de base : structure vide (ε) et atomes (z i ), Opérations : union disjointe (+), produit (x), séquence, ensemble (set), cycle. [TCS 2010 – LRI, LIX, IGM] : Génération aléatoire non uniforme contrôlée de structures décomposables : Pondération des atomes pour biaiser la génération des structures. Formules closes et heuristique pour calculer les pondérations menant à la distribution désirée.

53 Boltzmann distribution 53

54 RNA structure En fait tout nucléotide peut s’apparier avec tout autre, et de plusieurs façons différentes, mais la plupart des interactions sont faibles. Faibles Fortes

55 Le ribosome

56


Télécharger ppt "Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB."

Présentations similaires


Annonces Google