Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB
Mireille Régnier Julie Bernauer Yann Ponty Jean-Marc Steyaert Equipe(s) Bioinfo 2 Christine Froidevaux Patrick Amar Sarah Cohen Boulakia Loïc Paulevé Sabine Peres Olivier Lespinet Christine Drevet Anne Lopes Alain Denise
A cell’s life Two major actors : Proteins and RNAs © Ebbe Sloth Andersen
The role of RNA molecules Until the 1990’s, proteins were considered as almost the only actors in all cell processes. RNA was an intermediate between DNA and proteins. Rare exceptions were known : ribosomal RNAs, transfer RNAs, … In the 1990’s the multiple roles of non coding RNAs were discovered.
Non coding RNAs Are involved in all cellular processes. Most of them have been discovered in the last 10 years. More and more sequence data thanks to new high-troughput sequencing technologies. We need to know the functions of all these molecules. Function is closely related to molecular structure.
RNA structure …AAGCUC… Linear polymer Sugar-Phosphate backbone Sequence of bases : A, C, G, U
RNA structure Folds into itself by forming basepairs. © Yann Ponty
Structure de l’ARN 8 PrimaireSecondaireTertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)
Structure de l’ARN 9 PrimaireSecondaire+Tertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)
Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 10
Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 11
Motivation initiale -Collaboration avec l’équipe de Yi Zhang (Wuhan), biologie expérimentale -Etude des ESE : Exon Splicing Enhancer, motif des ARN pré- messagers qui facilite l’épissage alternatif. 12 Question : la fonctionnalité du motif est-elle influencée par son contexte structural ?
Motivation initiale 13 Créer et tester in vivo des séquences synthétiques. Structure : une tige-boucle. Contraintes de motifs : Un ESE (7 bases) obligatoire à une position précise : UCGUCGC. Les 1475 autres ESE et ESS sont interdits. (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006)
Design d’ARN 14 Prédiction : (n 3 ) Design : NP(-dur) ???
Modèle d’énergie du repliement 15 Biological sequence analysis Durbin, Eddy, Krogh, Mitchison Cambridge Univ. Press 1998 Thermodynamique : la séquence se replie dans une conformation d’énergie libre minimale. Energie d’une structure: somme des énergies de ses constituants Empilements de paires de bases Boucles terminales Boucles internes Bases isolées etc. (Freier et al. 1986, Turner et al. 1987, …, Turner et al. 2004)
Design d’ARN : définitions Donnée: une structure secondaire cible (sans séquence) Résultat: une ou plusieurs séquences qui se replient selon cette structure. Problème d’optimisation: -Créer une séquence compatible avec la structure. -Maximiser sa propension à se replier selon cette structure (comparativement aux autres structures possibles). Contraintes de motifs: -Positions fixées : imposer ou interdire des bases à des positions fixées. -Motifs interdits : aucun motif de la liste ne doit apparaître dans la séquence. -Motifs imposés : chaque motif de la liste doit apparaître au moins une fois dans la séquence. 16
Design d’ARN: état de l’art 17 Un seul gère les motifs interdits : NUPack. Mais la recherche locale ne supporte pas bien les motifs interdits. Aucun ne garantit un temps d’exécution raisonnable. Recherche locale : RNAInverse (1994) RNA-SSD (2004) INFO-RNA (2006) Inv (2010) NUPack (2011) Algorithmes génétiques : FRNAKenstein (2012) RNAFBinv (2013) Approches exactes : RNAiFold (2013) CO4 (2013)
18
19
Notre approche : design « global » au moyen de la génération aléatoire de structures
-(((((---)))(--((----))--)--) ) caaaaacccbbbaccaaccccbbccbccbb S aSbS | cS | Grammaires algébriques et structures secondaires d’ARN 21
aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS longueur = 4 5/94/9 acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 1/5 2/5 1/2 ?? S a S b S | c S | [Flajolet, Zimmermann, Van Cutsem 1994] Génération aléatoire uniforme 22
aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 14/4228/42 1/14 8/14 5/14 8/2820/28 4/8 1/5 4/5 4/8 4/20 16/20 S a S b S | c S | Plus de bases isolées: poids (a) = (b)=1 (c) = longueur = 4 Génération aléatoire non uniforme contrôlée 23
Génération aléatoire non uniforme contrôlée
Given the weight fonction , how to compute the expected frequency i of letter x i ? Let Then where and Given the frequencies of letters, how to compute ? 25 Calcul des poids en fonction des fréquences
Déterminer les poids réalisant des fréquences attendues Approche analytique [Drmota97] [Denise, Ponty, Termier 2010] Si une grammaire satisfait certaines conditions (type simple), alors le nombre total d’occurrences d’un terminal t parmi tous les mots de taille n est asymptotiquement de la forme Construire un système mettant en relation les pondérations et les fréquences attendues pour les non-terminaux. Inverser le système. réalisant Trouver une pondération réalisant des proportions i des différents symboles terminaux x i Prob : système insoluble dans le cas général ! MAIS système insoluble dans le cas général ! (Système d’équations algébriques de degré non-borné)
Déterminer les poids réalisant des fréquences attendues Approche heuristique [Denise, Ponty, Termier 2010] 1.Algorithme évaluant en O(n 4 ) les fréquences pour toute pondération donnée. 2.Notion de distance sur vecteurs de proportions 3.Utilisation de l’algorithme CONDOR [ Vanden Berghen05] qui optimise une fonction par itérations successives. réalisant Trouver une pondération réalisant des proportions i des différents symboles terminaux x i Prob :
Structures d’ARN aléatoires 28
Structures d’ARN aléatoires 29
Grammaires pondérées pour le design avec contraintes Structure cible Positions fixées Modèle d’énergie:Pondération Motifs imposés Motifs interdits Théorème (folklore) : Rec ∩ CFL CFL Construction « économique » de la grammaire Génération aléatoire pondérée 30 [Zhou, Ponty, Vialette, Waldispühl, Zhang, Denise 2013] Automate fini Grammaire algébrique
Construction de la grammaire 31
Construction de la grammaire 32
Construction de la grammaire 33
Construction de la grammaire 34
Construction de la grammaire 35
Construction de l’automate 36
Construction de l’automate 37
Construction de l’automate 38
Construction de l’automate 39
Construction de l’automate 40
Construction de l’automate 41
Combiner grammaire et automate 42
Génération aléatoire 43
Complexité 44
CFGRNAD vs NUPack 45 Génération sans contraintes de motifs. Pour un même nombre de séquences engendrées, les résultats de NUPack sont meilleurs. Mais pour le même temps d’exécution, ceux de CFGRNAD sont meilleurs pour des tailles allant jusqu’à environ 80nt.
CFGRNAD vs NUPack 46 Génération avec contraintes de motifs : Motifs interdits : U, AG, CA, CG, GC. NUPack : aucune solution trouvée CFG-RNA-D : indique le nombre de solutions : 6 et les trouve
Résultats in vivo 47 Créer et tester in vivo des séquences synthétiques. Un ESE dans une tige est inactif. Un ESE dans une boucle terminale a une activité variable selon son contexte immédiat. Un ESE gagne en efficacité s’il est situé en aval de la tige-boucle. [Liu, Zhou, Hu, Sun, Denise, Fu, Zhang 2010]
Conclusion - Perspectives De l’informatique théorique à la validation expérimentale. Programme téléchargeable - application web (en développement) : Perspectives : Améliorer le design par de la recherche locale « guidée par la grammaire » Ajouter des contraintes de motifs « non locaux ». Exemple : pseudo-noeuds, motifs structuraux. 48
Remerciements/références 49 Orsay/Palaiseau : Yann Ponty (LIX/AMIB) Yu Zhou (LRI/Wuhan) Michel Termier (IGM) Marne-La-Vallée Stéphane Vialette (LIGM) Montréal Jérôme Waldispühl (McGill) Wuhan XiangDong Fu Zexi Hu Wei Liu Tao Sun Yi Zhang Yu Zhou A. Denise, Y. Ponty and M. Termier. Controlled non uniform random generation of decomposable structures. Theoretical Computer Science 411 (2010) W. Liu, Y. Zhou, Z. Hu, T. Sun, A. Denise, X. Fu, and Y. Zhang. Regulation of splicing enhancer activities by RNA secondary structures. FEBS Letters 584(21) (2010), pages Y. Zhou, Y. Ponty, S. Vialette, J. Waldispühl, Y. Zhang, and A. Denise. Flexible RNA design under structure and sequence constraints using formal languages. Proceedings of ACM-BCB V. Reinharz, Y. Ponty, and J. Waldispühl. A weighted sampling algorithm for the design of RNA sequences with targeted secondary structure and nucleotide distribution. Bioinformatics, 29(13):i308-i315, 2013 A. Levin, M. Lis, Y. Ponty, C. O'Donnell, S. Devadas, B. Berger, and J. Waldispühl. A global sampling approach to designing and reengineering RNA secondary structures. Nucleic Acids Research, 40(20): , 2012
50
I have designed a set of sequences by using this strategy. The constraints are: mandatory motif: one known ESE motif ‘UCGUCGC’; base constraint: upstream 5 nt ‘cucga’, downstream 5 nt ‘aauuc’; forbidden motifs: 1475 hexamer ESEs/ESSs from (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006). The ESE contains two hexamer ‘UCGUCG’ and ‘CGUCGC’, which are in the set of forbidden motifs. The designed sequences are listed in Table 5.1. For the constructs dedicated to put ESE in single-strand state, the selection was also based on the PU (Probability Unpaired) value computed by the script from (Hiller, Zhang et al. 2007). When the ESE was before a stem-loop, it was easy to pair with upstream parts, like in C group and D4- D7, which were not the structure we expected. My solution was to add some nucleotides ‘UUGUCACA’ before ‘UCGUCGC’, to pair with upstream bases to block those bases which could form pairing with the ESE. It could be allowed for putative ESE to be present in a strong stem, because we have experimental evidence that it would not work. 51
Génération aléatoire de structures décomposables 52 Structures décomposables [Flajolet et al. 1994] Structures définies récursivement : Eléments de base : structure vide (ε) et atomes (z i ), Opérations : union disjointe (+), produit (x), séquence, ensemble (set), cycle. [TCS 2010 – LRI, LIX, IGM] : Génération aléatoire non uniforme contrôlée de structures décomposables : Pondération des atomes pour biaiser la génération des structures. Formules closes et heuristique pour calculer les pondérations menant à la distribution désirée.
Boltzmann distribution 53
RNA structure En fait tout nucléotide peut s’apparier avec tout autre, et de plusieurs façons différentes, mais la plupart des interactions sont faibles. Faibles Fortes
Le ribosome