Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB.

Slides:



Advertisements
Présentations similaires
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Advertisements

Yann Chevaleyre et Jean-Daniel Zucker
Colloque Traitement et Analyse de séquences : compte-rendu
Master Génie Biologique et Informatique, première année
Approches formelles en syntaxe et sémantique Alain Lecomte UMR 7023 Structures Formelles de la Langue.
Sélection automatique d’index et de vues matérialisées
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Mission X Superfli Emily Roberts Cette présentation sera écrit en français avec sous-titres anglais violet de couleur. This presentation will be written.
Génération aléatoire de structures secondaires d’ARN
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
IFT313 Introduction aux langages formels
Free surface flows in Code Saturne
L’ensemble microcanonique
Structures de données IFT-2000
Cours des Acides Nucléiques
Ce document est la propriété d ’EADS CCR ; il ne peut être communiqué à des tiers et/ou reproduit sans l’autorisation préalable écrite d ’EADS CCR et son.
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Energy optimization in a manufacturing plant Journée GOThA Ordonnancement avec contraintes d’énergie et/ou de ressources périssables LAAS-CNRS Toulouse.
Laboratoire des outils informatiques pour la conception et la production en mécanique (LICP) ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE 1 Petri nets for.
General theme Plurality of science for interdisciplinarity and policy making. Theoretical findings from analyses of sustainable development in agriculture.
Révision Test #4 – L’impératif et la culture. Question #1 What are the two forms of impératif that we learned in class? (Ex: Je, tu il, elle …etc)
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
Epistémologie du Web social Epistémologie du « web social » 1er Semestre 2010 / 2011 Session 03 : introduction théorique.
Reaching Policy Makers and Policy Processes in Kenya Impact Sur la Politque au Kenya ICRAF – KARI – Université de Nairobi.
Deux exemples de travaux sur ce thème
Sélection de colonnes (la projection)
Sister Dalton Fireside Make the most of your BYU experience!
Introduction Définir Planning. L’agent Planning. Représentation pour l’agent planning. Idées derrieres l’agent planning.
“Which one” are you talking about?.  Ce, cet, cette, ces  Un article qui est le plus spécifique Les types d’articles…  Un/ une/ des – général  Le/
Greetings, formal and informal
1 Programmation en C++ Marianne Morris. 2 Intro générale à la programmation On a déjà étudié le langage assembleur Langage de bas niveau Meilleur que.
Recherche de motifs par projections aléatoires
Les Pronoms Direct & Indirect.
Concepts fondamentaux: statistiques et distributions
1 de 24 Cours 11 - synchronisationMGL Witold Suryn Cours 11 – SQIM - synchronisation et gestion de changements 1 Ingénierie de la qualité du système.
Les verbes réfléchis au passé composé
Questions to consider: How are French nouns different from nouns in English? What is the difference between saying, “I have a pen.” and saying, “I have.
Lucia - LAPP Phi* meeting - 3 novembre Correcting back to the electrons after FSR So far C Z defined w.r.t. electrons before FSR Z status = 3 and.
Structures de données et algorithmes – TP7 Maria-Iuliana Dascalu, PhD
EU Joint Programming: Belgium Expert meeting on EU Joint Programming April 26th 2013.
Irregular Adjectives Not all adjectives are made the same.
Les verbes réfléchis.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
Modèles d’interaction et scénarios
Tache 1 Construction d’un simulateur. Objectifs Disposer d’un simulateur d’une population présentant un déséquilibre de liaison historique, afin d’évaluer.
Welcome everyone.
FINANCE Distribution des rentabilités Professeurr André Farber Solvay Business School Université Libre de Bruxelles.
Business intelligence
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
WE’RE ALMOST DONE – CONGRATULATIONS! LE PRONOM « Y »
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Orientation 2006 by Pierrette Guimond Asssistant Director Graduate Programs School of Nursing.
WILF: TO BE ABLE TO GIVE AN OPINION FOR LEVEL 3
EDHEC OPEN INNOVATION 2016 #OpenInno 2016 [Bus. Case title – Company] Company LOGO.
TAX ON BONUSES. Cette présentation appartient à Sefico. Elle est protégée par le code de la propriété intellectuelle : toute reproduction ou diffusion.
Localisation collaborative dans les réseaux de capteurs
Passé Composé avec Être Passé composé with être 1. You already know how to form the Passé Composé tense. Here is a reminder: Past participle Part of.
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
Fabien Plassard December 4 th European Organization for Nuclear Research ILC BDS MEETING 04/12/2014 ILC BDS MEETING Optics Design and Beam Dynamics Modeling.
Clique Percolation Method (CPM)
OBJECT PRONOUNS WITH THE PASSÉ COMPOSÉ Page 122. Placement  With all object pronouns, placement is the same. DirectIndirectPlaces De+ nouns or ideas.
Negative sentences Questions
Techniques d’Optimisation Chapitre 2: Problème de flôt Dr TARI Abdelkamel Mars 2014.
Un petit peu de grammaire… Le passé composé. On récapitule…le verbe “être” Jesuis Tu es Il est Elle est Nous sommes Vous êtes Ils sont Elles sont.
UNITÉ II: LEÇON 6 PARTIE B: LES MOIS ET LA DATE. LES MOIS DE L’ANNÉE janvier January.
1 Linear Prediction. 2 Linear Prediction (Introduction) : The object of linear prediction is to estimate the output sequence from a linear combination.
Generating Random Genomic Sequences and Structures with GenRGenS
Transcription de la présentation:

Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB

Mireille Régnier Julie Bernauer Yann Ponty Jean-Marc Steyaert Equipe(s) Bioinfo 2 Christine Froidevaux Patrick Amar Sarah Cohen Boulakia Loïc Paulevé Sabine Peres Olivier Lespinet Christine Drevet Anne Lopes Alain Denise

A cell’s life Two major actors : Proteins and RNAs © Ebbe Sloth Andersen

The role of RNA molecules Until the 1990’s, proteins were considered as almost the only actors in all cell processes. RNA was an intermediate between DNA and proteins. Rare exceptions were known : ribosomal RNAs, transfer RNAs, … In the 1990’s the multiple roles of non coding RNAs were discovered.

Non coding RNAs Are involved in all cellular processes. Most of them have been discovered in the last 10 years. More and more sequence data thanks to new high-troughput sequencing technologies. We need to know the functions of all these molecules. Function is closely related to molecular structure.

RNA structure …AAGCUC… Linear polymer Sugar-Phosphate backbone Sequence of bases : A, C, G, U

RNA structure Folds into itself by forming basepairs. © Yann Ponty

Structure de l’ARN 8 PrimaireSecondaireTertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)

Structure de l’ARN 9 PrimaireSecondaire+Tertiaire (ou 3D) ARN 5S (PDBID: 1K73:B)

Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 10

Bioinformatique/bioalgorithmique de L’ARN -Prédiction de structure (secondaire, tertiaire) -Comparaison (structure-structure, structure séquence) -Design -Interactions intermoléculaires (ARN-ARN, ARN- protéines…) 11

Motivation initiale -Collaboration avec l’équipe de Yi Zhang (Wuhan), biologie expérimentale -Etude des ESE : Exon Splicing Enhancer, motif des ARN pré- messagers qui facilite l’épissage alternatif. 12 Question : la fonctionnalité du motif est-elle influencée par son contexte structural ?

Motivation initiale 13 Créer et tester in vivo des séquences synthétiques. Structure : une tige-boucle. Contraintes de motifs : Un ESE (7 bases) obligatoire à une position précise : UCGUCGC. Les 1475 autres ESE et ESS sont interdits. (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006)

Design d’ARN 14 Prédiction : (n 3 ) Design : NP(-dur) ???

Modèle d’énergie du repliement 15 Biological sequence analysis Durbin, Eddy, Krogh, Mitchison Cambridge Univ. Press 1998 Thermodynamique : la séquence se replie dans une conformation d’énergie libre minimale. Energie d’une structure: somme des énergies de ses constituants Empilements de paires de bases Boucles terminales Boucles internes Bases isolées etc. (Freier et al. 1986, Turner et al. 1987, …, Turner et al. 2004)

Design d’ARN : définitions Donnée: une structure secondaire cible (sans séquence) Résultat: une ou plusieurs séquences qui se replient selon cette structure. Problème d’optimisation: -Créer une séquence compatible avec la structure. -Maximiser sa propension à se replier selon cette structure (comparativement aux autres structures possibles). Contraintes de motifs: -Positions fixées : imposer ou interdire des bases à des positions fixées. -Motifs interdits : aucun motif de la liste ne doit apparaître dans la séquence. -Motifs imposés : chaque motif de la liste doit apparaître au moins une fois dans la séquence. 16

Design d’ARN: état de l’art 17 Un seul gère les motifs interdits : NUPack. Mais la recherche locale ne supporte pas bien les motifs interdits. Aucun ne garantit un temps d’exécution raisonnable. Recherche locale : RNAInverse (1994) RNA-SSD (2004) INFO-RNA (2006) Inv (2010) NUPack (2011) Algorithmes génétiques : FRNAKenstein (2012) RNAFBinv (2013) Approches exactes : RNAiFold (2013) CO4 (2013)

18

19

Notre approche : design « global » au moyen de la génération aléatoire de structures

-(((((---)))(--((----))--)--) ) caaaaacccbbbaccaaccccbbccbccbb S  aSbS | cS |  Grammaires algébriques et structures secondaires d’ARN 21

aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS longueur = 4 5/94/9 acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 1/5 2/5 1/2 ?? S  a S b S | c S |  [Flajolet, Zimmermann, Van Cutsem 1994] Génération aléatoire uniforme 22

aabbaccbacbcacbcabababcccacbcacbcabcccabcccc S aSbSaSbS cScS acSbSacSbSabScaSbScaSbSccS aaSbSbS accSbSacbSacbSabaSbSabcScacSbScacSbScabSccaSbScccS 14/4228/42 1/14 8/14 5/14 8/2820/28 4/8 1/5 4/5 4/8 4/20 16/20 S  a S b S | c S |  Plus de bases isolées: poids  (a) =  (b)=1  (c) = longueur = 4 Génération aléatoire non uniforme contrôlée 23

Génération aléatoire non uniforme contrôlée

Given the weight fonction , how to compute the expected frequency  i of letter x i ? Let Then where and Given the frequencies of letters, how to compute  ? 25 Calcul des poids en fonction des fréquences

Déterminer les poids réalisant des fréquences attendues Approche analytique [Drmota97] [Denise, Ponty, Termier 2010] Si une grammaire satisfait certaines conditions (type simple), alors le nombre total d’occurrences d’un terminal t parmi tous les mots de taille n est asymptotiquement de la forme Construire un système mettant en relation les pondérations et les fréquences attendues pour les non-terminaux. Inverser le système. réalisant Trouver une pondération réalisant des proportions  i des différents symboles terminaux x i Prob : système insoluble dans le cas général ! MAIS système insoluble dans le cas général ! (Système d’équations algébriques de degré non-borné)

Déterminer les poids réalisant des fréquences attendues Approche heuristique [Denise, Ponty, Termier 2010] 1.Algorithme évaluant en O(n 4 ) les fréquences pour toute pondération donnée. 2.Notion de distance sur vecteurs de proportions  3.Utilisation de l’algorithme CONDOR [ Vanden Berghen05] qui optimise une fonction par itérations successives. réalisant Trouver une pondération réalisant des proportions  i des différents symboles terminaux x i Prob :

Structures d’ARN aléatoires 28

Structures d’ARN aléatoires 29

Grammaires pondérées pour le design avec contraintes Structure cible Positions fixées Modèle d’énergie:Pondération Motifs imposés Motifs interdits Théorème (folklore) : Rec ∩ CFL CFL  Construction « économique » de la grammaire  Génération aléatoire pondérée 30 [Zhou, Ponty, Vialette, Waldispühl, Zhang, Denise 2013] Automate fini Grammaire algébrique

Construction de la grammaire 31

Construction de la grammaire 32

Construction de la grammaire 33

Construction de la grammaire 34

Construction de la grammaire 35

Construction de l’automate 36

Construction de l’automate 37

Construction de l’automate 38

Construction de l’automate 39

Construction de l’automate 40

Construction de l’automate 41

Combiner grammaire et automate 42

Génération aléatoire 43

Complexité 44

CFGRNAD vs NUPack 45 Génération sans contraintes de motifs. Pour un même nombre de séquences engendrées, les résultats de NUPack sont meilleurs. Mais pour le même temps d’exécution, ceux de CFGRNAD sont meilleurs pour des tailles allant jusqu’à environ 80nt.

CFGRNAD vs NUPack 46 Génération avec contraintes de motifs : Motifs interdits : U, AG, CA, CG, GC. NUPack : aucune solution trouvée CFG-RNA-D : indique le nombre de solutions : 6 et les trouve 

Résultats in vivo 47 Créer et tester in vivo des séquences synthétiques. Un ESE dans une tige est inactif. Un ESE dans une boucle terminale a une activité variable selon son contexte immédiat. Un ESE gagne en efficacité s’il est situé en aval de la tige-boucle. [Liu, Zhou, Hu, Sun, Denise, Fu, Zhang 2010]

Conclusion - Perspectives De l’informatique théorique à la validation expérimentale. Programme téléchargeable - application web (en développement) : Perspectives : Améliorer le design par de la recherche locale « guidée par la grammaire » Ajouter des contraintes de motifs « non locaux ». Exemple : pseudo-noeuds, motifs structuraux. 48

Remerciements/références 49 Orsay/Palaiseau : Yann Ponty (LIX/AMIB) Yu Zhou (LRI/Wuhan) Michel Termier (IGM) Marne-La-Vallée Stéphane Vialette (LIGM) Montréal Jérôme Waldispühl (McGill) Wuhan XiangDong Fu Zexi Hu Wei Liu Tao Sun Yi Zhang Yu Zhou A. Denise, Y. Ponty and M. Termier. Controlled non uniform random generation of decomposable structures. Theoretical Computer Science 411 (2010) W. Liu, Y. Zhou, Z. Hu, T. Sun, A. Denise, X. Fu, and Y. Zhang. Regulation of splicing enhancer activities by RNA secondary structures. FEBS Letters 584(21) (2010), pages Y. Zhou, Y. Ponty, S. Vialette, J. Waldispühl, Y. Zhang, and A. Denise. Flexible RNA design under structure and sequence constraints using formal languages. Proceedings of ACM-BCB V. Reinharz, Y. Ponty, and J. Waldispühl. A weighted sampling algorithm for the design of RNA sequences with targeted secondary structure and nucleotide distribution. Bioinformatics, 29(13):i308-i315, 2013 A. Levin, M. Lis, Y. Ponty, C. O'Donnell, S. Devadas, B. Berger, and J. Waldispühl. A global sampling approach to designing and reengineering RNA secondary structures. Nucleic Acids Research, 40(20): , 2012

50

I have designed a set of sequences by using this strategy. The constraints are: mandatory motif: one known ESE motif ‘UCGUCGC’; base constraint: upstream 5 nt ‘cucga’, downstream 5 nt ‘aauuc’; forbidden motifs: 1475 hexamer ESEs/ESSs from (Fairbrother, Yeo et al. 2004; Stadler, Shomron et al. 2006). The ESE contains two hexamer ‘UCGUCG’ and ‘CGUCGC’, which are in the set of forbidden motifs. The designed sequences are listed in Table 5.1. For the constructs dedicated to put ESE in single-strand state, the selection was also based on the PU (Probability Unpaired) value computed by the script from (Hiller, Zhang et al. 2007). When the ESE was before a stem-loop, it was easy to pair with upstream parts, like in C group and D4- D7, which were not the structure we expected. My solution was to add some nucleotides ‘UUGUCACA’ before ‘UCGUCGC’, to pair with upstream bases to block those bases which could form pairing with the ESE. It could be allowed for putative ESE to be present in a strong stem, because we have experimental evidence that it would not work. 51

Génération aléatoire de structures décomposables 52 Structures décomposables [Flajolet et al. 1994] Structures définies récursivement : Eléments de base : structure vide (ε) et atomes (z i ), Opérations : union disjointe (+), produit (x), séquence, ensemble (set), cycle. [TCS 2010 – LRI, LIX, IGM] : Génération aléatoire non uniforme contrôlée de structures décomposables : Pondération des atomes pour biaiser la génération des structures. Formules closes et heuristique pour calculer les pondérations menant à la distribution désirée.

Boltzmann distribution 53

RNA structure En fait tout nucléotide peut s’apparier avec tout autre, et de plusieurs façons différentes, mais la plupart des interactions sont faibles. Faibles Fortes

Le ribosome