RNA structure: tRNA Primary structure Secondary structure GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAUAUCUGGAGGUCCUGUGUUCGAUCCCACAGAAUUCGCACCA Secondary structure Tertiary structure
RNA « Bio-Algorithmics » Structure prediction given one sequence or given a set of (homologous) sequences Design: sequence prediction (given structure) Structural pattern-matching Comparison of two or several structures
RNA structure levels Arc-annotated sequences RNA structure ~ Graph of bounded degree, containing a (known) hamiltonian path. Arc-annotated sequences Crossing (Secondary structure with pseudoknots) General (Tertiary structure) Plain (Primary structure) Nested (Secondary structure without pseudoknots)
The Chomsky Hierarchy Language Automaton Grammar Recognition Dependency Biology Recursively Enumerable Languages Turing Machine Unrestricted Baa A Undecidable Arbitrary Unknown Context- Sensitive Languages Linear-Bounded Context-Sensitive At aA NP-Complete Crossing Pseudoknots, etc. Context- Free Languages Pushdown (stack) Context-Free S gSc Polynomial Nested Orthodox 2o Structure Regular Languages Finite-State Machine Regular A cA Linear Strictly Local Central Dogma From D. Searls
Prédiction de structure d’ARN Séquence Structure de plus faible énergie libre (selon un modèle d’énergie donné) GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAUAUCUGGAGGUCCUGUGUUCGAUCCCACAGAAUUCGCACCA
La prédiction de structure d’ARN est un problème NP-complet. Lyngso, Pedersen 2000
Que faire face à un pb NP-complet ? Chercher un algorithme exact fûté (mais sans garantie de temps) Chercher un algorithme d’approximation Chercher une heuristique d’approximation Contraindre les données du problème GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAUAUCUGGAGGUCCUGUGUUCGAUCCCACAGAAUUCGCACCA
Prédiction de structure: Nussinov (1978) sans pseudo-nœud, en maximisant le nombre de nucléotides appariés. γ(i,j) = nombre d’appariements dans la structure entre les ième et jème nucléotides. δ(i,j) = 1 si i et j sont appariables, 0 sinon.
Algorithme de Nussinov (1978) j i+1 j-1 i i+1 j j i j-1 2. 1. 3. i k k+1 j Les 4 façons possibles de construire la meilleure structure entre i et j, connaissant les meilleures sous-structures entre i+1 et j-1. 4.
Le plus utilisé : mfold (Zuker-Stiegler)
RNA « Bio-Algorithmics » Structure prediction given one sequence or given a set of (homologous) sequences Design: sequence prediction (given structure) Structural pattern-matching Comparison of two or several structures