Génération aléatoire de structures d’ARN réalistes Yann Ponty Biology Dpt. Boston College Michel Termier IGM Orsay Alain Denise LRI Orsay 10/11/2018 Yann Ponty - ARENA- Avril 07 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AAAAA
Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07
Motivation bioinformatique Significativité ( P-value, Z-score … ) Sensibilité des algorithmes heuristiques Complexité algorithmique Validation expérimentale des modèles Probabilité qu’un phénomène observé apparaisse sous une hypothèse nulle. Evaluer la probabilité qu’un algorithme heuristique de recherche trouve effectivement sa cible Idée préliminaire de la relation entre la taille des entrées et le temps/espace consommé par un algorithme avant de se lancer dans des expériences consommatrices en ressources Validation idéale d’un modèle : Générer à partir du modèle et tester in vivo ! 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] Ex. (simplifié) : S G S C S | A S | G C S 3’ 5’ A S G C 5’ 3’ S 5’ 3’ G C 5’ A S G C 3’ 5’ A S G C S 3’ 5’ A G C S 3’ 5’ G C S 3’ 5’ A G C A 10/11/2018 Yann Ponty - ARENA- Avril 07
Modèle combinatoire uniforme Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93] 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Génération aléatoire uniforme [Flajolet ,Van Cutsem,Zimmermann 93] S G S C S | A S | Complexités Précalcul : Génération : S Taille = 4 ? 5/9 4/9 GSCS AS GASCS GCS AGSCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS 1/5 2/5 1/2 Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA 10/11/2018 Yann Ponty - ARENA- Avril 07
Complexités de la génération uniforme Temps Précalcul Mémoire [Flajolet et al 93] O(n log(n))* O(n2)* [Denise et al 99] O(n1+) [Duchon et al 02] Taille exacte : O(n2) Tolérance : O(n) ; O(n) 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93] On sait engendrer aléatoirement des structures d’ARN selon une distribution uniforme ! 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Limites du modèle uniforme Modèle utile pour l’analyse d’algorithme, mais inapte à évaluer des paramètres statistiques pertinents !!! 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Modèles pondérés Idée : La distribution des structures a une influence sur les valeurs en moyenne des paramètres d’intérêt. (Paramètres = tailles et nombres d’occurrences moyennes des boucles terminales, renflements, …) => Pour obtenir des structures plus réalistes, associer une distribution de probabilité dépendant d’une pondération Distribution pondérée 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Grammaires pondérées Modèle uniforme : S G S C S | A S | GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA S GSCS AS GCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS Taille = 4 1/3 2/3 1/14 8/14 5/14 2/7 5/7 1/2 1/5 4/5 Modèle pondéré : + Poids (G) = (C)=1 (A) = 2 GASCS AGSCS Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! 1 4 16 10/11/2018 Yann Ponty - ARENA- Avril 07
Application simple : Modèle de Nussinov-Jacobson Grammaire historique [Waterman78] S a T b S | c S | ε T a T b S | c S Rem. : Le symbole a marque chaque appariement. Modèle de Nussinov-Jacobson: L’énergie libre est l’opposée du nombre d’appariements : Distribution de Boltzmann Or Donc on sait engendrer des structures dans la distribution de Boltzmann ! (Idée transposable au modèle de Turner [Waldispuhl? 04]) 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Autres applications Modélisation de dépendances séquentielles Il est possible de construire un modèle qui conjugue à la fois des dépendances séquentielles (Markov) et une structure forte (Grammaire) On sait engendrer des structures d’ARN décorées par des bases choisies selon un modèle de Markov.[Ponty06] 10/11/2018 Yann Ponty - ARENA- Avril 07
Modélisation de la structure secondaire Grammaires diverses ARN Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3 c Ex3 | ε Ex5 c Ex5 | ε E a E2 b E a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB MB E SMB | ε R c R | c BI c BI | c B c B | c MB c MB | ε R T | T R T c | a R b [Nebel04] S a T b S | c S | ε T a T b S | c S [Waterman78] S ah T bh S | c S | ε T a T b S | c T | cb [Ponty06] [Nebel03] [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07
Modélisation de la structure secondaire Grammaires diverses ARN Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3 c Ex3 | ε Ex5 c Ex5 | ε E a E2 b E a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB MB E SMB | ε R c R | c BI c BI | c B c B | c MB c MB | ε Queue 3’ Queue 5’ Renflements (Bulges) Base non-appariée présente dans Boucles Internes Boucles Terminales [Nebel03] Multiboucles [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07
Modélisation de la structure secondaire Grammaires diverses ARN Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3 c3 Ex3 | ε Ex5 c5 Ex5 | ε E a E2 b E a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB MB E SMB | ε R cr R | cr BI cbi BI | cbi B cb B | cb MB cmb MB | ε On peut aussi contraindre les nombres moyens et tailles moyennes des différents types de sous-structures => Marquer les occurences de sous-structures 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 Calcul des pondérations Pb. : Existe-t-il une pondération réalisant des fréquences attendues ? Théoriquement : Oui, encore que … [Drmota97] Conditions d’applications contraignantes Résoudre un système d’équations fonctionnelles de degré potentiellement élevé !!! Pratiquement : Oui, presque sûrement (GRGFreqs) Problème inverse (pondération => fréquences) simple Approche optimisation 10/11/2018 Yann Ponty - ARENA- Avril 07
Données et modéles Origine : Modéles : Comparative Web Site CRW [Cannone et al 02] Modéles : (0) Nombre de bases appariées (1p) (1) Nombre et taille des hélices (2p) Renflement(R) Boucle terminale (B) Hélice(H) (K) (2) Nombres et tailles des sous-structures R et B confondus (8p) Boucle Multiple(M) Tige-boucle 10/11/2018 Yann Ponty - ARENA- Avril 07 Boucle interne (I) Extrémité(Ex3,Ex5)
Modélisation réaliste Calcul analytique des pondérations : Proportions de bases appariées Tiges boucles (miARN) Structures secondaires S R a S b R | ε R c R | ε S a T b S | c S | ε T a T b S | c S Cette méthode repose cependant sur des données statistiques fiables sur la structure. Calculs des pondérations pour des familles connues (GRGFreqs) 10/11/2018 Yann Ponty - ARENA- Avril 07
Calcul des pondérations Calcul analytique des pondérations Calculs des pondérations pour des familles connues (GRGFreqs) Nombres et taille moyenne Hélices uniquement (1) (2p.) Cette méthode repose cependant sur des données statistiques fiables sur la structure. Nombres et tailles moyennes Toutes sous-structures (2) (8p.) ARNr 5s ARNr 23s 10/11/2018 Yann Ponty - ARENA- Avril 07
GenRGenS : Generation of Random Genomic Sequences Génération aléatoire de séquences génomiques structurées : Markov classique/HMM Grammaires pondérées Reg Expr/Prosite patterns Hierarchiques http://www.lri.fr/bio/GenRGenS 10/11/2018 Yann Ponty - ARENA- Avril 07
Génération pondérée réaliste : Chaîne algorithmique MC-Annotate [Lemieux, Major02] RNAView [Yang, Jossinet et al 03] Génomique comparative [Cannone et al 02] Structures 3D Structures secondaires augmentées Planarisation [Ponty06] Structures secondaires planes Données Pondération finale Optimisateur Pondération candidate Approche récursive [Ponty06] Fréquence attendues Distance d d Approx. locale Fréquence réalisées d > Optimisation Cette méthode repose cependant sur des données statistiques fiables sur la structure. GenRGenS [Ponty et al 06] Modèle pondéré TYPE = GRAMMAR RULES = ARN Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε … R cr R | cr BI cbi BI | cbi B cb B | cb MB cmb MB | ε WEIGHTS = c5 .08472 c3 .47578 cr 1.345 Structures secondaires aléatoires réalistes Génération 10/11/2018 Yann Ponty - ARENA- Avril 07
Conclusion/Perspectives Modèle uniforme très insuffisamment expressif Grammaires pondérées capturent des aspects structurels (grammaires), séquentiels (Markov) et énergétiques de l’ARN Maîtrise de la loi de distribution (On pourrait interpréter la proba. d’une structure comme un score statistique) Génération aléatoire permet d’évaluer des paramètres ou des scores (E-value, …) difficiles à évaluer mathématiquement 10/11/2018 Yann Ponty - ARENA- Avril 07
Conclusion/Perspectives Décorer la structure : Adjonction d’une séquence, dans quel modèle ? Liaisons non-canoniques ? Distributions de proba. commutatives : Comment rétablir l’ordre ? (=> Cédric Saule) L’optimisateur marche trop bien, régularités dans le paysage. Comment les exploiter algorithmiquement ? Génération dans l’ensemble de Boltzmann + contraintes de séquences = SFold (ou UNAFold). Transposer les optimisations classique de la génération aléatoire sur ces nouvelles approches très en vogue actuellement. Quid des pseudo-noeuds ? (Grammaires multi-bandes?) 10/11/2018 Yann Ponty - ARENA- Avril 07
Yann Ponty - ARENA- Avril 07 MERCI !!! 10/11/2018 Yann Ponty - ARENA- Avril 07