La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Génération aléatoire de structures d’ARN réalistes

Présentations similaires


Présentation au sujet: "Génération aléatoire de structures d’ARN réalistes"— Transcription de la présentation:

1 Génération aléatoire de structures d’ARN réalistes
Yann Ponty Biology Dpt. Boston College Michel Termier IGM Orsay Alain Denise LRI Orsay 10/11/2018 Yann Ponty - ARENA- Avril 07 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AAAAA

2 Yann Ponty - ARENA- Avril 07
Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

3 Motivation bioinformatique
Significativité ( P-value, Z-score … ) Sensibilité des algorithmes heuristiques Complexité algorithmique Validation expérimentale des modèles Probabilité qu’un phénomène observé apparaisse sous une hypothèse nulle. Evaluer la probabilité qu’un algorithme heuristique de recherche trouve effectivement sa cible Idée préliminaire de la relation entre la taille des entrées et le temps/espace consommé par un algorithme avant de se lancer dans des expériences consommatrices en ressources Validation idéale d’un modèle : Générer à partir du modèle et tester in vivo ! 10/11/2018 Yann Ponty - ARENA- Avril 07

4 Yann Ponty - ARENA- Avril 07
Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

5 Yann Ponty - ARENA- Avril 07
Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] Ex. (simplifié) : S  G S C S | A S |  G C S 3’ 5’ A S G C 5’ 3’ S 5’ 3’ G C 5’ A S G C 3’ 5’ A S G C S 3’ 5’ A G C S 3’ 5’ G C S 3’ 5’ A G C A 10/11/2018 Yann Ponty - ARENA- Avril 07

6 Modèle combinatoire uniforme
Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93] 10/11/2018 Yann Ponty - ARENA- Avril 07

7 Yann Ponty - ARENA- Avril 07
Génération aléatoire uniforme [Flajolet ,Van Cutsem,Zimmermann 93] S  G S C S | A S |  Complexités Précalcul : Génération : S Taille = 4 ? 5/9 4/9 GSCS AS GASCS GCS AGSCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS 1/5 2/5 1/2 Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA 10/11/2018 Yann Ponty - ARENA- Avril 07

8 Complexités de la génération uniforme
Temps Précalcul Mémoire [Flajolet et al 93] O(n log(n))* O(n2)* [Denise et al 99] O(n1+) [Duchon et al 02] Taille exacte : O(n2) Tolérance  : O(n) ; O(n) 10/11/2018 Yann Ponty - ARENA- Avril 07

9 Yann Ponty - ARENA- Avril 07
Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93]  On sait engendrer aléatoirement des structures d’ARN selon une distribution uniforme ! 10/11/2018 Yann Ponty - ARENA- Avril 07

10 Yann Ponty - ARENA- Avril 07
Limites du modèle uniforme Modèle utile pour l’analyse d’algorithme, mais inapte à évaluer des paramètres statistiques pertinents !!! 10/11/2018 Yann Ponty - ARENA- Avril 07

11 Yann Ponty - ARENA- Avril 07
Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

12 Yann Ponty - ARENA- Avril 07
Modèles pondérés Idée : La distribution des structures a une influence sur les valeurs en moyenne des paramètres d’intérêt. (Paramètres = tailles et nombres d’occurrences moyennes des boucles terminales, renflements, …) => Pour obtenir des structures plus réalistes, associer une distribution de probabilité dépendant d’une pondération  Distribution pondérée 10/11/2018 Yann Ponty - ARENA- Avril 07

13 Yann Ponty - ARENA- Avril 07
Grammaires pondérées Modèle uniforme : S  G S C S | A S |  GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA S GSCS AS GCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS Taille = 4 1/3 2/3 1/14 8/14 5/14 2/7 5/7 1/2 1/5 4/5 Modèle pondéré : + Poids (G) = (C)= (A) = 2 GASCS AGSCS Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! 1 4 16 10/11/2018 Yann Ponty - ARENA- Avril 07

14 Application simple : Modèle de Nussinov-Jacobson
Grammaire historique [Waterman78] S  a T b S | c S | ε T  a T b S | c S Rem. : Le symbole a marque chaque appariement. Modèle de Nussinov-Jacobson: L’énergie libre est l’opposée du nombre d’appariements : Distribution de Boltzmann Or Donc on sait engendrer des structures dans la distribution de Boltzmann ! (Idée transposable au modèle de Turner [Waldispuhl? 04]) 10/11/2018 Yann Ponty - ARENA- Avril 07

15 Yann Ponty - ARENA- Avril 07
Autres applications Modélisation de dépendances séquentielles Il est possible de construire un modèle qui conjugue à la fois des dépendances séquentielles (Markov) et une structure forte (Grammaire) On sait engendrer des structures d’ARN décorées par des bases choisies selon un modèle de Markov.[Ponty06] 10/11/2018 Yann Ponty - ARENA- Avril 07

16 Modélisation de la structure secondaire
Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c Ex3 | ε Ex5  c Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  c R | c BI  c BI | c B  c B | c MB  c MB | ε R  T | T R T  c | a R b [Nebel04] S  a T b S | c S | ε T  a T b S | c S [Waterman78] S  ah T bh S | c S | ε T  a T b S | c T | cb [Ponty06] [Nebel03] [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07

17 Modélisation de la structure secondaire
Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c Ex3 | ε Ex5  c Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  c R | c BI  c BI | c B  c B | c MB  c MB | ε Queue 3’ Queue 5’ Renflements (Bulges) Base non-appariée présente dans Boucles Internes Boucles Terminales [Nebel03] Multiboucles [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07

18 Modélisation de la structure secondaire
Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c3 Ex3 | ε Ex5  c5 Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  cr R | cr BI  cbi BI | cbi B  cb B | cb MB  cmb MB | ε On peut aussi contraindre les nombres moyens et tailles moyennes des différents types de sous-structures => Marquer les occurences de sous-structures 10/11/2018 Yann Ponty - ARENA- Avril 07

19 Yann Ponty - ARENA- Avril 07
Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

20 Yann Ponty - ARENA- Avril 07
Calcul des pondérations Pb. : Existe-t-il une pondération  réalisant des fréquences attendues ? Théoriquement : Oui, encore que … [Drmota97] Conditions d’applications contraignantes Résoudre un système d’équations fonctionnelles de degré potentiellement élevé !!! Pratiquement : Oui, presque sûrement (GRGFreqs) Problème inverse (pondération => fréquences) simple Approche optimisation 10/11/2018 Yann Ponty - ARENA- Avril 07

21 Données et modéles Origine : Modéles :
Comparative Web Site CRW [Cannone et al 02] Modéles : (0) Nombre de bases appariées (1p) (1) Nombre et taille des hélices (2p) Renflement(R) Boucle terminale (B) Hélice(H) (K) (2) Nombres et tailles des sous-structures R et B confondus (8p) Boucle Multiple(M) Tige-boucle 10/11/2018 Yann Ponty - ARENA- Avril 07 Boucle interne (I) Extrémité(Ex3,Ex5)

22 Modélisation réaliste
Calcul analytique des pondérations : Proportions de bases appariées Tiges boucles (miARN) Structures secondaires S  R a S b R | ε R  c R | ε S  a T b S | c S | ε T  a T b S | c S Cette méthode repose cependant sur des données statistiques fiables sur la structure. Calculs des pondérations pour des familles connues (GRGFreqs) 10/11/2018 Yann Ponty - ARENA- Avril 07

23 Calcul des pondérations
Calcul analytique des pondérations Calculs des pondérations pour des familles connues (GRGFreqs) Nombres et taille moyenne Hélices uniquement (1) (2p.) Cette méthode repose cependant sur des données statistiques fiables sur la structure. Nombres et tailles moyennes Toutes sous-structures (2) (8p.) ARNr 5s ARNr 23s 10/11/2018 Yann Ponty - ARENA- Avril 07

24 GenRGenS : Generation of Random Genomic Sequences
Génération aléatoire de séquences génomiques structurées : Markov classique/HMM Grammaires pondérées Reg Expr/Prosite patterns Hierarchiques 10/11/2018 Yann Ponty - ARENA- Avril 07

25 Génération pondérée réaliste : Chaîne algorithmique
MC-Annotate [Lemieux, Major02] RNAView [Yang, Jossinet et al 03] Génomique comparative [Cannone et al 02] Structures 3D Structures secondaires augmentées Planarisation [Ponty06] Structures secondaires planes Données Pondération finale Optimisateur Pondération candidate Approche récursive [Ponty06] Fréquence attendues Distance d d   Approx. locale Fréquence réalisées d >  Optimisation Cette méthode repose cependant sur des données statistiques fiables sur la structure. GenRGenS [Ponty et al 06] Modèle pondéré TYPE = GRAMMAR RULES = ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε … R  cr R | cr BI  cbi BI | cbi B  cb B | cb MB  cmb MB | ε WEIGHTS = c c cr 1.345 Structures secondaires aléatoires réalistes Génération 10/11/2018 Yann Ponty - ARENA- Avril 07

26 Conclusion/Perspectives
Modèle uniforme très insuffisamment expressif Grammaires pondérées capturent des aspects structurels (grammaires), séquentiels (Markov) et énergétiques de l’ARN Maîtrise de la loi de distribution (On pourrait interpréter la proba. d’une structure comme un score statistique) Génération aléatoire permet d’évaluer des paramètres ou des scores (E-value, …) difficiles à évaluer mathématiquement 10/11/2018 Yann Ponty - ARENA- Avril 07

27 Conclusion/Perspectives
Décorer la structure : Adjonction d’une séquence, dans quel modèle ? Liaisons non-canoniques ? Distributions de proba. commutatives : Comment rétablir l’ordre ? (=> Cédric Saule) L’optimisateur marche trop bien, régularités dans le paysage. Comment les exploiter algorithmiquement ? Génération dans l’ensemble de Boltzmann + contraintes de séquences = SFold (ou UNAFold). Transposer les optimisations classique de la génération aléatoire sur ces nouvelles approches très en vogue actuellement. Quid des pseudo-noeuds ? (Grammaires multi-bandes?) 10/11/2018 Yann Ponty - ARENA- Avril 07

28 Yann Ponty - ARENA- Avril 07
MERCI !!! 10/11/2018 Yann Ponty - ARENA- Avril 07


Télécharger ppt "Génération aléatoire de structures d’ARN réalistes"

Présentations similaires


Annonces Google