Génération aléatoire de structures d’ARN réalistes

Slides:



Advertisements
Présentations similaires
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Advertisements

Colloque Traitement et Analyse de séquences : compte-rendu
Génération aléatoire de structures secondaires d’ARN
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
IFT3355: Infographie Transformations Géométriques
L’évaluation dans le cadre de l’approche par compétences
1 Recherche d'information Recherche d'information sur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source.
Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Portage d'une application sur GPU CreditCruncher.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Séquence 1 : Problème posé : A quoi sert une éolienne et de quels éléments est elle constituée ? énergie renouvelable classe de 4° Analyse de l'OT.
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Un système autonomique basé sur des bases de connaissances pour améliorer les performances d’un entrepôt de données Réalisé par : OUSSAFI MOHAMMED HOURRI.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Cours d’Econométrie de la Finance (Stat des choix de portf. IV 1-2)
Suites ordonnées ou mettre de l’ordre
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Analyse, Classification,Indexation des Données ACID
e-Prelude.com Analyse globale du flux
Les distributions en classes
Comparaison de deux pourcentages.
Dominique PETRELLA – Frédéric GUINEPAIN - IA-IPR STI Versailles
Loi Normale (Laplace-Gauss)
Algorithmique Avancée et Complexité Chap3:Diviser pour Régner
S. Briot1 and V. Arakelian2 1 IRCCyN – Nantes 2 INSA – Rennes
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Un Algorithme , c'est Quoi ?
Simulation des nanostructures à base de nanorubans de graphène
Échantillonnage non-aléatoire
Plans d’expériences: Plans de mélanges
Plans d’experiences : plans de melanges
Technologies de l’intelligence d’affaires Séance 11
Les répétitions en tandem et l ’étude des génomes
Objectifs du chapitre 5: Plans corrélationnels
Technologies de l’intelligence d’affaires Séance 12
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Concepts avancés en mathématiques et informatique appliquées
C1 – Interpolation et approximation
Chapitre 8 : Fluctuation d’échantillonnage.
4.4 Tests D’hypothèses sur une moyenne
Cyber-Sphinx Séance 2.
4.2 Estimation d’une moyenne
Manipulation D’Une Base De Données
Recherche par automates finis
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
 1____Probabilité  2______variables aléatoires discrètes et continues  3______loi de probabilités d’une v a  4_______les moyens et les moyens centraux.
Generating Random Genomic Sequences and Structures with GenRGenS
INTRODUCTION A LA SPECTROSCOPIE
Expression du Génome Le transcriptome.
RNA structure: tRNA Primary structure Secondary structure
Présentation 5 : Sondage à probabilités inégales
ECG Radiographie IRM Analyse Q R Système Observateur Gain Cadre et contexte 2.
Centre d’études et de recherches sur les qualifications
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Contribution du LHyGeS
Moteurs de recherches Data mining Nizar Jegham.
RABAH M ed Ali 2018/2019
Expression du Génome Le transcriptome.
Programme d’appui à la gestion publique et aux statistiques
Passage primaire-secondaire
Encadré par : M. Mohammad EL GHABZOURI Elaboré par : - AZEGAMOUT Mohamed - ABOULKACEM abdelouahed - GOUN Ayoub EXPOSÉ Sous le thème : SER 2018 Parallélisme.
Les méthodes quantitatives en éducation
Tableau de bord d’un système de recommandation
INTELLIGENCE ARTIFICIELLE
Thermodynamique statistique biomoléculaire GBM2620
Récapitulation du jour 2ème
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

Génération aléatoire de structures d’ARN réalistes Yann Ponty Biology Dpt. Boston College Michel Termier IGM Orsay Alain Denise LRI Orsay 10/11/2018 Yann Ponty - ARENA- Avril 07 TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AAAAA

Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

Motivation bioinformatique Significativité ( P-value, Z-score … ) Sensibilité des algorithmes heuristiques Complexité algorithmique Validation expérimentale des modèles Probabilité qu’un phénomène observé apparaisse sous une hypothèse nulle. Evaluer la probabilité qu’un algorithme heuristique de recherche trouve effectivement sa cible Idée préliminaire de la relation entre la taille des entrées et le temps/espace consommé par un algorithme avant de se lancer dans des expériences consommatrices en ressources Validation idéale d’un modèle : Générer à partir du modèle et tester in vivo ! 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] Ex. (simplifié) : S  G S C S | A S |  G C S 3’ 5’ A S G C 5’ 3’ S 5’ 3’ G C 5’ A S G C 3’ 5’ A S G C S 3’ 5’ A G C S 3’ 5’ G C S 3’ 5’ A  G C A 10/11/2018 Yann Ponty - ARENA- Avril 07

Modèle combinatoire uniforme Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93] 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Génération aléatoire uniforme [Flajolet ,Van Cutsem,Zimmermann 93] S  G S C S | A S |  Complexités Précalcul : Génération : S Taille = 4 ? 5/9 4/9 GSCS AS GASCS GCS AGSCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS 1/5 2/5 1/2 Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA 10/11/2018 Yann Ponty - ARENA- Avril 07

Complexités de la génération uniforme Temps Précalcul Mémoire [Flajolet et al 93] O(n log(n))* O(n2)* [Denise et al 99] O(n1+) [Duchon et al 02] Taille exacte : O(n2) Tolérance  : O(n) ; O(n) 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Modèle combinatoire Toute structure secondaire d’ARN de taille n est engendrée avec probabilité non-nulle. Or, les structures secondaires sont énumérées par une grammaire non-contextuelle [Waterman78] De plus, on sait engendrer uniformément dans le langage associé à une grammaire [Flajolet et al 93]  On sait engendrer aléatoirement des structures d’ARN selon une distribution uniforme ! 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Limites du modèle uniforme Modèle utile pour l’analyse d’algorithme, mais inapte à évaluer des paramètres statistiques pertinents !!! 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Modèles pondérés Idée : La distribution des structures a une influence sur les valeurs en moyenne des paramètres d’intérêt. (Paramètres = tailles et nombres d’occurrences moyennes des boucles terminales, renflements, …) => Pour obtenir des structures plus réalistes, associer une distribution de probabilité dépendant d’une pondération  Distribution pondérée 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Grammaires pondérées Modèle uniforme : S  G S C S | A S |  GGCC GAAC GACA GCGC GCAA AGAC AGCA AAGC AAAA S GSCS AS GCS AAS GGSCSCS GAASCS GACS GCGSCS GCAS AGACS AGCS AAGSCS AAAS Taille = 4 1/3 2/3 1/14 8/14 5/14 2/7 5/7 1/2 1/5 4/5 Modèle pondéré : + Poids (G) = (C)=1 (A) = 2 GASCS AGSCS Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! 1 4 16 10/11/2018 Yann Ponty - ARENA- Avril 07

Application simple : Modèle de Nussinov-Jacobson Grammaire historique [Waterman78] S  a T b S | c S | ε T  a T b S | c S Rem. : Le symbole a marque chaque appariement. Modèle de Nussinov-Jacobson: L’énergie libre est l’opposée du nombre d’appariements : Distribution de Boltzmann Or Donc on sait engendrer des structures dans la distribution de Boltzmann ! (Idée transposable au modèle de Turner [Waldispuhl? 04]) 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Autres applications Modélisation de dépendances séquentielles Il est possible de construire un modèle qui conjugue à la fois des dépendances séquentielles (Markov) et une structure forte (Grammaire) On sait engendrer des structures d’ARN décorées par des bases choisies selon un modèle de Markov.[Ponty06] 10/11/2018 Yann Ponty - ARENA- Avril 07

Modélisation de la structure secondaire Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c Ex3 | ε Ex5  c Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  c R | c BI  c BI | c B  c B | c MB  c MB | ε R  T | T R T  c | a R b [Nebel04] S  a T b S | c S | ε T  a T b S | c S [Waterman78] S  ah T bh S | c S | ε T  a T b S | c T | cb [Ponty06] [Nebel03] [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07

Modélisation de la structure secondaire Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c Ex3 | ε Ex5  c Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  c R | c BI  c BI | c B  c B | c MB  c MB | ε Queue 3’ Queue 5’ Renflements (Bulges) Base non-appariée présente dans Boucles Internes Boucles Terminales [Nebel03] Multiboucles [Ponty03] 10/11/2018 Yann Ponty - ARENA- Avril 07

Modélisation de la structure secondaire Grammaires diverses ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε Ex3  c3 Ex3 | ε Ex5  c5 Ex5 | ε E  a E2 b E  a E2 b | R H | H R | BI E BI | B | MB E MB E SMB SMB  MB E SMB | ε R  cr R | cr BI  cbi BI | cbi B  cb B | cb MB  cmb MB | ε On peut aussi contraindre les nombres moyens et tailles moyennes des différents types de sous-structures => Marquer les occurences de sous-structures 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Plan de l’exposé Motivation bioinformatique Modèle combinatoire uniforme Modèles pondérés Apprendre les pondérations Conclusion/Perspectives 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 Calcul des pondérations Pb. : Existe-t-il une pondération  réalisant des fréquences attendues ? Théoriquement : Oui, encore que … [Drmota97] Conditions d’applications contraignantes Résoudre un système d’équations fonctionnelles de degré potentiellement élevé !!! Pratiquement : Oui, presque sûrement (GRGFreqs) Problème inverse (pondération => fréquences) simple Approche optimisation 10/11/2018 Yann Ponty - ARENA- Avril 07

Données et modéles Origine : Modéles : Comparative Web Site CRW [Cannone et al 02] Modéles : (0) Nombre de bases appariées (1p) (1) Nombre et taille des hélices (2p) Renflement(R) Boucle terminale (B) Hélice(H) (K) (2) Nombres et tailles des sous-structures R et B confondus (8p) Boucle Multiple(M) Tige-boucle 10/11/2018 Yann Ponty - ARENA- Avril 07 Boucle interne (I) Extrémité(Ex3,Ex5)

Modélisation réaliste Calcul analytique des pondérations : Proportions de bases appariées Tiges boucles (miARN) Structures secondaires S  R a S b R | ε R  c R | ε S  a T b S | c S | ε T  a T b S | c S Cette méthode repose cependant sur des données statistiques fiables sur la structure. Calculs des pondérations pour des familles connues (GRGFreqs) 10/11/2018 Yann Ponty - ARENA- Avril 07

Calcul des pondérations Calcul analytique des pondérations Calculs des pondérations pour des familles connues (GRGFreqs) Nombres et taille moyenne Hélices uniquement (1) (2p.) Cette méthode repose cependant sur des données statistiques fiables sur la structure. Nombres et tailles moyennes Toutes sous-structures (2) (8p.) ARNr 5s ARNr 23s 10/11/2018 Yann Ponty - ARENA- Avril 07

GenRGenS : Generation of Random Genomic Sequences Génération aléatoire de séquences génomiques structurées : Markov classique/HMM Grammaires pondérées Reg Expr/Prosite patterns Hierarchiques http://www.lri.fr/bio/GenRGenS 10/11/2018 Yann Ponty - ARENA- Avril 07

Génération pondérée réaliste : Chaîne algorithmique MC-Annotate [Lemieux, Major02] RNAView [Yang, Jossinet et al 03] Génomique comparative [Cannone et al 02] Structures 3D Structures secondaires augmentées Planarisation [Ponty06] Structures secondaires planes Données Pondération finale Optimisateur Pondération candidate Approche récursive [Ponty06] Fréquence attendues Distance d d   Approx. locale Fréquence réalisées d >  Optimisation Cette méthode repose cependant sur des données statistiques fiables sur la structure. GenRGenS [Ponty et al 06] Modèle pondéré TYPE = GRAMMAR RULES = ARN  Ex5 E Ex3 | B | Ex5 E MB E SMB Ex3 | ε … R  cr R | cr BI  cbi BI | cbi B  cb B | cb MB  cmb MB | ε WEIGHTS = c5 .08472 c3 .47578 cr 1.345 Structures secondaires aléatoires réalistes Génération 10/11/2018 Yann Ponty - ARENA- Avril 07

Conclusion/Perspectives Modèle uniforme très insuffisamment expressif Grammaires pondérées capturent des aspects structurels (grammaires), séquentiels (Markov) et énergétiques de l’ARN Maîtrise de la loi de distribution (On pourrait interpréter la proba. d’une structure comme un score statistique) Génération aléatoire permet d’évaluer des paramètres ou des scores (E-value, …) difficiles à évaluer mathématiquement 10/11/2018 Yann Ponty - ARENA- Avril 07

Conclusion/Perspectives Décorer la structure : Adjonction d’une séquence, dans quel modèle ? Liaisons non-canoniques ? Distributions de proba. commutatives : Comment rétablir l’ordre ? (=> Cédric Saule) L’optimisateur marche trop bien, régularités dans le paysage. Comment les exploiter algorithmiquement ? Génération dans l’ensemble de Boltzmann + contraintes de séquences = SFold (ou UNAFold). Transposer les optimisations classique de la génération aléatoire sur ces nouvelles approches très en vogue actuellement. Quid des pseudo-noeuds ? (Grammaires multi-bandes?) 10/11/2018 Yann Ponty - ARENA- Avril 07

Yann Ponty - ARENA- Avril 07 MERCI !!! 10/11/2018 Yann Ponty - ARENA- Avril 07