Génération aléatoire de structures secondaires d’ARN

Slides:



Advertisements
Présentations similaires
Fabrice Lauri, François Charpillet, Daniel Szer
Advertisements

10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
Comparaison et analyse combinatoire de structures biologiques arborescentes P. Ferraro S. Dulucq J. Allali A. Ouangraoua.
Un aperçu de la bioinformatique moléculaire
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Démarches de modélisation
Méthodes de simulation
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Master Génie Biologique et Informatique, première année
A Pyramid Approach to Subpixel Registration Based on Intensity
approche interne des chaînes d'énergie et d'information (lecture)
Probabilités au collège
Statistique descriptive
Reconnaissance de la parole
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Programmes du cycle terminal
2. Expériences aléatoires et modélisation
Statistiques et Probabilités au lycée
Application des algorithmes génétiques
جامعــــــة محمد خيضــــــــــــر بــســكــــــــــــرة
YASS : Recherche de similarités dans les séquences d'ADN
Comparaison de structures d’ARN
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
Décodage des informations
Les probabilités ... la valeur d'un hasard est égale à son degré d'improbabilité. Milan Kundera.
1 Le programme de 3 e Rentrée 2008 (daprès un diaporama dAndré Pressiat)
Champs de Markov cachés pour la classification de gènes..
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
STATISTIQUES – PROBABILITÉS
La Bioinformatique à Nancy
Contribution à l’étude du couplage transfert de matière-réaction chimique lors de l’absorption de CO2 dans une saumure GLS–F juin 2007 Carry-le-Rouet.
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Hermite Michael E. Mortenson, Geometric Modeling. Wiley, 1997, 523p.
Courbes de Bézier.
Expression du Génome Le transcriptome.
Comparaison de deux échantillons
3.2 PRODUIT VECTORIEL Cours 7.
1 Algotel /05/04 Modélisation analytique des algorithmes dordonnancement GPS & WFQ BOCKSTAL Charles, GARCIA J.M. et BRUN Olivier.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Présentation de la méthode des Eléments Finis
Soutenance de stage 16 Mai au 5 Août 2011
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Distribution géographique d’un réseau de relations interpersonnelles. Pauline Dedeurwaerder Promoteur : V. Blondel MAP22.
Probabilités et Statistiques Année 2010/2011
IGM LRI LaBRI Claire Herrbach François Lefèvre
Amélioration de la simulation stochastique
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.
STATISTIQUES – PROBABILITÉS
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
TNS et Analyse Spectrale
Alignement de séquences biologiques
Recherche de motifs par projections aléatoires
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours
Recherche heuristique dans les bases de données L’algorithme BLAST
Design de structures d'ARN avec contraintes de séquence une approche à base de langages formels. Alain DENISE Université Paris-Sud LRI, IGM, AMIB.
1 Modèles rationnels - NURBS Courbe de Bézier invariante par une transformation affine (par exemple projection sur un plan parallèlement à une projection.
Génération aléatoire de structures d’ARN réalistes
Generating Random Genomic Sequences and Structures with GenRGenS
Transcription de la présentation:

Génération aléatoire de structures secondaires d’ARN Alain Denise (LRI) Yann Ponty (LRI) Olivier Roques (LaBRI) Michel Termier (IGM)

Paradigme : comparaison biologie/aléatoire Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques. Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.

Extraction de promoteurs Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden] >MET1 MET1 upstream sequence, from -702 to -1, size 702 TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA >MET2 MET2 upstream sequence, from -800 to -1, size 800 GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA >MET3 MET3 upstream sequence, from -800 to -1, size 800 AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC >MET6 MET6 upstream sequence, from -222 to -1, size 222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT >MET14 MET14 upstream sequence, from -800 to -1, size 800 TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC >ZWF1 MET19 upstream sequence, from -558 to -1, size 558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA >MET17 MET25 upstream sequence, from -800 to -1, size 800 TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA >MET30 MET30 upstream sequence, from -800 to -1, size 800 CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC >MUP3 MUP3 upstream sequence, from -61 to -1, size 61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA >SAM1 SAM1 upstream sequence, from -548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9

Seuils pour la comparaison de séquences Score HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL G+ +VK+HGKKV A+++++AH+D++ +++++LS+LH KL 130 HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL HBA_HUMAN GSAQVKGHGKKVADALTNAVAHV---D--DMPNALSALSDLHAHKL ++ ++++H+ KV + +A ++ +L+ L+++H+ K 10 LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG HBA_HUMAN --GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL V+G + + D +++ + M + H -46 1tlk ILDMDVVEGSAARF-DCKVEGYPDPEVMWFKDDNPVKESRHFQ BLOSUM50, pénalités de gap –14/-4

Vers des modèles statistico-syntaxiques Enrichir les modèles par plusieurs types de propriétés des séquences biologiques considérées, pour affiner les résultats de la comparaison biologique/aléatoire.  Ajouter aux paramètre statistiques classiques des paramètres structurels (syntaxiques). Deux types d’approches : Approches analytiques Approche expérimentale Le résultat précédent illustre un affinement du paradigme : Tenir compte non seulement de paramètres statistiques Mais aussi de paramètres structurels (syntaxiques).  Développement d’algorithmes pour l’approche expérimentale

Contraintes structurelles : ARN Problème : comment engendrer des structures secondaires d’ARN ayant des propriétés statistiques données ? (nombre de tiges, longueur des tiges, nombre de boucles internes…) 5’ 3’ ARN 16S E. coli

Comparaison d’ARN [LaBRI, LRI, IGM] Objectifs : déterminer des paramètres biologiques pour la mesure de distance (matrices de substitution), étalonner et comparer les algorithmes, définir des seuils d’homologie. Modèles combinatoires d’ARN et génération aléatoire. Conception de matrices d’homologie d’après l’étude statistique des mutations dans les ARN.

Modèle de site de décalage [IGM, LRI] NNX XXY YYZ AUG H SP Heptamère glissant Structure stimulatrice 5’ 3’ Espaceur E Voici leconsensus actuel pour les sites de frameshift. Ces sites comptent deux éléments : - une séquen ce glissante où le ribosome dérape effectivement. - une structure secondaire, tige-boucle ou pseudo-nœud. Détailler les sous-séquences. Ceci est une REPRESENTATION.

Un langage pour les structures secondaires Contrainte syntaxique = contrainte d’organisation des constituants d’une séquence. La structure secondaire d’ARN en est un bon exemple : la première contrainte est l’appariement des nucléotides. On ne considère que les structures sans pseudo-nœud. But : définir l’ensemble des mots qui correspondent à une structure secondaire. - ( ( ( ( ( - - - ) ) ) ( - - ( ( - - - - ) ) - - ) - - ) ) c a a a a a c c c b b b a c c a a c c c c b b c c b c c b b S  a S b S | c S | 

Une grammaire pour les structures secondaires d’ARN S  a S b S | c S |  S  cS  caSbS  cabS  cabcS  cabc S  cS  caSbS  caaSbSbS  caaaSbSbSbS  caaaaSbSbSbSbS  caaaaSbSbSbSbS  caaaaaSbSbSbSbSbS  caaaaacSbSbSbSbSbS  …  caaaaacccbbbaccaaccccbbccbccbb =

Génération aléatoire uniforme S  a S b S | c S |  Longueur = 4 S 5/9 4/9 ? aSbS cS acSbS abS caSbS ccS aaSbSbS accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS 1/5 2/5 1/2 Données : une grammaire, une longueur de mots, des fréquences de lettres (ex : 30% de c). Résultats : des mots aléatoires respectant (en moyenne) les fréquences données. Méthode : à chaque étape, choisir une règle avec probabilité adéquate. Problème : calculer les probabilités ! aabb accb acbc abab abcc cacb cabc ccab cccc

Génération aléatoire non uniforme contrôlée [AD, O.Roques, M.Termier 2000] S  a S b S | c S |  + de nucléotides non appariés : Poids (a) = (b)=1 (c) = 2 Longueur = 4 aabb accb acbc abab abcc cacb cabc ccab cccc S aSbS cS acSbS abS caSbS ccS aaSbSbS accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS 14/42 28/42 1/14 8/14 5/14 8/28 20/28 4/8 1/5 4/5 4/20 16/20 1 4 16

Calculs de fréquences et de pondérations La pondération  étant donnée, quelle est la fréquence moyenne i de la lettre xi ? Soit Alors où et Les fréquences des lettres étant données, quelle doit être la pondération  ? Cas rationnel fortement connexe : résoudre un système d’équations algébriques. Cas algébrique : à traiter…

Generation of Random Genomic Sequences GenRGenS Generation of Random Genomic Sequences www.lri.fr/~denise/GenRGenS/

Generation of Random Genomic Sequences GenRGenS Generation of Random Genomic Sequences Modèles Séquences www.lri.fr/~denise/GenRGenS/

Generation of Random Genomic Sequences GenRGenS Generation of Random Genomic Sequences Modèles - Markov homogène - Markov hétérogène - Context-Free Grammars 1.0 Séquences - Master generation 1.1 1.2 - Expressions régulières (Motifs ProSite) - Profils Généralisés - Modélisation des Pseudo-Nœuds ??? www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ( Inspirée de Waterman 78 ) ARN  3’ Ladder 5’ 3’  t3 3’ |  5’  t5 5’ |  Ladder  ARN  3’   5’ www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ARN  3’ Ladder 5’ Ladder  a After_Ladder b After_Ladder  a After_Ladder b After_Ladder   After_Ladder Ladder  www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ARN  3’ Ladder 5’ Ladder  a After_Ladder b After_Ladder  a After_Ladder b | c Bulge Ladder Bulge  c Bulge |  After_Ladder   Ladder Bulge  www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ARN  3’ Ladder 5’ Ladder  a After_Ladder b After_Ladder  a After_Ladder b | c Bulge Ladder | Ladder c Bulge | d Internal_Loop Ladder Internal_Loop d Internal_Loop  d Internal_Loop |   Ladder  After_Ladder Internal_Loop www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ARN  3’ Ladder 5’ Ladder  a After_Ladder b After_Ladder  a After_Ladder b | c Bulge Ladder | Ladder c Bulge | d Internal_Loop Ladder Internal_Loop d | e Loop Loop  e Loop |  After_Ladder   Loop www.lri.fr/~denise/GenRGenS/

Une grammaire pour la structure secondaire d’ARN ARN  3’ Ladder 5’ Ladder  a After_Ladder b After_Ladder  a After_Ladder b | c Bulge Ladder | Ladder c Bulge | d Internal_Loop Ladder Internal_Loop d | e Loop | f Multi_Loop Ladder f Multi_Loop Ladder Next_MLoop Multi_Loop  f Multi_Loop |  Next_MLoop  Multi_Loop | f Multi_Loop Ladder Next_MLoop Ladder After_Ladder  Multi_Loop Next_Mloop  Ladder

Génération équiprobable de structures secondaires GenRGenS a a c c a a a a c c a d d d a a d a f a a f a a d a a e e b b d b b f f a d d a e b d b f f f a e b f b c b f f a d d a d a e e e e b d b d d b f f a a e e b b b d b b d d b b b b b b c c c c c c b c a a c a f f f f f a e b f a a a a f a f a e e b f f f f a a f f a c c c a c c a d a a e e b b d b b b f a e b f f a d a e b d b f f f b b f b f a e b f b b b b f f f a e e e e b f f b b c b c c c c c c a a f a e e b f a c a a f f f a c c c a a a a e b b b c c b b f a c a c a e e b b b b c c c b b f f f f f a f f a f a a e b b f f f a d d a e b d b b f a a a a a e b b b c c c c c b c b b f f b b c c c a a f a a c a e b b c b f a c a f a e e b f f a a f a a e b c b f a d a c a f a d a f a e b f a a e b b b d b f a f a e b f a a a e b b b f b b b d b f f a a d a e b d d b c b b b f f f b b b c b c a a f f a f a e b f a e b f a f a f a f a c c a a d a c a a e b b b d b b b f f a e b b f a a e e e b b b f f a f a f f a a e b b f f f f f f f a e e e b b f a e e e b f b b f f b f a a e b b f b b a a a f a a d d d d d d d a a a f a d d a a a a c c a c a f a d d d d d d a d a a e b b d d b d d b f f a e b b b b b b c c c c b d b f f a e e e e e b f f f b b b d d d d d b b f a a e e b c b b b b a d a f a a c a a e e e e e b c b b c c b f f a d a d a f a f f a f f f f f f f f a a c c a a a e b b c c b b b f f a c c c a e e e e e b b f f b f a e e e e b f f f b f a e e e b f b d b d d b b d b c a f a e b f f f a a d d d a c c a f a a c c a c c a a e e b c c b b b c c c b f a e b f f f a a e e b b f a e b f f f a a c c a e b b b b b d b b f a a a d d d d d d a f a e e b f a e b b d b b b b c c c c c c a a a c a a a a c a f a f f a e b f a c a d d d d a f f f a c a a e b c c b b f a e b b d d d d b b f a c c a a a a e b b c b b b f f b f f a a e b c b f a e e e b b b b c c c b b b b c b a f a c a c c a e b b b f f a f f a a d a e b d d b c c c b f f a a f f a a e b b f f a e e e b b b f f b f a a a d d d d d a a a c c a f a e e b f a a c a e e b b b b b b c c c c c b d d b b b f b c a f a e b f a a f a c a e e e b b f f f a e b f a e b f f b c c b f a a a f f f a e b f a c a f a a d d d a e b d d b c b f a a c c c a a a a c a e e b b b b b b c b f f f a e b b b f f b b c c b b c a f f a f a a a e e b b b f a a f f f a f f a e e b f f a c a f f a a c a e e b b c c c c c b f a e e b b b f f b f a e b f a a e b b f b c c c c c c b b f f f a c c a d a c a e e b b d b b b c c c c a f f f a a e b c b f f f a e e e b f f f a f a f a e b f f a e e b f a f a a c c a e b b b f a c c a a c c a e b b c b b b f f a c a a a e b c b b b b f a d a a a c a e e b b c c b b d d b b f f b c + RNAViz www.lri.fr/~denise/GenRGenS/

Génération équiprobable de structures secondaires www.lri.fr/~denise/GenRGenS/

Génération équiprobable de structures secondaires Structures trop complexes Trop de bases non appariées Trop de Bulges Bulges trop gros Boucles pas assez grosses  Pondération des terminaux  On contraint ainsi les fréquences des terminaux. On ne peut pas contraindre les fréquences des Bulges, Loop, … !!! www.lri.fr/~denise/GenRGenS/

Introduction de marqueurs dans la grammaire ARN  3’ Ladder 5’ Ladder  ma After_Ladder mb After_Ladder  a After_Ladder b | mc Bulge Ladder | Ladder mc Bulge | md Internal_Loop Ladder Internal_Loop md | me Loop | mf Multi_Loop Ladder mf Multi_Loop Ladder Next_MLoop Next_MLoop  Multi_Loop | mf Multi_Loop Ladder Next_MLoop 3’  t3 3’ |  Internal_Loop  d Internal_Loop |  5’  t5 5’ |  Loop  e Loop |  Bulge  c Bulge |  Multi_Loop  f Multi_Loop |  www.lri.fr/~denise/GenRGenS/

Pondérations ma mb mc me md mf a b c d e f 0.5 0.2 1.2

Pondérations ma mb mc me md mf a b c d e f 0.5 0.2 1.3 0.7 1.2

Perspectives Recherche d’une pondération adéquate : A partir de structures secondaires réelles : Calculer les fréquences d’apparition des Bulges, Loop … Calculer une pondération telles que ces fréquences soient atteintes asymptotiquement. Intégration de contraintes thermodynamiques simples : Grammaire Markovienne pénalisant l’instabilité.