Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Slides:



Advertisements
Présentations similaires
Un aperçu de la bioinformatique moléculaire
Advertisements

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
La synthèse des protéines
La génétique bactérienne cours 5
Génétique Médicale L3 Hérédité mendélienne
Innovations génétiques
Traduction de l’information génétique
Les données et les banques de données
Biologie Moléculaire des Hépatites Virales
Transcription de l’ADN
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Bioinformatique et Perl
Colloque Traitement et Analyse de séquences : compte-rendu
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
Recherche exacte de motifs
Analyse bioinformatique de données de séquençage NGS médicales
ADN.
Modélisation markovienne en phylogénie :
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
L’EPISSAGE ALTERNATIF DE L’ARN
Activité 5. Du génome au protéome
La synthèse des protéines
YASS : Recherche de similarités dans les séquences d'ADN
Génération aléatoire de structures secondaires d’ARN
1. L’ADN et l’information génétique
BIO 2533 — Chapitre 1 Importance de la génétique et sa portée:
Le code génétique.
TP 5 Du génome au protéome
Le ribosome.
La transcription.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Cinquième étape : colorier les graphes
Expression du Génome Le transcriptome.
LA SYNTHÈSE DES PROTÉINES
ADN à ARN La synthèse des protéines étape 1
Cours des Acides Nucléiques
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
LA SYNTHÈSE DES PROTÉINES
Recherche heuristique dans les bases de données L’algorithme BLAST
Génétique moléculaire
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
La génétique et la biométrie
Biologie cellulaire IUT du Havre HSE Morgane Gorria.
Séquençage par hybridation
Recherche exacte de motifs
Introduction à la Pathologie Moléculaire du Gène
1 Licence d’informatique Algorithmique des graphes Cours 7 : Graphes valués Chemins de valeur optimale Algorithme de Bellmann-Kalaba Utilisation de ce.
CHMI 2227F Biochimie I Expression des gènes
Le code génétique, clé de la vie
Alignement de séquences biologiques
De l’ADN aux protéines.
4.6 – La synthèse des protéines
Codage et expression de l’information génétique
Introduction à la Bio-Informatique
10/10/2003Journées ARN Recherche de motifs signifiants dans une structure d'ARN Journées ARN Romain Rivière LRI, Bioinformatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Traitements d'images et Vision par ordinateur
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
REGULATION DE L’EXPRESSION DES GENES
Introduction à la Bio-Informatique
Pr B. AITABDELKADER CPMC
Les banques de séquences nucléiques
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
18.2 La synthèse des protéines et l’expression génique Dans cette section, tu vas: expliquer comment l’information génétique est encodée dans les molécules.
Bio-Informatique Analyse de séquences nucléotidiques
De l’ADN à la Protéine : Transcription et Traduction
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Generating Random Genomic Sequences and Structures with GenRGenS
Programmation Raymond Ripp.
Transcription de la présentation:

Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques Alain Denise et Stéphane Vialette Université Paris-Sud 11

Introduction : motivations et généralités

G C 5 T A A T C G A T T A C G A T M T3 Structure de lADN

Promoteur Origine de réplication ARNt ARNr Introns... Analyse dun génome 53 Gène protéique ARNm Protéine transcription traduction Faire linventaire du contenu génétique. Puis comprendre son organisation, les relations entre structure et fonction de linformation, les processus qui permettent son expression.

CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACT CGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACG ATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTT TAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAG TGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCG AATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTA TTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGC ACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGC GTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCA AGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCG CATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAG TTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGT AATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATA TGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTG TGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTT GGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCT CAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCAT TGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAA ACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAA AGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTG CGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACT GGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGA CTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGA GTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAAC GATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTA CATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGT CCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGAC AGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGT AGGGACAAGTAACTTTTAGATC...

Phase dinventaire 1.Alignements. Aligner sur la séquence des ARN messagers de lorganisme en question des séquences codantes dautres organismes. 2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …

A : 3/10 C : 2/10 G : 2/10 T : 3/10 A : 1/10 C : 4/10 G : 4/10 T : 1/10 2/10 1/10 8/109/10 Non codantCodant Modèle de Markov caché : principes Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × … Trouver la segmentation la plus probable dune séquence : Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × … Raffinements : fréquences doligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)

1.Alignements. on ne détecte que des gènes déjà connus par ailleurs, ou des ARN fortement exprimés. problèmes dordre technique : contamination par des ARN pré-messagers… Imprécision des algorithmes dalignement. 2. Segmentation. Dans A. thaliana, moins dun gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000] Phase dinventaire : problèmes On prédit mal, et on ne prédit que ce que lon connaît déjà.

Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques. Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique. Paradigme : comparaison biologie/aléatoire

Paradigm : biological vs. random sequences TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC... GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC... AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG... TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA... AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA... Biological sequence : ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA... ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG... CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA... TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG... GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA... Random sequence : Chi motif in E. coli. Searching for overrepresented motifs

>MET1MET1 upstream sequence, from -702 to -1, size 702 TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA >MET2MET2 upstream sequence, from -800 to -1, size 800 GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA >MET3MET3 upstream sequence, from -800 to -1, size 800 AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC >MET6MET6 upstream sequence, from -222 to -1, size 222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT >MET14MET14 upstream sequence, from -800 to -1, size 800 TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC >ZWF1MET19 upstream sequence, from -558 to -1, size 558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA >MET17MET25 upstream sequence, from -800 to -1, size 800 TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA >MET30MET30 upstream sequence, from -800 to -1, size 800 CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC >MUP3MUP3 upstream sequence, from -61 to -1, size 61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA >SAM1SAM1 upstream sequence, from -548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT Extraction de promoteurs Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden] La probabilité dune telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10 -9

Paradigm : biological vs. random sequences Assessing significance of alignment scores HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL RandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKL RandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD … RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL RandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHD RandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL … RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK Score 130 Average score 25

Z-value and p-value X = random variable, score of an alignment with a random sequence. Alignments X = random variable, number of occurrences of M in a random sequence. Motifs

Choix du modèle de séquences aléatoires TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC... GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC... GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG... TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG... GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG... Séquence biologique : TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA... CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA... ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC... TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA... ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA... Séquence biologique : Etonnant ! Moins étonnant !

AACGACGTGCCGTGCGCTCGACGT Modèles classiques de séquences aléatoires [Fitch 83] AACG : 1 Séquence biologique : Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 Séquence biologique : Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 CGAC : 1 Séquence biologique : Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 CGAC : 1 GACG : 1 Séquence biologique : Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Séquence biologique : Occurrences :

Modèle markovien AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Occurrences : Séquences ayant en moyenne les mêmes nombres doccurrences de nucléotides que la séquence de référence. Pr(G|AAC) = 1Pr(T|GCG) = 1/2

Modèle exact (shuffling) AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Occurrences : Séquences ayant exactement les mêmes nombres doccurrences de nucléotides que la séquence de référence.

Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)

Génération en fréquences exactes AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Chemin eulérien dans le graphe suivant : [Kandel, Matias, Unger, Winkler 96]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien Anti-arbre couvrant ordre des arcs adjacents à un même sommet = [Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien arbre couvrant ordre des arcs adjacents à un même sommet = AACGACGTGCGCTCGACGTGCGT [Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien arbre couvrant ordre des arcs adjacents à un même sommet = AACGTGCGCTCGACGACGTGCGT [Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder] [Wilson]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder 90] [Wilson 97] Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

Génération en fréquences exactes … Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]