La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Présentations similaires


Présentation au sujet: "Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007."— Transcription de la présentation:

1 Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007 Alain Denise et Stéphane Vialette Université Paris-Sud 11

2 Introduction : motivations et généralités

3 G C 5 T A A T C G A T T A C G A T M T3 Structure de lADN

4 Promoteur Origine de réplication ARNt ARNr Introns... Analyse dun génome 53 Gène protéique ARNm Protéine transcription traduction Faire linventaire du contenu génétique. Puis comprendre son organisation, les relations entre structure et fonction de linformation, les processus qui permettent son expression.

5 CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACT CGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACG ATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTT TAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAG TGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCG AATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTA TTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGC ACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGC GTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCA AGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCG CATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAG TTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGT AATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATA TGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTG TGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTT GGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCT CAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCAT TGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAA ACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAA AGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTG CGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACT GGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGA CTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGA GTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAAC GATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTA CATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGT CCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGAC AGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGT AGGGACAAGTAACTTTTAGATC...

6 Phase dinventaire 1.Alignements. Aligner sur la séquence des ARN messagers de lorganisme en question des séquences codantes dautres organismes. 2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …

7 A : 3/10 C : 2/10 G : 2/10 T : 3/10 A : 1/10 C : 4/10 G : 4/10 T : 1/10 2/10 1/10 8/109/10 Non codantCodant Modèle de Markov caché : principes Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × … Trouver la segmentation la plus probable dune séquence : Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × … Raffinements : fréquences doligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)

8 1.Alignements. on ne détecte que des gènes déjà connus par ailleurs, ou des ARN fortement exprimés. problèmes dordre technique : contamination par des ARN pré-messagers… Imprécision des algorithmes dalignement. 2. Segmentation. Dans A. thaliana, moins dun gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000] Phase dinventaire : problèmes On prédit mal, et on ne prédit que ce que lon connaît déjà.

9 Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques. Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique. Paradigme : comparaison biologie/aléatoire

10 Paradigm : biological vs. random sequences TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC... GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC... AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG... TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA... AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA... Biological sequence : ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA... ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG... CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA... TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG... GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA... Random sequence : Chi motif in E. coli. Searching for overrepresented motifs

11 >MET1MET1 upstream sequence, from -702 to -1, size 702 TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA >MET2MET2 upstream sequence, from -800 to -1, size 800 GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA >MET3MET3 upstream sequence, from -800 to -1, size 800 AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC >MET6MET6 upstream sequence, from -222 to -1, size 222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT >MET14MET14 upstream sequence, from -800 to -1, size 800 TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC >ZWF1MET19 upstream sequence, from -558 to -1, size 558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA >MET17MET25 upstream sequence, from -800 to -1, size 800 TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA >MET30MET30 upstream sequence, from -800 to -1, size 800 CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC >MUP3MUP3 upstream sequence, from -61 to -1, size 61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA >SAM1SAM1 upstream sequence, from -548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT Extraction de promoteurs Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden] La probabilité dune telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10 -9

12 Paradigm : biological vs. random sequences Assessing significance of alignment scores HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL RandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKL RandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD … RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL RandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHD RandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL … RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK Score 130 Average score 25

13 Z-value and p-value X = random variable, score of an alignment with a random sequence. Alignments X = random variable, number of occurrences of M in a random sequence. Motifs

14 Choix du modèle de séquences aléatoires TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC... GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC... GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG... TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG... GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG... Séquence biologique : TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA... CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA... ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC... TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA... ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA... Séquence biologique : Etonnant ! Moins étonnant !

15 AACGACGTGCCGTGCGCTCGACGT Modèles classiques de séquences aléatoires [Fitch 83] AACG : 1 Séquence biologique : Occurrences :

16 Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 Séquence biologique : Occurrences :

17 Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 CGAC : 1 Séquence biologique : Occurrences :

18 Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1 ACGA : 1 CGAC : 1 GACG : 1 Séquence biologique : Occurrences :

19 Modèles classiques de séquences aléatoires [Fitch 83] AACGACGTGCCGTGCGCTCGACGT AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Séquence biologique : Occurrences :

20 Modèle markovien AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Occurrences : Séquences ayant en moyenne les mêmes nombres doccurrences de nucléotides que la séquence de référence. Pr(G|AAC) = 1Pr(T|GCG) = 1/2

21 Modèle exact (shuffling) AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Occurrences : Séquences ayant exactement les mêmes nombres doccurrences de nucléotides que la séquence de référence.

22 Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)

23 Génération en fréquences exactes AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT AACG : 1CGTG : 2CGCT : 1 ACGA : 1GTGC : 2GCTC : 1 CGAC : 2TGCG : 2CTCG : 1 GACG : 2GCGT : 1TCGA : 1 ACGT : 2GCGC : 1 Chemin eulérien dans le graphe suivant : [Kandel, Matias, Unger, Winkler 96]

24 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien Anti-arbre couvrant ordre des arcs adjacents à un même sommet = [Aardenne-Ehrenfest, de Bruijn 51]

25 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien arbre couvrant ordre des arcs adjacents à un même sommet = 1 2 1 1 2 AACGACGTGCGCTCGACGTGCGT [Aardenne-Ehrenfest, de Bruijn 51]

26 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Chemin eulérien arbre couvrant ordre des arcs adjacents à un même sommet = 1 2 1 1 2 AACGTGCGCTCGACGACGTGCGT [Aardenne-Ehrenfest, de Bruijn 51]

27 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder] [Wilson]

28 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

29 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

30 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder] [Wilson] Engendrer un arbre couvrant aléatoire uniformément

31 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes [Aldous, Broder 90] [Wilson 97] Engendrer un arbre couvrant aléatoire uniformément

32 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

33 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

34 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

35 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

36 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

37 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

38 Génération en fréquences exactes … Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

39 AAC ACG CGA TCG GTG CGT GAC CTC TGC GCG CGC GCT Génération en fréquences exactes Engendrer un arbre couvrant aléatoire uniformément [Aldous, Broder 90] [Wilson 97]

40


Télécharger ppt "Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007."

Présentations similaires


Annonces Google