Algorithmes et génomes François Rechenmann 23 novembre 2011.

Algorithmes et génomes François Rechenmann 23 novembre 2011

Séquençage de la molécule d’ADN …GATCACCTCACTACGGGTCAGGG GAAGGAAAGGGGAACTGAGAGATT TGCAGTGTGAGAAGCAGTCCCAGG AGTTAGAAGTAGTGGCTCCATGACT CACAAATTAACTTCCCTTTCAGGCA GGGCTTCTTATTTTCCTTAGCATCC CTGTCTTGATCCCAGCCTGCTCAGA CCCCTGCCTCTCACTGCAAGATGTG CTTGAGTATGAGAGTCAGGAATGTT ACTTCTCAGAGGCGCCAAATGGCA GTTGTCACAGGGTCATCATAGAGG GTATATGTTTACTGCACTGGGCTCT GAGGCTTGCTTGTGAAGAAACAGA AGCTAAGGGATCCAGGGAGTCCCA ACTTAGAGAGTCCCACAGGCCCAC ACTCTGGTTCTGTTGGCAGGAAAAT TTGGCTGAATTGGGGCAGGAAGTT GTGTAACAAAACGATTACATCCATT TTTGCAAGGCAAGAGTGAGCTATTC ACCTCCATGTTGGTGATATTTTTTGC CATATAAGCAGCTAATTCCTTTCAG TAATTCTACTCTAAACTAGTCTTAAT GTGACTTCTATATAAATTCTGAACT GAATAATTTTGGGAACGTTGTAAAA A…

1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

Quelques ordres de grandeur Virus (grippe) 1,3 10 4

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9

Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9 Amibe 6,7 10 11

1990: 10 3 bases/day 2000: 10 6 bases/day 2010: 10 9 bases/day

“The cancer genome”, Michael R. Stratton, Peter J. Campbell, P. Andrew Futreal, Nature, Vol. 458, Avril 2009

Nombre de nucléotides dans la base de données EMBL

ARNTranscriptome ADN Génome enzymes Métabolome Protéome Protéines régulation

La bioinformatique Gestion des données et des résultats d’analyse Méthodes d’analyse des données, en particulier des séquences

1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

Dessine-moi un génome DNA walk

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC………..

CG T A

CG T A C

CG T A C A

CG T A C A G

CG T A C A G A

CG T A C A G C A

CG T A C A G C C A

CG T A A C A G C C A

CG T A A C A G C C A T

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACCC……….. CG T A A C A G C C A T

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC……….. CG T A A C A G C C A T

Borrelia burgdorferi

CG T A début du tracé, correspondant au début de la séquence fin du tracé, et donc de la séquence Borrelia burgdorferi

sens de déplacement de l’ADN polymérase progression de l’ouverture de la double hélice

séquence génomique nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre

séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre nb. de G – nb. de C nb. de C + nb. de G

séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 0,0 fenêtre Valeur du ratio –1,0 +1,0 Position le long de la séquence, comptée en nombre de lettres nb. de G – nb. de C nb. de C + nb. de G 450 000 0 900 000

Synechocystis sp.

Recherche des régions codantes

triplet Stop

ORF (Open Reading Frame) triplet Stop

ORF (Open Reading Frame) triplet Stop triplet Start triplet Stop

ORF (Open Reading Frame) région codante prédite triplet Stop triplet Start triplet Stop

ORF (Open Reading Frame) RBS (Ribosome Binding Site) région codante prédite triplet Stop triplet Start triplet Stop

StartStop exonintron

Comparaison de séquences

Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

AGTATC AGATGC AGTTTC AGATTC Nombre de caractères différents : 3 Nombre de caractères différents : 1

ACTTGCATT AACTTGCAT

ACTTGCATT AACTTGCAT —ACTTGCATT AACTTGCAT—

AG—ATGCT AGTAT—C— AGAT—GCT AG—TATC— ACGT A0 C0  G, C G0 T0 — 

(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence

C G — — G C CGCG G—G— —C—C

(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence AGAT— GC— AG— TATCT AG— ATGC— AGTAT—CT

C N, M = min C N, M-1 +  C N-1, M-1 +  N, M C N-1, M +     N, M C N-1, M C N-1, M-1 C N, M-1 S’ M SNSN

(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6)

(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6) (5, 7) (6, 7)

(0, 0) (1, 1) (2, 0) (1, 0) (0, 1)(0, 2) 0 22 22 

(0, 0) A G T A T C T A G T A G C (6, 7) (0, 7) (6, 0)

— T A G T A T C T A G T A G C (a)

— T C— CT A G T A T C T A G T A G C (a) A G T A T C T A G T A G C (b)

A G T A T C T A G T A G C GC— TCT — T C— CT A G T A G C (a) (c) A G T A T C T A G T A G C (b)

Reconstruction phylogénétique

Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8

dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8

Algorithmes et génomes François Rechenmann 23 novembre 2011.

Présentations similaires

Présentation au sujet: "Algorithmes et génomes François Rechenmann 23 novembre 2011."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Algorithmes et génomes François Rechenmann 23 novembre 2011.

Présentations similaires

Présentation au sujet: "Algorithmes et génomes François Rechenmann 23 novembre 2011."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back