Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parSéverin Lavergne Modifié depuis plus de 9 années
1
Algorithmes et génomes François Rechenmann 23 novembre 2011
5
Séquençage de la molécule d’ADN …GATCACCTCACTACGGGTCAGGG GAAGGAAAGGGGAACTGAGAGATT TGCAGTGTGAGAAGCAGTCCCAGG AGTTAGAAGTAGTGGCTCCATGACT CACAAATTAACTTCCCTTTCAGGCA GGGCTTCTTATTTTCCTTAGCATCC CTGTCTTGATCCCAGCCTGCTCAGA CCCCTGCCTCTCACTGCAAGATGTG CTTGAGTATGAGAGTCAGGAATGTT ACTTCTCAGAGGCGCCAAATGGCA GTTGTCACAGGGTCATCATAGAGG GTATATGTTTACTGCACTGGGCTCT GAGGCTTGCTTGTGAAGAAACAGA AGCTAAGGGATCCAGGGAGTCCCA ACTTAGAGAGTCCCACAGGCCCAC ACTCTGGTTCTGTTGGCAGGAAAAT TTGGCTGAATTGGGGCAGGAAGTT GTGTAACAAAACGATTACATCCATT TTTGCAAGGCAAGAGTGAGCTATTC ACCTCCATGTTGGTGATATTTTTTGC CATATAAGCAGCTAATTCCTTTCAG TAATTCTACTCTAAACTAGTCTTAAT GTGACTTCTATATAAATTCTGAACT GAATAATTTTGGGAACGTTGTAAAA A…
6
1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc
7
Quelques ordres de grandeur Virus (grippe) 1,3 10 4
8
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6
9
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7
10
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8
11
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9
12
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9
13
Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9 Amibe 6,7 10 11
14
1990: 10 3 bases/day 2000: 10 6 bases/day 2010: 10 9 bases/day
15
“The cancer genome”, Michael R. Stratton, Peter J. Campbell, P. Andrew Futreal, Nature, Vol. 458, Avril 2009
16
Nombre de nucléotides dans la base de données EMBL
17
ARNTranscriptome ADN Génome enzymes Métabolome Protéome Protéines régulation
18
La bioinformatique Gestion des données et des résultats d’analyse Méthodes d’analyse des données, en particulier des séquences
19
1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc
20
Dessine-moi un génome DNA walk
21
CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC………..
22
CG T A
23
CG T A C
24
CG T A C A
25
CG T A C A G
26
CG T A C A G A
27
CG T A C A G C A
28
CG T A C A G C C A
29
CG T A A C A G C C A
30
CG T A A C A G C C A
31
CG T A A C A G C C A T
32
CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACCC……….. CG T A A C A G C C A T
33
CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC……….. CG T A A C A G C C A T
35
Borrelia burgdorferi
36
CG T A début du tracé, correspondant au début de la séquence fin du tracé, et donc de la séquence Borrelia burgdorferi
39
sens de déplacement de l’ADN polymérase progression de l’ouverture de la double hélice
42
C G
43
séquence génomique nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre
44
séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre nb. de G – nb. de C nb. de C + nb. de G
45
séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 0,0 fenêtre Valeur du ratio –1,0 +1,0 Position le long de la séquence, comptée en nombre de lettres nb. de G – nb. de C nb. de C + nb. de G 450 000 0 900 000
46
Synechocystis sp.
47
Recherche des régions codantes
50
triplet Stop
52
ORF (Open Reading Frame) triplet Stop
53
ORF (Open Reading Frame) triplet Stop triplet Start triplet Stop
54
ORF (Open Reading Frame) région codante prédite triplet Stop triplet Start triplet Stop
55
ORF (Open Reading Frame) RBS (Ribosome Binding Site) région codante prédite triplet Stop triplet Start triplet Stop
56
StartStop exonintron
57
StartStop exonintron
58
Comparaison de séquences
59
Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4
60
AGTATC AGATGC AGTTTC AGATTC Nombre de caractères différents : 3 Nombre de caractères différents : 1
61
ACTTGCATT AACTTGCAT
62
ACTTGCATT AACTTGCAT —ACTTGCATT AACTTGCAT—
63
AG—ATGCT AGTAT—C— AGAT—GCT AG—TATC— ACGT A0 C0 G, C G0 T0 —
64
(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence
65
C G — — G C CGCG G—G— —C—C
66
(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence AGAT— GC— AG— TATCT AG— ATGC— AGTAT—CT
67
C N, M = min C N, M-1 + C N-1, M-1 + N, M C N-1, M + N, M C N-1, M C N-1, M-1 C N, M-1 S’ M SNSN
68
(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6)
69
(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6) (5, 7) (6, 7)
70
(0, 0) (1, 1) (2, 0) (1, 0) (0, 1)(0, 2) 0 22 22
71
(0, 0) A G T A T C T A G T A G C (6, 7) (0, 7) (6, 0)
73
— T A G T A T C T A G T A G C (a)
74
— T C— CT A G T A T C T A G T A G C (a) A G T A T C T A G T A G C (b)
75
A G T A T C T A G T A G C GC— TCT — T C— CT A G T A G C (a) (c) A G T A T C T A G T A G C (b)
76
Reconstruction phylogénétique
77
Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4
81
dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8
82
dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8
85
dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8
86
dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.