La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Algorithmes et génomes François Rechenmann 23 novembre 2011.

Présentations similaires


Présentation au sujet: "Algorithmes et génomes François Rechenmann 23 novembre 2011."— Transcription de la présentation:

1 Algorithmes et génomes François Rechenmann 23 novembre 2011

2

3

4

5 Séquençage de la molécule d’ADN …GATCACCTCACTACGGGTCAGGG GAAGGAAAGGGGAACTGAGAGATT TGCAGTGTGAGAAGCAGTCCCAGG AGTTAGAAGTAGTGGCTCCATGACT CACAAATTAACTTCCCTTTCAGGCA GGGCTTCTTATTTTCCTTAGCATCC CTGTCTTGATCCCAGCCTGCTCAGA CCCCTGCCTCTCACTGCAAGATGTG CTTGAGTATGAGAGTCAGGAATGTT ACTTCTCAGAGGCGCCAAATGGCA GTTGTCACAGGGTCATCATAGAGG GTATATGTTTACTGCACTGGGCTCT GAGGCTTGCTTGTGAAGAAACAGA AGCTAAGGGATCCAGGGAGTCCCA ACTTAGAGAGTCCCACAGGCCCAC ACTCTGGTTCTGTTGGCAGGAAAAT TTGGCTGAATTGGGGCAGGAAGTT GTGTAACAAAACGATTACATCCATT TTTGCAAGGCAAGAGTGAGCTATTC ACCTCCATGTTGGTGATATTTTTTGC CATATAAGCAGCTAATTCCTTTCAG TAATTCTACTCTAAACTAGTCTTAAT GTGACTTCTATATAAATTCTGAACT GAATAATTTTGGGAACGTTGTAAAA A…

6 1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

7 Quelques ordres de grandeur Virus (grippe) 1,3 10 4

8 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6

9 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7

10 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8

11 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9

12 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9

13 Quelques ordres de grandeur Virus (grippe) 1,3 10 4 Bactérie (E. coli)4,6 10 6 Levure1,2 10 7 Drosophile1,2 10 8 Homme 3,4 10 9 Maïs5,0 10 9 Amibe 6,7 10 11

14 1990: 10 3 bases/day 2000: 10 6 bases/day 2010: 10 9 bases/day

15 “The cancer genome”, Michael R. Stratton, Peter J. Campbell, P. Andrew Futreal, Nature, Vol. 458, Avril 2009

16 Nombre de nucléotides dans la base de données EMBL

17 ARNTranscriptome ADN Génome enzymes Métabolome Protéome Protéines régulation

18 La bioinformatique Gestion des données et des résultats d’analyse Méthodes d’analyse des données, en particulier des séquences

19 1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

20 Dessine-moi un génome DNA walk

21 CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC………..

22 CG T A

23 CG T A C

24 CG T A C A

25 CG T A C A G

26 CG T A C A G A

27 CG T A C A G C A

28 CG T A C A G C C A

29 CG T A A C A G C C A

30 CG T A A C A G C C A

31 CG T A A C A G C C A T

32 CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACCC……….. CG T A A C A G C C A T

33 CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC……….. CG T A A C A G C C A T

34

35 Borrelia burgdorferi

36 CG T A début du tracé, correspondant au début de la séquence fin du tracé, et donc de la séquence Borrelia burgdorferi

37

38

39 sens de déplacement de l’ADN polymérase progression de l’ouverture de la double hélice

40

41

42 C G

43 séquence génomique nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre

44 séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre nb. de G – nb. de C nb. de C + nb. de G

45 séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 0,0 fenêtre Valeur du ratio –1,0 +1,0 Position le long de la séquence, comptée en nombre de lettres nb. de G – nb. de C nb. de C + nb. de G 450 000 0 900 000

46 Synechocystis sp.

47 Recherche des régions codantes

48

49

50 triplet Stop

51

52 ORF (Open Reading Frame) triplet Stop

53 ORF (Open Reading Frame) triplet Stop triplet Start triplet Stop

54 ORF (Open Reading Frame) région codante prédite triplet Stop triplet Start triplet Stop

55 ORF (Open Reading Frame) RBS (Ribosome Binding Site) région codante prédite triplet Stop triplet Start triplet Stop

56 StartStop exonintron

57 StartStop exonintron

58 Comparaison de séquences

59 Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

60 AGTATC AGATGC AGTTTC AGATTC Nombre de caractères différents : 3 Nombre de caractères différents : 1

61 ACTTGCATT AACTTGCAT

62 ACTTGCATT AACTTGCAT —ACTTGCATT AACTTGCAT—

63 AG—ATGCT AGTAT—C— AGAT—GCT AG—TATC— ACGT A0 C0  G, C G0 T0 — 

64 (6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence

65 C G — — G C CGCG G—G— —C—C

66 (6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence AGAT— GC— AG— TATCT AG— ATGC— AGTAT—CT

67 C N, M = min C N, M-1 +  C N-1, M-1 +  N, M C N-1, M +     N, M C N-1, M C N-1, M-1 C N, M-1 S’ M SNSN

68 (5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6)

69 (5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6) (5, 7) (6, 7)

70 (0, 0) (1, 1) (2, 0) (1, 0) (0, 1)(0, 2) 0 22 22 

71 (0, 0) A G T A T C T A G T A G C (6, 7) (0, 7) (6, 0)

72

73 — T A G T A T C T A G T A G C (a)

74 — T C— CT A G T A T C T A G T A G C (a) A G T A T C T A G T A G C (b)

75 A G T A T C T A G T A G C GC— TCT — T C— CT A G T A G C (a) (c) A G T A T C T A G T A G C (b)

76 Reconstruction phylogénétique

77 Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

78

79

80

81 dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8

82 dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8

83

84

85 dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8

86 dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8

87

88


Télécharger ppt "Algorithmes et génomes François Rechenmann 23 novembre 2011."

Présentations similaires


Annonces Google