Algorithmes et génomes François Rechenmann 23 novembre 2011.

Slides:



Advertisements
Présentations similaires
La synthèse des protéines
Advertisements

Prénom :__________ Date:__________ Se repérer sur un quadrillage. 1 2
Stabilité et Variabilité des génomes et Evolution
Parce que notre corps contient des protéines!!!
Biologie Moléculaire des Hépatites Virales
ORGANISATION MOLÉCULAIRE DES GÈNES ET RÉPLICATION DE L ’ADN
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
Multiplexeur Définition : On appelle multiplexeur tout système combinatoire réalisant la fonction universelle de n variables qui correspondent aux n lignes.
Des Débuts de la Génétique aux Enjeux actuels des Biotechnologies
Possibilités de contrôler la pandémie
Biosynthèse des macromolécules
Acide désoxyribonucléique : ADN
Bioinformatique: prédiction de gènes
Les questions médicales et éthiques posées par les tests génétiques
Analyse bioinformatique de données de séquençage NGS médicales
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
L’EPISSAGE ALTERNATIF DE L’ARN
Projet Génome Humain (HGP)
Activité 5. Du génome au protéome
La Régulation génétique chez les Procaryotes
1. L’ADN et l’information génétique
LA TRANSCRIPTION DE L’ADN CHEZ LES PROCARYOTES
Le code génétique Biologie 122.
Synthèse des protéines
1. Information génétique et protéines
Le code génétique.
TP 5 Du génome au protéome
La transcription.
La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)
LA SYNTHÈSE DES PROTÉINES
La synthèse des protéines
ADN à ARN La synthèse des protéines étape 1
Cours des Acides Nucléiques
Prédiction d’interactions protéine-protéine
LA SYNTHÈSE DES PROTÉINES
L’informatique, un outil pour décrypter le vivant
Chapitre 7.3 Réplication de l’ADN
La banque UniprotKB et le logiciel Blast
La régulation des gènes et un peu plus
Comment passer du gène (allèle): séquence spécifique de nucléotides
Génétique moléculaire
La structure de l’ADN SBI3U L. Leroux Modifié 2011
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Université Hassan II AIN CHOCK Faculté de Médecine et de Pharmacie Casablanca - Cours de Biologie - Pr. Tahiri Jouti N. Année Universitaire
OU ACIDE DESOXYRIBONUCLEIQUE
Travaillent en paires chez les eucaryotes
Module 2 Biologie cellulaire, ADN et protéines
La synthèse des protéines
L’expression de l’information génétique.
Co-expression = fonction (Eisen et al., PNAS 1998)
Acides nucléiques: réplication
Le passage de l’ARNm à la protéine Professeur Jremías González B.
Quand la génétique s'en mêle.
De l’ADN aux protéines.
Evidence for a functional RNA element in the hepatitis C virus core gene Laura K. McMullan, Arash Grakoui, Matthew J. Evans, Kathleen Mihalik, Montserrat.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
TP2. Devoir 1 Des questions?? Traduction Voir le site pour une petite astuce: Remarquez dans.
Institut Universitaire de Technologie de Clermont-Ferrand
Introduction à la bioinformatique « Génomique Nouvelle Génération »
Les banques de séquences nucléiques
Régulation de l’expression génétique: la traduction
CHMI 4206 Bioinformatique appliquée
Bio-Informatique Analyse de séquences nucléotidiques
De l’ADN à la Protéine : Transcription et Traduction
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
SMILE: un des formats utilisés pour représenter informatiquement une molécule Quelques propriétés physicochimiques de.
Des protéines et des médicaments 19 avril 2016.
elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem
C T G C G G A G T A G A C G C C T C A T Protéine 1 Allèle 1 Mutation C G G C G G A G T A G C C G C C T C A T 1 gène Gène = séquence de nucléotides 2 versions.
Transcription de la présentation:

Algorithmes et génomes François Rechenmann 23 novembre 2011

Séquençage de la molécule d’ADN …GATCACCTCACTACGGGTCAGGG GAAGGAAAGGGGAACTGAGAGATT TGCAGTGTGAGAAGCAGTCCCAGG AGTTAGAAGTAGTGGCTCCATGACT CACAAATTAACTTCCCTTTCAGGCA GGGCTTCTTATTTTCCTTAGCATCC CTGTCTTGATCCCAGCCTGCTCAGA CCCCTGCCTCTCACTGCAAGATGTG CTTGAGTATGAGAGTCAGGAATGTT ACTTCTCAGAGGCGCCAAATGGCA GTTGTCACAGGGTCATCATAGAGG GTATATGTTTACTGCACTGGGCTCT GAGGCTTGCTTGTGAAGAAACAGA AGCTAAGGGATCCAGGGAGTCCCA ACTTAGAGAGTCCCACAGGCCCAC ACTCTGGTTCTGTTGGCAGGAAAAT TTGGCTGAATTGGGGCAGGAAGTT GTGTAACAAAACGATTACATCCATT TTTGCAAGGCAAGAGTGAGCTATTC ACCTCCATGTTGGTGATATTTTTTGC CATATAAGCAGCTAATTCCTTTCAG TAATTCTACTCTAAACTAGTCTTAAT GTGACTTCTATATAAATTCTGAACT GAATAATTTTGGGAACGTTGTAAAA A…

1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

Quelques ordres de grandeur Virus (grippe) 1,3 10 4

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4,6 10 6

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4, Levure1,2 10 7

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4, Levure1, Drosophile1,2 10 8

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4, Levure1, Drosophile1, Homme 3,4 10 9

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4, Levure1, Drosophile1, Homme 3, Maïs5,0 10 9

Quelques ordres de grandeur Virus (grippe) 1, Bactérie (E. coli)4, Levure1, Drosophile1, Homme 3, Maïs5, Amibe 6,

1990: 10 3 bases/day 2000: 10 6 bases/day 2010: 10 9 bases/day

“The cancer genome”, Michael R. Stratton, Peter J. Campbell, P. Andrew Futreal, Nature, Vol. 458, Avril 2009

Nombre de nucléotides dans la base de données EMBL

ARNTranscriptome ADN Génome enzymes Métabolome Protéome Protéines régulation

La bioinformatique Gestion des données et des résultats d’analyse Méthodes d’analyse des données, en particulier des séquences

1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc

Dessine-moi un génome DNA walk

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC………..

CG T A

CG T A C

CG T A C A

CG T A C A G

CG T A C A G A

CG T A C A G C A

CG T A C A G C C A

CG T A A C A G C C A

CG T A A C A G C C A

CG T A A C A G C C A T

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACCC……….. CG T A A C A G C C A T

CAGACCACTCAGACCTCAAGGACCCAGAAGTGAACACC……….. CG T A A C A G C C A T

Borrelia burgdorferi

CG T A début du tracé, correspondant au début de la séquence fin du tracé, et donc de la séquence Borrelia burgdorferi

sens de déplacement de l’ADN polymérase progression de l’ouverture de la double hélice

C G

séquence génomique nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre

séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 fenêtre nb. de G – nb. de C nb. de C + nb. de G

séquence génomique = + 0,4 nb. de G – nb. de C nb. de C + nb. de G = – 0,3 0,0 fenêtre Valeur du ratio –1,0 +1,0 Position le long de la séquence, comptée en nombre de lettres nb. de G – nb. de C nb. de C + nb. de G

Synechocystis sp.

Recherche des régions codantes

triplet Stop

ORF (Open Reading Frame) triplet Stop

ORF (Open Reading Frame) triplet Stop triplet Start triplet Stop

ORF (Open Reading Frame) région codante prédite triplet Stop triplet Start triplet Stop

ORF (Open Reading Frame) RBS (Ribosome Binding Site) région codante prédite triplet Stop triplet Start triplet Stop

StartStop exonintron

StartStop exonintron

Comparaison de séquences

Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

AGTATC AGATGC AGTTTC AGATTC Nombre de caractères différents : 3 Nombre de caractères différents : 1

ACTTGCATT AACTTGCAT

ACTTGCATT AACTTGCAT —ACTTGCATT AACTTGCAT—

AG—ATGCT AGTAT—C— AGAT—GCT AG—TATC— ACGT A0 C0  G, C G0 T0 — 

(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence

C G — — G C CGCG G—G— —C—C

(6, 7) A G T A T C T A G T A G C (0, 0) Seconde séquence Première séquence AGAT— GC— AG— TATCT AG— ATGC— AGTAT—CT

C N, M = min C N, M-1 +  C N-1, M-1 +  N, M C N-1, M +     N, M C N-1, M C N-1, M-1 C N, M-1 S’ M SNSN

(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6)

(5, 7) (0, 0) (6, 7) (6, 6) (6, 7) (5, 7) (6, 6) (5, 7) (6, 7)

(0, 0) (1, 1) (2, 0) (1, 0) (0, 1)(0, 2) 0 22 22 

(0, 0) A G T A T C T A G T A G C (6, 7) (0, 7) (6, 0)

— T A G T A T C T A G T A G C (a)

— T C— CT A G T A T C T A G T A G C (a) A G T A T C T A G T A G C (b)

A G T A T C T A G T A G C GC— TCT — T C— CT A G T A G C (a) (c) A G T A T C T A G T A G C (b)

Reconstruction phylogénétique

Pourquoi les séquences sont-elles similaires ? G1 E’ E1E2E3E4E5 E’’ G’’ G2 G’ G4

dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8

dist(A,B),C = (dist A, C + dist B, C) / 2 = 4 dist(A,B),D = (dist A, D + dist B, D) / 2 = 6 dist(A,B),E = (dist A, E + dist B, E) / 2 = 6 dist(A,B),F = (dist A, F + dist B, F) / 2 = 8

dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8

dist(((A,B),C),(D,E)), F = (dist((A,B),C), F + dist(D,E), F) / 2 = 8