La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

MCB 19-20 janvier 2006 Exploragénome Bienvenue !.

Présentations similaires


Présentation au sujet: "MCB 19-20 janvier 2006 Exploragénome Bienvenue !."— Transcription de la présentation:

1 MCB janvier 2006 Exploragénome Bienvenue !

2 MCB janvier 2006 Exploragénome Formation continue du 19 et 20 janvier 2006 Exploragénomes Contact:

3 MCB janvier 2006 Exploragénome Quelques concepts utiles pour appréhender les banques de données dans le domaine des Sciences de la Vie

4 MCB janvier 2006 Exploragénome Explosion des données en biologie Nouvelles techniques de biologie moléculaires et nouvelles approches Exemples: séquençage de génomes complets, microarrays ->quantités importantes de données -> quantités importantes de données (séquences, informations génomiques et biologiques…etc) quil faut gérer, stocker et accéder en retour… ->banques de données -> les banques de données: encyclopédies informatiques Les banques de données sont devenus des outils indispensables pour les biologistes au même titre que les publications scientifiques.

5 MCB janvier 2006 Exploragénome Banques de données en biologie Il existe plus d'un millier de banques de données dans le domaine des sciences de la vie. Afin d'y voir plus clair -> classification Exemples: * séquences en acides nucléiques (DNA et mRNA); * séquences en acides aminés (protéines); * références bibliographiques; * informations générales sur les gènes et/ou les maladies; * informations sur la structure tridimensionnelle des protéines ou de l'ADN;

6 MCB janvier 2006 Exploragénome Important: Banques de données sources (musées, complètes, remises à jour régulièrement, sur la durée…mais pas facile daccès….) Banques de données jolies (facile daccès, mais…pas complètes, durée de vie plus courte….)

7 MCB janvier 2006 Exploragénome Quelques noms de banques de données: * séquences en acides nucléiques (DNA et mRNA); EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq * références bibliographiques; PubMed * informations générales sur les gènes et/ou les maladies; EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protéines ou de l'ADN; PDB Il existe aussi des banques spécialisées, comme Newt, qui donne des informations sur la classification des espèces

8 MCB janvier 2006 Exploragénome 20 Sep organisms; EMBL/GenBank/DDBJ

9 MCB janvier 2006 Exploragénome 25 oct 2005 EMBL/GenBank/DDBJ The more representated species are also the more redundant

10 MCB janvier 2006 Exploragénome Celles que vous allez découvrir aujourdhui… * séquences en acides nucléiques: DNA et mRNA; EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq * références bibliographiques; PubMed * informations générales sur les gènes et les maladies associées: EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protéines ou de lADN; PDB Il existe aussi des banques spécialiées, comme Newt, qui donne des informations sur la classification des espèces.

11 MCB janvier 2006 Exploragénome Ben dis donc…y a du boulot !

12 MCB janvier 2006 Exploragénome Quelques remarques 1.Il nexiste pas une banque centrale qui contient toutes les infos: il est toujours nécessaire de grapiller les infos dans différentes banques. 2. Les données s'accroissent quotidiennement (il y a en moyenne un nouveau génome séquencé toutes les semaines) et sont continuellement remises à jour: le résultats de vos requêtes peut donc être différent d'un jour à l'autre (contenu, liens ou look) !

13 MCB janvier 2006 Exploragénome -> -> 3. Beaucoup de chercheurs travaillent sur un même sujet -> un gène, plusieurs séquences -> redondance. Ces séquences peuvent être différentes (erreurs de séquençage ou mutations, longueurs variables). -> 4. Les banques de données sont liées entre elles (links, cross- références -> réseau). Ces liens ne sont pas toujours bidirectionnels ! 5. Les banques de données contiennent des erreurs !

14 MCB janvier 2006 Exploragénome Cest pas fini…

15 MCB janvier 2006 Exploragénome Comment accéder aux banques de données ? -> moteur de recherche spécialisé ou Google Comment accéder aux données qui se trouvent dans les banques de données ? -> portail daccès

16 OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Gene associated with color blindness …….

17 OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Gene associated with color blindness Moteurs de recherche spécialisés « Mapviewer » « Gene and Diseases » « Entrez » …….

18 Moteur de recherche spécialisé OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Mapviewer Gene associated with color blindness

19 Moteur de recherche spécialisé OMIM Entrez Gene RefSeq Serveur du NCBI (USA)Réseau PubMed Mapviewer Gene associated with color blindness

20 Moteur de recherche spécialisé OMIM Entrez Gene RefSeq Serveur du NCBI (USA)Logos Mapviewer Hs * NM_000513NM_ NT_025965NT_ NP_

21 Moteur de recherche spécialisé OMIM Entrez Gene RefSeq Serveur du NCBI (USA) Numéro daccession PubMed Mapviewer Gene assNT_ ociated with color blindnessNT_ Gene associated with color blindness Hs * NP_ NM_ Gene assNT_ ociated with color blindnessNT_ Gene assNT_ ociated with color blindnessNT_ Gene assNT_ ociated with color blindnessNT_

22 Swiss-Prot « Protein Knowledgebase » OMIM Newt PDB Serveur ExPASy (Genève) Réseau depuis la banque de donnée Swiss-Prot PubMed EMBL Liens vers plus de 100 banques de données

23 MCB janvier 2006 Exploragénome

24 Quelques définitions Linformation génétique est stockée dans les chromosomes qui se trouvent dans un compartiment particulier de la cellule, appelé noyau. noyau Une cellule vue en coupe

25 A T G C T A A T Un chromosome est comme une pelote de laine dont le fil est lADN Cellule Noyau Chromosome ADN Linformation génétique est stockée dans les chromosomes

26 Cellule Noyau Chromosome ADN A T G C T A A T Un chromosome est comme une pelote de laine dont le fil est lADN

27 Cellule Noyau Chromosome ADN LADN est une chaîne composée de 4 « molécules » différentes symbolisées par les lettres A T G C A T G C T A A T

28 A T G C T A A T Cellule Noyau Chromosome ADN tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac 3 milliards de « caractères »… Oups…ça fait 2 m.dADN par cellule ! C A T G C T A A T

29 tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac Chez lhomme, Linformation génétique est formée par un texte de 3 milliards de caractères unique pour chaque individu: « le génome humain » une séquence dADN…

30 Cellule Noyau Chromosome ADN Un gène

31 MCB janvier 2006 Exploragénome Pre-mRNA hnRNA protéine exon intron DNA (génomique) AUG/Met Stop mRNA (cDNA, EST) AUG/MetStop transcription Splicing (épissage) traduction Un gène eucaryotique

32 Les introns sont représentés en rouge DNA génomique En noir, la séquence codante (CDS en anglais)

33 MCB janvier 2006 Exploragénome mRNA virtuel Traduction en protéine

34 MCB janvier 2006 Exploragénome Met STOP intron

35 MCB janvier 2006 Exploragénome Notions de mRNA, cDNA

36 MCB janvier 2006 Exploragénome Définition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3 -> 5 Le mRNA a la même séquence que le brin DNA sens (codant)

37 MCB janvier 2006 Exploragénome Coding strand Complementary strand Définition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3 -> 5 Le mRNA (cDNA) a la même séquence que le brin DNA sens (codant)

38 MCB janvier 2006 Exploragénome

39 MCB janvier 2006 Exploragénome Les protéines: quelques chiffres Chez lhomme, on pense quil existe environ recettes ou gènes; On sait que la photocopie de la recette et/ou la protéine peuvent être modifiées: il y aurait plus de 1 million de protéines différentes ! Bienvenue au Royaume des protéines !

40 From Genome to Proteome Proteome Alternative splicing of mRNA Post-translational protein modification (PTM) Definition of PTM: Any modification of a polypeptide chain that involves the formation or breakage of a covalent bond. Increase in complexity % 5 to 10 fold Genome Human: about genes Human: about one million of different proteins; several proteomes « After ribosomes »

41 MCB janvier 2006 Exploragénome The shortest sequence is GWA_SEPOF (P83570): 2 amino acids. The longest sequence is SNE1_HUMAN (Q8NF91): 8797 amino acids. Q8WZ42: amino acids.

42 MCB janvier 2006 Exploragénome Multiple alignment of the end of the available GCR sequences Annotation of the sequence differences

43 MCB janvier 2006 Exploragénome

44 MCB janvier 2006 Exploragénome La bioinformatique, cest quoi ? Lutilisation de linformatique pour lanalyse de lADN et des protéines de tous les êtres vivants.

45 MCB janvier 2006 Exploragénome Acquérir puis stocker les informations biologiques sous la forme dencyclopédies appelées bases de données; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de lADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques. Développer des programmes de prédiction et danalyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de nouvelles données biologiques et prédire in silico par exemple la fonction potentielle dune protéine;

46 MCB janvier 2006 Exploragénome Bioinformatique - application 1: acquisition de données Exemples: lecture dimages de gels 2D, spectrométrie de masse (MS), séquençage ADN... Détection de signaux ou dimages Absence de contexte biologique.

47 MCB janvier 2006 Exploragénome Séquençage dADN Informatique instrumentale Programme pour analyser les données dun séquenceur ADN Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.

48 MCB janvier 2006 Exploragénome Bioinformatique - application 2: Assemblage des séquences dADN Les méthodes actuelles de séquençage ne permettent pas dobtenir des séquences fiables de plus de 1000 bp ! Nature 409, (2001)

49 MCB janvier 2006 Exploragénome Bioinformatique - application 2: Assemblage des séquences dADN -> Reconstruire la séquence complète dun génome ou dun morceau de chromosome (« contig ») à partir de séquences de 1000 bp; Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives. Celera-generated shotgun data set consisted of 27 million sequencing reads … Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7): (2004)

50 MCB janvier 2006 Exploragénome CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGG GGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTG ACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATG AAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGC GCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACG CCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACG TGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCG ACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACG TGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGC TGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAG GCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTC AGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGA GAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGG AGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACAC TCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCC TATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGA GGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGA CACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTG TGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCA CCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGT GGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCT TCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGC CCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGT TAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTAT CGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTC TGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGC GTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCT CTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCT AGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTT GGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGC AGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAG GAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGC CGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGC CTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACC TCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTG GCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGC GCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTT GAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGC GGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGA GGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGG CAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCA GGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCAT GATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAG GGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCG GAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGC TGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTT GAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGT GGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTA GGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGA CGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAG ATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAG CCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGT CTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACC GTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGAC TCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAG GACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAG ATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Génome humain 3.2 milliards de pb 2.7 milliards de $ (coût en 2000) 100 $ (coût en 2008 ?)

51 MCB janvier 2006 Exploragénome Le génome humain (3ème version) contient actuellement encore 341 « trous » (essentiellement vers les centromères/télomères, régions répétitives) Nature (oct 2004), 431, 931

52 MCB janvier 2006 Exploragénome Contenu des banques de données de séquences en acides nucléiques EMBL/GenBank/DDBJ Octobre 2004 Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine

53 MCB janvier 2006 Exploragénome We have applied "whole-genome shotgun sequencing" to microbial populations collected en masse on tangential flow and impact filters from seawater samples collected from the Sargasso Sea near Bermuda. A total of billion base pairs of nonredundant sequence was generated, annotated, and analyzed to elucidate the gene content, diversity, and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 previously unknown bacterial phylotypes. We have identified over 1.2 million previously unknown genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity. Science 304:66-74(2004).

54 MCB janvier 2006 Exploragénome Tous ces sites sont constamment remis à jour !

55 MCB janvier 2006 Exploragénome

56 MCB janvier 2006 Exploragénome Une protéine: comment cest fabriqué ?

57 MCB janvier 2006 Exploragénome Noyau de la cellule = Bibliothèque Chromosomes (ADN) = Livres de recettes (23 x 2 chez lhomme) Une cellule

58 MCB janvier 2006 Exploragénome Noyau = Bibliothèque 1 recette pour 1 protéine = 1 gène Chromosomes (ADN) = Livres de recettes Une cellule

59 MCB janvier 2006 Exploragénome Noyau = Bibliothèque Chromosomes (ADN) = Livres 1 gène = 1 recette Photocopie de la recette (ARN) Une cellule

60 MCB janvier 2006 Exploragénome Noyau Chromosomes (ADN) 1 gène = 1 recette Photocopie de la recette (ARN) Une cellule

61 MCB janvier 2006 Exploragénome Noyau Chromosomes (ADN) 1 gène Photocopie (ARN) Machine à fabriquer les protéines (ribosomes) Une cellule

62 MCB janvier 2006 Exploragénome Photocopie (ARN) Machine à fabriquer les protéines Une cellule

63 MCB janvier 2006 Exploragénome Photocopie de la recette Machine à fabriquer les protéines Une cellule

64 MCB janvier 2006 Exploragénome

65 Real life of a protein sequence … TrEMBL Genpept CoDing Sequences provided by submitters cDNAs, ESTs, genomes, … EMBL, GenBank, DDBJ Data not submitted to public databases, delayed or cancelled… Swiss-Prot CoDing Sequences provided by submitter and « de novo » gene prediction RefSeq XP_NNNNN UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF Manually annotated PRF Scientific publications derived sequences with or without annotated CDS 3D structures


Télécharger ppt "MCB 19-20 janvier 2006 Exploragénome Bienvenue !."

Présentations similaires


Annonces Google