Bienvenue ! Bonjour à tous et bienvenue

Slides:



Advertisements
Présentations similaires
L’information génétique
Advertisements

Biologie Moléculaire des Hépatites Virales
Transcription de l’ADN
Initiation à la bioinformatique
Acide désoxyribonucléique : ADN
Les bases de données biologiques au LBBE
Les questions médicales et éthiques posées par les tests génétiques
ADN.
Le noyau : le centre de commande de la cellule
Le noyau Pages 22 /
LA SYNTHÈSE DES PROTÉINES
April, 2007La Biologie a changé: et lenseignement ? La biologie a changé: et lenseignement ? Une formation continue co-construite: réflexions sur le lien.
Bioinformatique =?? génomique protéomique
La structure de l’ADN.
L’EPISSAGE ALTERNATIF DE L’ARN
Activité 5. Du génome au protéome
La Régulation génétique chez les Procaryotes
Partie 2: Du génotype au phénotype, relations avec l’environnement
Chapitre 4.
Ordre des chapitres : 1 – 3 – 2 – 4 1.
Le code génétique Biologie 122.
TP 5 Du génome au protéome
Identifier les composants structurels et fonctionnels encodés dans le génome humain.
La transcription.
Rappels de 1èreS Rappelez la définition du génotype et celle du phénotype. Génotype : ensemble des gènes d’un individu existant sous leur forme allélique.
Institut Suisse de Bioinformatique
du génome aux protéomes « in silico »
Expression du Génome Le transcriptome.
LA SYNTHÈSE DES PROTÉINES
Synthèse des protéines
La Transcription de l’ADN a l’ARN
ADN à ARN La synthèse des protéines étape 1
L’arbre du vivant.
L'information génétique
ADN.
Introduction à la bioinformatique
Cours des Acides Nucléiques
LA SYNTHÈSE DES PROTÉINES
La structure et la reproduction de l’ ADN
BIOS – – Mise en œuvre Projet RosEST Développements Sebastien Carrere, LIPM Thibaut Hourlier, LIPM Coordination.
La banque UniprotKB et le logiciel Blast
DIAGNOSTIC D'UNE INFECTION BACTERIENNE
Génétique moléculaire
Chapitre 2 : l’expression du patrimoine génétique
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Biologie cellulaire IUT du Havre HSE Morgane Gorria.
Resolution des excercises
Le paradoxe Jamais il n’a été aussi facile d’accéder à une masse gigantesque d’information; Jamais il n’a été aussi difficile de ‘trier’ et de synthetiser.
Ordre des chapitres : 1 – 3 – 2 – 4 1.
L’ADN LOCALISATION STRUCTURE FONCTION.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
CHMI 2227F Biochimie I Expression des gènes
Quand la génétique s'en mêle.
De l’ADN aux protéines Introduction.
De l’ADN aux protéines.
Banques de données en bio-informatique
Révision ADN et protéines
Le noyau : le centre de commande de la cellule
Exercice L’EPISSAGE ALTERNATIF DE L’ARN
6-La Métagénomique 6.1-Principe
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Pr B. AITABDELKADER CPMC
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
De l’ADN à la Protéine : Transcription et Traduction
De l’ADN aux protéines.
Transcription de la présentation:

Bienvenue ! Bonjour à tous et bienvenue Nous sommes très heureux de vous accueillir à ces portes ouvertes consacrées à la bioinformatique. Exploragénome MCB 19-20 janvier 2006

Formation continue du 19 et 20 janvier 2006 “Exploragénomes” Contact: Marie-Claude.Blatter@isb-sib.ch Exploragénome MCB 19-20 janvier 2006

Quelques concepts utiles dans le domaine des Sciences de la Vie pour appréhender les banques de données dans le domaine des Sciences de la Vie Exploragénome MCB 19-20 janvier 2006

Explosion des données en biologie Nouvelles techniques de biologie moléculaires et nouvelles approches Exemples: séquençage de génomes complets, microarrays -> quantités importantes de données (séquences, informations génomiques et biologiques…etc) qu’il faut gérer , stocker et accéder en retour… -> les banques de données: encyclopédies informatiques Les banques de données sont devenus des outils indispensables pour les biologistes au même titre que les publications scientifiques. Exploragénome MCB 19-20 janvier 2006

Banques de données en biologie Il existe plus d'un millier de banques de données dans le domaine des sciences de la vie. Afin d'y voir plus clair -> classification Exemples: * séquences en acides nucléiques (DNA et mRNA); * séquences en acides aminés (protéines); * références bibliographiques; * informations générales sur les gènes et/ou les maladies; * informations sur la structure tridimensionnelle des protéines ou de l'ADN; Exploragénome MCB 19-20 janvier 2006

Banques de données ‘sources’ Important: Banques de données ‘sources’ (musées, complètes, remises à jour régulièrement, ‘sur la durée’…mais pas facile d’accès….) Banques de données ‘jolies’ (facile d’accès, mais…pas complètes, durée de vie plus courte….) Exploragénome MCB 19-20 janvier 2006

Quelques noms de banques de données: * séquences en acides nucléiques (DNA et mRNA); EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq * références bibliographiques; PubMed * informations générales sur les gènes et/ou les maladies; EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protéines ou de l'ADN; PDB Il existe aussi des banques spécialisées, comme Newt, qui donne des informations sur la classification des espèces Exploragénome MCB 19-20 janvier 2006

EMBL/GenBank/DDBJ 200’000 organisms; 20 Sep 2005 A lot of DNA w/o CDS (ARNr 16S / 18S) Rubisco (plants) Cyto C (mam) 20 Sep 2005 Exploragénome MCB 19-20 janvier 2006

EMBL/GenBank/DDBJ http://www3.ebi.ac.uk/Services/DBStats/ The more representated species are also the more redundant 25 oct 2005 Exploragénome MCB 19-20 janvier 2006

Celles que vous allez découvrir aujourd’hui… * séquences en acides nucléiques: DNA et mRNA; EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq * références bibliographiques; PubMed * informations générales sur les gènes et les maladies associées: EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protéines ou de l‘ADN; PDB Il existe aussi des banques spécialiées, comme Newt, qui donne des informations sur la classification des espèces. Exploragénome MCB 19-20 janvier 2006

Ben dis donc…y a du boulot ! La bioinformatique est un outil qui complémente les analyses du laboratoires. Prédiction Stocker: sous la forme d’encyclopédies informatiques appelées bases de données; Exploragénome MCB 19-20 janvier 2006

Quelques remarques Il n’existe pas une “banque centrale” qui contient toutes les infos: il est toujours nécessaire de grapiller les infos dans différentes banques. Les données s'accroissent quotidiennement (il y a en moyenne un nouveau génome séquencé toutes les semaines) et sont continuellement remises à jour: le résultats de vos requêtes peut donc être différent d'un jour à l'autre (contenu, liens ou “look”) ! Exploragénome MCB 19-20 janvier 2006

5. Les banques de données contiennent des erreurs ! 3. Beaucoup de chercheurs travaillent sur un même sujet -> un gène, plusieurs séquences -> redondance. Ces séquences peuvent être différentes (erreurs de séquençage ou mutations, longueurs variables). 4. Les banques de données sont liées entre elles (“links”, cross-références -> réseau). Ces liens ne sont pas toujours bidirectionnels ! 5. Les banques de données contiennent des erreurs ! Exploragénome MCB 19-20 janvier 2006

C’est pas fini… Ben, non on a pas fini ! MCB Exploragénome 19-20 janvier 2006

Comment accéder aux banques de données ? -> moteur de recherche spécialisé ou Google Comment accéder aux données qui se trouvent dans les banques de données ? -> portail d’accès Exploragénome MCB 19-20 janvier 2006

……. Serveur du NCBI (USA) RefSeq Entrez Gene OMIM PubMed Gene associated with color blindness Gene associated with color blindness RefSeq Entrez Gene Gene associated with color blindness Gene associated with color blindness OMIM PubMed ……. Serveur du NCBI (USA)

Serveur du NCBI (USA) ……. Moteurs de recherche spécialisés Gene associated with color blindness Serveur du NCBI (USA) Gene associated with color blindness RefSeq Entrez Gene Gene associated with color blindness Gene associated with color blindness OMIM PubMed ……. Moteurs de recherche spécialisés « Mapviewer » « Gene and Diseases » « Entrez »

Moteur de recherche spécialisé Gene associated with color blindness Serveur du NCBI (USA) Gene associated with color blindness RefSeq Entrez Gene Gene associated with color blindness Gene associated with color blindness OMIM PubMed Mapviewer Moteur de recherche spécialisé

Moteur de recherche spécialisé Gene associated with color blindness Serveur du NCBI (USA) Réseau Gene associated with color blindness RefSeq Entrez Gene Gene associated with color blindness Gene associated with color blindness OMIM PubMed Mapviewer Moteur de recherche spécialisé

Moteur de recherche spécialisé Serveur du NCBI (USA) Logos NM_000513 NT_025965 NP_000504.1 2652 Hs Entrez Gene RefSeq *303800 OMIM Mapviewer Moteur de recherche spécialisé

Moteur de recherche spécialisé Serveur du NCBI (USA) Numéro d’accession Gene assNT_025965. ociated with color blindness NP_000504.1 NM_000513 Gene assNT_025965. ociated with color blindness Gene assNT_025965. ociated with color blindness 2652 Hs RefSeq Entrez Gene Gene assNT_025965. ociated with color blindness Gene associated with color blindness *303800 OMIM PubMed Mapviewer Moteur de recherche spécialisé

Serveur ExPASy (Genève) Réseau depuis la banque de donnée Swiss-Prot PDB Newt Liens vers plus de 100 banques de données OMIM PubMed EMBL Swiss-Prot « Protein Knowledgebase »

Vous pensez que c’est fini Exploragénome MCB 19-20 janvier 2006

Quelques définitions L’information génétique est stockée dans les chromosomes qui se trouvent dans un compartiment particulier de la cellule, appelé noyau. noyau Une cellule vue en coupe

Un chromosome est comme Cellule Noyau Chromosome ADN L’information génétique est stockée dans les chromosomes Un chromosome est comme une pelote de laine dont le fil est l’ADN A T G C T Voici un shéma simplifié d’une cellule avec ses chromosomes visibles dans le noyau. L’information génétique est donc stockée dans les chromosomes. Un chromosome peut symboliquement être comparé à une pelote de laine, dont le fil est l’ADN A A T

Un chromosome est comme Cellule Noyau Chromosome ADN Un chromosome est comme une pelote de laine dont le fil est l’ADN A T G C En effet si on déroule le chromosome, obtient un long filament d’ADN.

L’ADN est une chaîne composée de 4 « molécules » différentes Cellule Noyau Chromosome ADN A T G C L’ADN est une chaîne composée de 4 « molécules » différentes symbolisées par les lettres A T G C Si on regarde encore de plus près, on peut voir que l’ADN est composées de 4 « molécules » différentes que l’on symbolise aussi par les lettres A T G C, à nouveau des abréviations pour des noms un peu compliqués Ces 4 lettres sont répétées et forment un texte qui est la séquence de l’ADN La combinaison et répétition de ces 4 lettres forment un textes qui est la séquence de l’ADN

Oups…ça fait 2 m.d’ADN par cellule ! Noyau Chromosome ADN tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac 3 milliards de « caractères »… Oups…ça fait 2 m.d’ADN par cellule ! A T G C A T G C En résumé, ces 3 milliards de caractères représentent 2 m d’ADN qui sont enroulés et compactés à l’intérieur du noyau de chacune de nos cellules. C

une séquence d’ADN… tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac Chez l’homme, L’information génétique est formée par un texte de 3 milliards de caractères unique pour chaque individu: « le génome humain » Voici un exemple pour illustrer la notion de séquence d’ADN. Chez l’homme, l’information génétique est formée par un texte de 3 milliards de caractères qui est unique pour chaque individu. C’est ce texte qui constitue le génome humain.

Cellule Noyau Chromosome ADN Un gène

Un gène eucaryotique transcription DNA Pre-mRNA hnRNA mRNA (cDNA, EST) exon intron DNA (génomique) AUG/Met Stop transcription Pre-mRNA hnRNA Splicing (épissage) mRNA (cDNA, EST) AUG/Met Stop traduction protéine Exploragénome MCB 19-20 janvier 2006

DNA génomique Les introns sont représentés en rouge 1-1002 1407 - 1451 1084 - 1304 1662 - 1913 En noir, la séquence codante (CDS en anglais)

Traduction en ‘protéine’ mRNA virtuel Traduction en ‘protéine’ Exploragénome MCB 19-20 janvier 2006

Met STOP intron Exploragénome MCB 19-20 janvier 2006

Notions de mRNA, cDNA Exploragénome MCB 19-20 janvier 2006

Définition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’ Le mRNA a la même séquence que le brin DNA sens (codant) Exploragénome MCB 19-20 janvier 2006

Définition (text book): Coding strand Complementary strand Définition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’ Le mRNA (cDNA) a la même séquence que le brin DNA sens (codant) Exploragénome MCB 19-20 janvier 2006

Vous pensez que c’est fini Exploragénome MCB 19-20 janvier 2006

Les protéines: quelques chiffres Chez l’homme, on pense qu’il existe environ 25’000 recettes ou gènes; On sait que la photocopie de la recette et/ou la protéine peuvent être modifiées: il y aurait plus de 1 million de protéines différentes ! Bienvenue au Royaume des protéines ! Exploragénome MCB 19-20 janvier 2006

From Genome to Proteome Human: about 25’000 genes Genome 10-42 % Alternative splicing of mRNA « After ribosomes » Post-translational protein modification (PTM) Increase in complexity 5 to 10 fold Definition of PTM: Any modification of a polypeptide chain that involves the formation or breakage of a covalent bond. Proteome Human: about one million of ‘different’ proteins; several proteomes

The shortest sequence is GWA_SEPOF (P83570): 2 amino acids. The longest sequence is SNE1_HUMAN (Q8NF91): 8’797 amino acids.  Q8WZ42: 34’350 amino acids. http://www.expasy.org/sprot/relnotes/relstat.html Exploragénome MCB 19-20 janvier 2006

Multiple alignment of the end of the available GCR sequences Annotation of the sequence differences Exploragénome MCB 19-20 janvier 2006

Vous pensez que c’est fini Exploragénome MCB 19-20 janvier 2006

La bioinformatique, c’est quoi ? L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants. Exploragénome MCB 19-20 janvier 2006

Visualiser: développer des programmes pour visualiser Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données; Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques. Exploragénome MCB 19-20 janvier 2006

Bioinformatique - application 1: acquisition de données Exemples: lecture d’images de gels 2D, spectrométrie de masse (MS), séquençage ADN... Détection de signaux ou d’images Absence de contexte biologique. Exploragénome MCB 19-20 janvier 2006

Informatique instrumentale Séquençage d’ADN Informatique instrumentale Programme pour analyser les données d’un séquenceur ADN Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden. Exploragénome MCB 19-20 janvier 2006

Bioinformatique - application 2: Assemblage des séquences d’ADN Nature 409, 860-921 (2001) Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp ! Exploragénome MCB 19-20 janvier 2006

Bioinformatique - application 2: Assemblage des séquences d’ADN -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome (« contig ») à partir de séquences de 1000 bp; Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives. Chromosome Y trop de répétition: impossible de séquencer plusieurs individus (différences repeat polymorphismes) “Celera-generated shotgun data set consisted of 27 million sequencing reads …” Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7):1916-21 (2004) Exploragénome MCB 19-20 janvier 2006

2.7 milliards de $ (coût en 2000) CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Génome humain 3.2 milliards de pb 2.7 milliards de $ (coût en 2000) 100 $ (coût en 2008 ?) Exploragénome MCB 19-20 janvier 2006

Le génome humain (3ème version) contient actuellement encore 341 « trous » (essentiellement vers les centromères/télomères, régions répétitives) Nature (oct 2004), 431, 931 Exploragénome MCB 19-20 janvier 2006

Contenu des banques de données de séquences en acides nucléiques EMBL/GenBank/DDBJ http://www.ebi.ac.uk/embl/index.html Octobre 2004 Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine http://www3.ebi.ac.uk/Services/DBStats/ Exploragénome MCB 19-20 janvier 2006

We have applied "whole-genome shotgun sequencing" to microbial populations collected en masse on tangential flow and impact filters from seawater samples collected from the Sargasso Sea near Bermuda. A total of 1.045 billion base pairs of nonredundant sequence was generated, annotated, and analyzed to elucidate the gene content, diversity, and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 previously unknown bacterial phylotypes. We have identified over 1.2 million previously unknown genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity. Science 304:66-74(2004). Exploragénome MCB 19-20 janvier 2006

constamment remis à jour ! Tous ces sites sont constamment remis à jour ! http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi Exploragénome http://www.ncbi.nlm.nih.gov/Genomes/index.html MCB 19-20 janvier 2006

Vous pensez que c’est fini Exploragénome MCB 19-20 janvier 2006

Une protéine: comment c’est fabriqué ? Exploragénome MCB 19-20 janvier 2006

Noyau de la cellule = Bibliothèque Chromosomes (ADN) = Une cellule Chromosomes (ADN) = Livres de recettes (23 x 2 chez l’homme) Pour comprendre comment l’information génétique stockée dans l’ADN des chromosomes est utilisée pour fabriquer des protéines, on revient à la cellule on peut comparer le noyau de la cellule à une bibliothèque, et les chromosomes aux différents livres de recettes que l’on peut trouver dans cette bibliothèque. Exploragénome MCB 19-20 janvier 2006

Noyau = Bibliothèque Chromosomes (ADN) = Livres de recettes Une cellule Chromosomes (ADN) = Livres de recettes En fait chaque recette des livres donne l’information nécessaire pour fabriquer une protéine, on appelle cette recette un gène. 1 recette pour 1 protéine = 1 gène Exploragénome MCB 19-20 janvier 2006

Photocopie de la recette (ARN) Noyau = Bibliothèque Chromosomes (ADN) = Livres Une cellule 1 gène = 1 recette Photocopie de la recette (ARN) Ces recettes sont tellement précieuses qu’elles doivent être photocopiées avant de pouvoir être utilisées.. Chaque fois que la cellule a besoin d’une protéine elle va faire une photocopie de la recette correspondante. Exploragénome MCB 19-20 janvier 2006

Photocopie de la recette (ARN) Noyau Chromosomes (ADN) Une cellule 1 gène = 1 recette Photocopie de la recette (ARN) Et cette photocopie sort du noyau et peut alors rencontrer la machine à fabriquer les protéines Exploragénome MCB 19-20 janvier 2006

Machine à fabriquer les protéines Noyau Chromosomes (ADN) Une cellule 1 gène Photocopie (ARN) Cette machine va lire la recette, et assembler un à un acides acides selon l’information qui s’y trouve. Machine à fabriquer les protéines (ribosomes) Exploragénome MCB 19-20 janvier 2006

Machine à fabriquer les protéines Une cellule Photocopie (ARN) Machine à fabriquer les protéines Exploragénome MCB 19-20 janvier 2006

Photocopie de la recette Une cellule Photocopie de la recette Machine à fabriquer les protéines Exploragénome MCB 19-20 janvier 2006

Vous pensez que c’est fini Exploragénome MCB 19-20 janvier 2006

Real life of a protein sequence … Data not submitted to public databases, delayed or cancelled… cDNAs, ESTs, genomes, … with or without annotated CDS EMBL, GenBank, DDBJ PRF Scientific publications derived sequences CoDing Sequences provided by submitters CoDing Sequences provided by submitter and « de novo » gene prediction TrEMBL Genpept RefSeq XP_NNNNN Manually annotated Swiss-Prot CDS: proposed and submitted at EMBL by authors or by genome projects (can be experimentally proved or derived from gene prediction programs). TrEMBL does not translate DNA sequences, nor use gene prediction programs: only take CDS given in the EMBL entry. 3D structures UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF