2004, l’odyssée des génomes Enjeux scientifiques, médicaux et éthiques

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

2004, l’odyssée des génomes Enjeux scientifiques, médicaux et éthiques Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Genève – 3 Février 2004

Institut Suisse de Bioinformatique (ISB) Fondation à but non-lucratif créée le 30 mars 1998; Associé à de nombreux partenaires académiques (Universités, écoles polytechniques) et instituts de recherche (ISREC, Ludwig); Recherche, enseignement, développement et prestations de services en bioinformatique; Initialement situé à Genève et Lausanne. Depuis 2002 aussi à Bâle; Dix groupes, ~130 chercheurs en 2004. www.isb-sib.ch

Vue « chimique » et « alimentaire » des constituants du vivant Au niveau moléculaire: Eau; Sels minéraux et métaux; Lipides; Sucres: monosaccharides (exemple: glucose); oligosaccharides (exemple: cellulose); Acides nucléiques (=ADN et ARN); Protéines Les oligosaccharides, acides nucléiques et protéines sont des macromolécules

Les acides nucléiques Des chaînes composées de quatre types de nucléotides; Un nucléotide est formé d’un sucre (ribose dans ARN et deoxyribose dans ADN), d’un groupe phosphate et d’une base; Les 4 types de bases sont: Adénine (A), Cytosine (C), Guanine (G) et Thymine (T); L’ADN forme souvent des double brins (double hélice) par complémentarité; Support de l’information génétique ACGTATGTATCGTGTATGACGTATATGTCATGATGTGA

Les protéines Des chaînes composées de 20 types d’acides aminés qui ont des caractéristiques physico-chimique distinctes; Séquences de taille variable: de 10 à 10,000 a.a; 4,000 protéines différentes chez une bactérie; plus de 20,000 chez l’être humain; Les protéines forment des structures tridimensionelles complexes; Des fonctions très variées: structure (collagène); transport (hémoglobine); hormone (insuline); enzyme (trypsine), etc. Met-Ser-Ala-Thr-Arg-Arg-Lys-Ala-Val-Phe-Pro-Ser-Thr-Ile-Tyr M S A T R R K A V F P S T I Y

Structure d’une protéine Séquence d’une protéine

Dogme central Le "dogme central", introduit par Francis Crick (co-découvreur de la structure de l'ADN) à la fin des années 50, veut que chez tous les êtres vivants, l'information ne soit transmise que dans un sens: de l'ADN, où repose l'information, à l'ARN, une structure transitoire permettant sa transmission à une machine de traduction, aux protéines, les constituants de base qui font fonctionner la cellule et l'organisme entier.

Code génétique universel Le code génétique est le système de correspondance permettant au message génétique (acides nucléiques) d'être traduit en protéine par une cellule. A chaque séquence de 3 bases consécutives (codon) portées par l'ARN messager, correspond un acide aminé donné et un seul. Il y a 64 combinaisons codon-acide aminé possibles pour 20 acides aminés seulement. Un même acide aminé peut donc être codé par plusieurs codons différents: on parle de "code dégénéré". Mais il existe des exceptions au code génétique «universel»; certains organismes utilisent des variantes de ce code!

Quelques definitions L’ADN est organisé en gènes; L’ensemble des gènes forme le génome d’un organisme; La discipline qui a comme champ d’action l’étude des gènes est appelée génomique. La plupart des gènes codent pour des protéines; L’ensemble des protéines exprimées par un organisme est appelé son protéome; La discipline qui a comme champ d’action l’étude des protéines est appelée protéomique. La génomique et la protéomique font partie de la biologie moléculaire («wet lab»). On utilise l’informatique pour étudier les séquences et les structures de l’ADN et des protéines; on parle alors de bioinformatique («dry lab»).

Les «iques» Génomique Transcriptomique Protéomique Métabolique Retrouvez tous ces héros dans ma prochaine aventure! Génomique Transcriptomique Protéomique Métabolique Bioinformatique Mais aussi biomique, cellomique, crystallomique, diagnomique, epigénomique, glycomique, immunomique, interactomique, métabonomique, opéromique, pathogénomique, phénomique, physiomique, protéomatique, régulomique, gènomique structurelle et la toxicomique!

Quelques clefs pour comprendre le pourquoi et le comment de ces «iques» Aucune de ces techniques ne peut exister par elle-même, elles sont complémentaires; Chacune produit des résultats expérimentaux qui permettent d’appréhender une partie spécifique des processus moléculaires du monde vivant; Aujourd’hui l’activité majeure dans ces domaines scientifiques est la production massive de données. Il s’agit d’une industrialisation du travail de laboratoire; Qui dit «données» implique l’utilisation de la bioinformatique pour stocker et analyser ces informations!

De nombreuses techniques expérimentales produisent une vaste quantité d’information

Les applications de l’informatique à la biologie moléculaire Bioinformatique moléculaire: une définition Les applications de l’informatique à la biologie moléculaire Et plus particulièrement l’étude de macromolécules telles que les protéines, les acides nucléiques et les oligosaccharides (sucres)

La bioinformatique: banques de données et logiciels De nombreuses banques de données: plus de 1,000. De taille et d’importance très variable; Des outils logiciels pour analyser ces données. Beaucoup de programmes pour analyser les séquences d’ADN et de protéines et les structures 3D; Une différence essentielle par rapport à un domaine tel que la chimie: la très grande majorité des resources sont gratuites et disponibles sur le web; Problème: la pérennité du financement de ces resources. Structure 3D de la protéase du virus HIV-1 avec un inhibiteur

La chance d’être bioinformaticien en 2004 Nous avons le privilège d’être les généralistes du monde «biomoléculaire»; Un groupe de recherche connaît généralement parfaitement l’ensemble des données concernant un groupe de gènes et de protéines; Nous avons une connaissance très superficielle de l’ensemble des gènes et génomes et ceci à une époque où chaque jour apporte son lot de découvertes; Des avancées technologiques ont permis de multiplier la vitesse de séquençage des génomes par un facteur 1,000; Nous sommes la première génération qui a la possibilité de comprendre les mécanismes du vivant et l’histoire de la vie.

Donc…. Cette discipline aide à comprendre la signification de certaines des données obtenues à l’aide des “iques”; La bioinformatique est un composant clef dans le processus de découverte des mécanismes du vivant.

Bref historique des données biomoléculaires 1953: Découverte de la double hélice d’ADN (Franklin, Crick, Watson) 1954: 1ère séquence d’une protéine (insuline; Sanger) 1958: 1ère structure d’une protéine par rayons X (myoglobine; Kendrew) 1972: Premier séquençage d’ADN 1977: Techniques de séquençage rapide de l’ADN (Gilbert et Sanger!) 1986: PCR (la photocopieuse du biologiste!) 1992: Séquence du chromosome III de la levure (3x105 pb) 1995: Séquence du génome de la bactérie Haemophilus influenzae (2x106 pb) 1999: Séquence du génome d’un organisme multicellulaire (Caenorhabditis elegans) (108 pb) 2000: Séquence du génome humain (3x109 pb) 2001: Démarrage des projets de génomique structurelle 2002: Une quantité significative de données de micro-array (micro-tableaux) devient disponible Jan 2004: 140 génomes microbiens et 20 génomes eukaryotes

Plus de 50% de l’information biomoléculaire disponible aujourd’hui a été obtenue ces trois dernières années

La taille des génomes (en nombre de bases) Viroïde 300 Petit phage (virus infectant une bactérie) 2,000 Virus du SIDA 10,000 Virus de l’herpes 150,000 Mycoplasma genitalium (bactérie parasite) 600,000 Bactérie 1 à 13 millions Levure du boulanger 13 millions Drosophile (mouche) 180 millions Poisson fugu 360 millions Homme 3.2 milliards Pin 68 milliards Salamandre 81 milliards Amibe 670 milliards

Deux observations découlent de la taille des génomes 1) La limite minimale pour un organisme vivant autonome s’établit à environ un million de bases. Il ne s’agit pas d’une limite «théorique», mais d’une constatation découlant de la quantité d’ADN nécessaire au codage des protéines essentielles à la vie (réplication, traduction, métabolisme, structure, etc.); 2) A partir d’une certaine taille il n’y a plus de corrélation entre la taille d’un génome et la complexité de l’organisme.

Mimivirus: le plus grand virus connu actuellement: ~800,000 bases

Une petite archée: Nanoarchaeum equitans Organisme qui vit en symbiose avec une archée du type Ignicoccus; Trouvée dans des cheminées hydrothermales au nord de l’Islande; Se reproduit à une température de 90 degrés; Génome de 490,885 bases; 95% du génome code pour des gènes

CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Le génome humain est 380,000 fois plus long que la séquence qui est représentée sur cette dia

Parallèle entre l’étude des textes et l’étude des génomes Alphabet Mot Phrase Chapitre Livre Les 4 bases: A, C, G, T Codon (3 bases codant pour un acide aminé) Gène Chromosome Génome

Grammaire et style Le génome de chaque espèce a une grammaire/style spécifique qui dépend de: La taille du génome; Le nombre et la topologie des chromosomes; La composition en bases; Le pourcentage et la structure des régions non codantes; La structure des gènes (intron/exons, éléments de régulation, etc.) Comme pour les textes, il est possible de reconnaître un style, d’observer les similitudes entre les «auteurs» (espèces) et même de détecter les plagiats!!

Quelques titres évocateurs

La diversité biologique On estime de 3 à 30 millions le nombre d’espèces sur terre; l’imprécision est inhérente aux méthodes d’estimation ainsi qu’au flou quant à la définition de ce qu’est une espèce 1,8 millions ont été répertoriées Au total, 50 millions d’espèces auraient vécu sur terre En 2004: 300 génomes (sans compter les virus), plus de 100’000 espèces sont représentées dans les banques de séquence.

Nombre approximatif d’espèces

Contribution relative des différentes formes de vie à la biodiversité totale

NEWT

Calendrier de la vie sur terre

Arbre généalogique d’Ernst Haeckel (1874)

La phylogénie basée sur la comparaison des génomes classe les êtres vivants en trois “règnes” ou lignées généalogiques: eucaryotes, eubactéries et (archées) archébactéries Savoir d’ou l’on vient permet de mieux comprendre les processus du monde vivant

Comment on reconstruit l’évolution à partir d’informations moléculaires HBA Homme VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Chauve-sris VLSSADKTNIKAAWDKVGGNAGEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Boeuf VLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHF-DLSHGSAQVKGHG HBA Cochon VLSAADKANVKAAWGKVGGQAGAHGAEALERMFLGFPTTKTYFPHF-NLSHGSDQVKAHG HBA Alligator VLSMEDKSNVKAIWGKASGHLEEYGAEALERMFCAYPQTKIYFPHF-DMSHNSAQIRAHG HBA Poule VLSAADKNNVKGIFTKIAGHAEEYGAETLERMFTTYPPTKTYFPHF-DLSHGSAQIKGHG HBA Carpe SLSDKDKAAVKGLWAKISPKADDIGAEALGRMLTVYPQTKTYFAHWADLSPGSGPVKKHG *: *: ::. * . . **::* *:: :* :* **.*: ::* .* : :* HBA Homme KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP HBA Chauve-sris KKVGDALTNAVGHLDDLPGALSALSDLHAYKLRVDPVNFKLLSHCLLVTLANHLPSDFTP HBA Boeuf AKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTP HBA Cochon QKVADALTKAVGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHHPDDFNP HBA Alligator KKVFSALHEAVNHIDDLPGALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSP HBA Poule KKVVAALIEAANHIDDIAGTLSKLSDLHAHKLRVDPVNFKLLGQCFLVVVAIHHPAALTP HBA Carpe KVIMGAVGDAVSKIDDLVGGLAALSELHAFKLRVDPANFKILAHNVIVVIGMLYPGDFPP : *: .* ::**: . *. **:***..*****.**::*.: . * .. . HBA Homme AVHASLDKFLASVSTVLTSKYR HBA Chauve-sris AVHASLDKFLASVSTVLTSKYR HBA Boeuf AVHASLDKFLANVSTVLTSKYR HBA Cochon SVHASLDKFLANVSTVLTSKYR HBA Alligator EIHASLDKFLCAVSAVLTSKYR HBA Poule EVHASLDKFLCAVGTVLTAKYR HBA Carpe EVHMSVDKFFQNLALALSEKYR : : ***: :. .*: ***

HBA_HUMAN -MVLSPADKTNVKAAWGKVGA---HAGEYGAEALERMFLSFPTTKTYFPHFDLSH----- HBAZ_HUMAN -MSLTKTERTIIVSMWAKIST---QADTIGTETLERLFLSHPQTKTYFPHFDLHP----- HBB_HUMAN MVHLTPEEKSAVTALWGKV-----NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAV HBD_HUMAN MVHLTPEEKTAVNALWGKV-----NVDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAV HBE_HUMAN MVHFTAEEKAAVTSLWSKM-----NVEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAI HBG_HUMAN MGHFTEEDKATITSLWGKV-----NVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAI MYG_HUMAN -MGLSDGEWQLVLNVWGKVEA---DIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEM GLB_BUSCA --GLDGAQKTALKESWKVLGADGPTMMKNGSLLFGLLFKTYPDTKKHFKHFDDATFA-AM : : : * : * : :: .* * * * HBA_HUMAN -GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDLHAHKLRVDPVNFKLLSHCLLV HBAZ_HUMAN -GSAQLRAHGSKVVAAVGDAVKSID--DIGGALSKLSELHAYILRVDPVNFKLLSHCLLV HBB_HUMAN MGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSELHCDKLHVDPENFRLLGNVLVC HBD_HUMAN MGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFSQLSELHCDKLHVDPENFRLLGNVLVC HBE_HUMAN LGNPKVKAHGKKVLTSFGDAIKNMD--NLKPAFAKLSELHCDKLHVDPENFKLLGNVMVI HBG_HUMAN MGNPKVKAHGKKVLTSLGDAIKHLD--DLKGTFAQLSELHCDKLHVDPENFKLLGNVLVT MYG_HUMAN KASEDLKKHGATVLTALGGILKKKG--HHEAEIKPLAQSHATKHKIPVKYLEFISECIIQ GLB_BUSCA DTTGVGKAHGVAVFSGLGSMICSIDDDDCVBGLAKKLSRNHLARGVSAADFKLLEAVFKZ . : ** * .. . : . . : . : : :.:: : HBA_HUMAN TLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ HBAZ_HUMAN TLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------ HBB_HUMAN VLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ HBD_HUMAN VLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------ HBE_HUMAN ILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------ HBG_HUMAN VLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------ MYG_HUMAN VLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG GLB_BUSCA FLDEATQRKATDAQKDADGALLTMLIKAHV---------- * . : : : .

Un problème pour la reconstruction de l’historique de la vie sur terre: les transferts horizontaux Il s’agit du transfert de gènes entre espèces. Phénomène courant chez les micro-organismes (bactéries, archées), moins chez les eucaryotes Nous sommes donc tous des organismes transgéniques. La peur des OGM est à la fois fondée (risques de transferts) et infondée (la nature est déjà «habituée» à gérer ce mécanisme).

LUCA: Last Universal Common Ancestor Compromis entre «Last common ancestor» et «Last universal ancestor»  LUCA devait posséder plus ou moins l’ensemble des caractéristiques présentes dans les trois règnes. Il s’agissait donc d’un organisme complexe sur le plan moléculaire avec un génome à ADN.

A la recherche des gènes…. On pourrait penser que lorsque l’on obtient la séquence d’un génome, il est facile de détecter les gènes et de traduire ces gènes en protéines; C’est partiellement vrai chez les bactéries et archées dont la grammaire génomique est caractérisée par: Une très grande densité des gènes (70% à 95% du génome code pour des gènes); Des structures de gènes simples: pas d’introns, régions régulatrices petites et peu complexes.

Un exemple illustrant la densité d’un génome bactérien: la carte d’une partie du génome de Bacillus subtilis Chez les bactéries: 1 million de paires de bases <=> 1’000 gènes

Mais, chez les eucaryotes…. Une grammaire complexe: Il y a beaucoup de régions non-codantes; Les gènes sont morcelés (exons/introns); Leurs régions régulatrices peuvent être d’une extrême complexité; Plusieurs gènes peuvent partager une même région du génome; Même après avoir détecté un gène, il n’est pas évident de pouvoir prédire son ou ses transcrits: Epissage alternatif; Edition de l’ARN messager

Un exemple du résultat de l’analyse d’une région du génome humain La solution: séquençage d’EST et de cDNA complets

Modifications post-traductionelles des protéines (PTMs) Du génome au protéome ~ 25’000 gènes humains génome ~ 1'000'000 protéines humaines protéome Ê Modifications post-traductionelles des protéines (PTMs) Augmentation 5-10 X Epissage alternatif des mARN Augmentation 2-5 X ~ 100’000 transcrits humains transcriptome Site occupancy reversibility Augmentation de la complexité

Les protéines (1/2) Le nombre de permutations possibles pour une protéine de 100 acides aminés est de 20100, beaucoup plus que le nombre d’atomes dans l’univers; Dans chaque espèce, il y a des protéines «universelles» et d’autres qui sont propres à une ou à un groupe d’espèces; Ce sont les nanomachines de la vie; aucun phénomène biologique ne peut avoir lieu sans l’aide d’une ou plusieurs protéines;

Les protéines (2/2) Elles permettent d’aller aux limites de ce qui est possible au niveau moléculaire. Exemples: Capture de l’énergie solaire (photosynthèse); Enzymes: permettent de faciliter des réactions qui sinon ne seraient pas possibles dans le cadre de notre biosphère sans apport énergétique important. Exemple: la fixation de l’azote moléculaire; La technologie actuelle n’arrive pas encore à la cheville de ce que la nature a réussi à façonner en 3 milliards d’années d’évolution.

La banque de données Swiss-Prot http://www.expasy.org/sprot/ crèée en 1986 Une étroite collaboration entre l’Institut Suisse de Bioinformatique (ISB) et l’Institut Européen de Bioinformatique (EBI)

Scientific publications 3D Structures & Drug design Laboratory experiments Genetic studies GENOMIC DATA

Plus de 1’200’000 protéines sont décrites dans Swiss-Prot et TrEMBL Elles proviennent de plus de 60’000 espèces

Disponible sur ExPASy, Le premier serveur web dans le domaine des sciences de la vie. ExPASy a été développé depuis 1993 à genève www.expasy.org 350 millions de connections sur ExPASy et ses sites miroirs en Australie, Bolivie, Canada, Chine, Corée, Etats-Unis et Taiwan

Le groupe Swiss-Prot travaille en collaboration avec Ensemble ils produisent UniProt, “The Universal Protein Resource

Le séquençage du génome humain: lorsque les relations publiques et la politique prennent le pas sur la science

Chronologie d’un projet Octobre 1990: début officiel du projet de séquençage du «génome humain»; 1991-1995: cartographie du génome; 1996-2000: mise en place du séquençage par un consortium public de laboratoires (USA, UK, France, Allemagne, Japon); Mai 2000: publication de la séquence du chromosome 21; 26 Juin 2000: annonce officielle du premier jet «working draft» du génome humain (90% complet, 150’000 trous); 15 Février 2001: publication dans Nature et Science de la séquence provenant des projets publiques et de Céléra; 14 Avril 2003: annonce de la fin du projet de séquençage (99% complet; 400 trous); 2004: On n’a toujours pas une version complète de tous les chromosomes.

Le génome humain: une remise en question Beaucoup moins de gènes (25 à 30,000) que ce qui était prévu (100’000); Nous sommes très proches de tous les autres mammifères (80% à 90% d’identité avec la souris au niveau des protéines; près de 100% avec le chimpanzé); Comme dans la plupart des espèces complexes nous sommes obligés d’avoir une grande redondance au niveau de nos processus moléculaires (familles multigéniques, épissage alternatif, etc.).

Un grand désert… Seulement 1.5 à 5% de notre génome semble contenir des régions codantes (gènes); Plus de 50% semble être constitué de régions répétées d’origine diverse (virales, transposons). C’est ce que l’on appelle l’ADN poubelle (junk DNA) ou ADN égoïste (selfish DNA); La «composition» de l’ADN poubelle est généralement spécifique à une espèce. Certaines espèces n’en ont presque pas (exemple: poisson fugu) tout en conservant le même répertoire de gènes; Il ne semble donc pas y avoir d’avantages ou de désavantages à être colonisé d’une façon aussi massive; Il est paradoxal de penser que chaque fois qu’une de nos cellules se réplique, plus de 50% du travail de duplication de l’ADN est probablement inutile!

Nous sommes tous atteints de maladies génétiques Actuellement sur 18,000 gènes humains «connus», 1,600 sont associés à des maladies génétiques Il s’agit dans la plupart des cas de maladies «simples» (par opposition avec des maladies multifactorielles); Il est possible que plus de la moitié de nos gènes puissent être les «vecteurs» de maladies génétiques et ceci malgré la grande redondance de notre génome; Nous sommes sûrement tous porteurs de «défauts» plus ou moins graves.

Le concept de maladie génétique est relatif L’anémie falciforme Maladie causée par la mutation d’un acide aminé de la chaine béta de l’hémoglobine. Cette mutation cause un changement dans la forme de la protéine et indirectement celle du globule rouge (forme de faucille) Les individus porteurs de deux copies modifiées du gène (homozygotes) sont malades et meurent généralement dans leur jeune âge, les individus porteurs d’une seule copie modifiée (hétérozygotes) sont porteurs, mais sains.

Fréquence de la mutation de l’anémie falciforme La présence de cette mutation est protectrice contre le paludisme, car elle empèche le parasite (Plasmodium) de pénétrer dans les globules rouges

Les pathogènes ont contribués et continuent à contribuer à notre évolution Chacun d’entre nous est le produit d’une lignée ininterrompue de succès. Tous nos ancêtres ont survécu en tout cas jusqu’au moment où ils ont pu transmettre leurs gènes; Notre système immunitaire est le résultat de millions d’années d’évolution; Chaque pathogène contribue à notre selection.

La vie, ennemie de la perfection Aucun phénomène biologique ne peut être parfait sous risque de faire courir à l’organisme le danger de disparaître; L’exemple de la réplication de l’ADN: s’il y a des erreurs, il y a des risques graves pour l’individu. Mais si la copie est parfaite, il y a peu de possibilités d’évoluer et donc de pouvoir survivre à un changement du paysage évolutionnaire; Corollaire: plus l’individu est sujet à des changements environmentaux, plus il aura tendance à avoir un système de réplication permettant des erreurs. L’exemple extrême sont les virus: SARS, SIDA, etc.

Génome et médecine Il est évident que beaucoup de choses seront petit à petit possibles. Par exemple: Diagnostique précoce et guérison des cancers; Thérapie génique pour corriger les «défauts» associés aux maladies génétiques; Individualisation de la pharmacopée: déterminer le médicament adéquat et la dose optimale qui correspond au métabolisme personnel du malade; Réparation des lésions de certains tissus. Examples: réparation du muscle cardiaque, guérison de la paraplégie/tétraplégie; Développement d’antibiotiques et d’antiviraux très ciblés.

Le revers de la médaille La médecine post-génomique sera chère: Qui va décider des priorités (labos pharmaceutiques ou organismes publiques comme l’OMS); Comment va-t-on payer pour cette médecine de «luxe»; L’utilisation accrue de tests de dépistage de maladies génétiques risque de poser un problème grave au système des assurances.

Données génomiques et bioterrorisme Depuis deux ans la question se pose de savoir s’il faut permettre l’accès libre aux informations sur les séquences d’organismes pathogènes

Quelques conclusions Nous en sommes seulement à l’étape préliminaire de l’exploration des génomes; Une quantité gigantesque d’information va s’accumuler dans les prochaines années; Transformer l’information en connaissance va être le challenge essentiel que devront relever les chercheurs des sciences de la vie; Communiquer au grand publique les enjeus de cette fantastique aventure est aussi primordial. Il faut pouvoir apaiser les craintes des uns et les attentes démesurées des autres.

The Swiss-Prot staff at SIB and EBI Group leaders: Amos Bairoch, Rolf Apweiler Annotators/curators: Andrea Auchincloss, Kristian Axelsen, Kirsty Bates, Margaret Biswas, Marie-Claude Blatter Garin, Brigitte Boeckmann, Silvia Braconi Quintaje, Paul Browne, Eveyl Camon, Danielle Coral, Elisabeth Coudert, Tania de Oliveira Lima, Kirill Degtyarenko, Sylvie Dethiollaz, Anne Estreicher, Livia Famiglietti, Nathalie Farriol-Mathis, Stephanie Federico, Serenella Ferro, Gill Fraser, John Garavelli, Raffaella Gatto, Vivienne Gerritsen, Arnaud Gos, Nadine Gruaz-Gumowski, Ursula Hinz, Chantal Hulo, Nicolas Hulo, Janet James, Florence Jungo, Vivien Junker, Youla Karavidopoulou, Maria Krestyaninova, Kati Laiho, Minna Lehvaslaiho, Michele Magrane, Karine Michoud, Virginie Mittard, Madelaine Moinat, Nicola Mulder, Claire O'Donovan, Sandra Orchard, Sandrine Pilbout, Sylvain Poux, Manuela Prüss, Sorogini Reynaud, Catherine Rivoire, Bernd Röchert, Michel Schneider, Christian Sigrist, André Stutz, Shyamala Sundaram, Michael Tognoli, Elmar von Baum, Sandra van den Broek, Eleanor Whitfield Programmers and system administrators: Daniel Barrell, David Binns, Laurent Bollondi, Sergio Contrino, Michael Darsow, Edouard deCastro, Séverine Duvaud, Alexander Fedetov, Astrid Fleischmann, Wolfgang Fleischmann, Elisabeth Gasteiger, Alain Gateau, Andre Hackmann, Henning Hermjakob, Ivan Ivanyi, Eric Jain , Alexander Kanapin, Paul Kersey, Ernst Kretschmann, Corinne Lachaize, Maria-Jesus Martin, Xavier Martin, John O ’Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow, Nicole Redaschi, Kai Runte, Florence Servant, Allyson Williams, Dan Wu Research staff: Pavel Dobrokhotov, Alexandre Gattiker, Margus Luk, Anne Morgat, Anne-Lise Veuthey Clerical and secretarial assistance: Veronique Mangold, Claudia Sapsezian, Margaret Shore-Nye, Laure Verbregue