du génome aux protéomes « in silico »

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Un aperçu de la bioinformatique moléculaire
Le séquençage à grande échelle au Genoscope
Les numéros 70 –
Transcription de l’ADN
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Master Génie Biologique et Informatique, première année
Les logiciels de visualisation moléculaire
Initiation à la bioinformatique
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Les questions médicales et éthiques posées par les tests génétiques
Révision (p. 130, texte) Nombres (1-100).
ADN.
LA SYNTHÈSE DES PROTÉINES
Bioinformatique =?? génomique protéomique
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
L’EPISSAGE ALTERNATIF DE L’ARN
La Régulation génétique chez les Procaryotes
LES BASES MOLÉCULAIRES DE L’HÉRÉDITÉ DU GÈNE À LA PROTÉINE
Classification Multi Source En Intégrant La Texture
Présentation générale
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Les nombres.
TP 5 Du génome au protéome
La transcription.
Les chiffres & les nombres
Bi 231: Ingénierie des Protéines
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Institut Suisse de Bioinformatique
Bienvenue ! Bonjour à tous et bienvenue
La méthode enzymatique de séquençage, dite de (Sanger; didésoxy)
LA SYNTHÈSE DES PROTÉINES
Les maths en francais 7ième année.
L’arbre du vivant.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Introduction à la bioinformatique
Cours des Acides Nucléiques
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Aire d’une figure par encadrement
La banque UniprotKB et le logiciel Blast
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
printemps des sciences
Annexe Résultats provinciaux comparés à la moyenne canadienne
Introduction à la Bioinformatique (2)
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Module 2 Biologie cellulaire, ADN et protéines
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
CHMI 2227F Biochimie I Expression des gènes
Banques de données en bio-informatique
Institut Universitaire de Technologie de Clermont-Ferrand
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
RASAHOLIARISON Nomena Interne 1 er semestre en Neurologie USFR Neurologie CHU-JRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO Cours du 01 avril 2015.
Bio-Informatique Analyse de séquences nucléotidiques
De l’ADN à la Protéine : Transcription et Traduction
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Plan du cours 1. Introduction 2. L’eau 3. Les acides aminés, les peptides et les protéines 4. La structure tridimensionnelle des protéines 5. Exploration.
Transcription de la présentation:

du génome aux protéomes « in silico » Bioinformatique Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

La bioinformatique, c’est quoi ? L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants.

Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données; Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Bioinformatique - application 1: acquisition de données Exemples: lecture d’images de gels 2D, spectrométrie de masse (MS), séquençage ADN... Détection de signaux ou d’images Absence de contexte biologique.

Informatique instrumentale Séquençage d’ADN Informatique instrumentale Programme pour analyser les données d’un séquenceur ADN Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.

Bioinformatique - application 2: Assemblage des séquences d’ADN Nature 409, 860-921 (2001) Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp !

Bioinformatique - application 2: Assemblage des séquences d’ADN -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome (« contig ») à partir de séquences de 1000 bp; Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives. Chromosome Y trop de répétition: impossible de séquencer plusieurs individus (différences repeat polymorphismes) “Celera-generated shotgun data set consisted of 27 million sequencing reads …” Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7):1916-21 (2004)

2.7 milliards de $ (coût en 2000) CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Génome humain 3.2 milliards de pb 2.7 milliards de $ (coût en 2000) 100 $ (coût en 2008 ?)

Le génome humain (3ème version) contient actuellement encore 341 « trous » (essentiellement vers les centromères/télomères, régions répétitives) Nature (oct 2004), 431, 931

Contenu des banques de données de séquences en acides nucléiques EMBL/GenBank/DDBJ http://www.ebi.ac.uk/embl/index.html Octobre 2004 Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine http://www3.ebi.ac.uk/Services/DBStats/

constamment remis à jour ! Tous ces sites sont constamment remis à jour ! http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi http://www.ncbi.nlm.nih.gov/Genomes/index.html

Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Détection des régions codantes (gènes) Problème assez facile chez les bactéries; très difficile chez les eucaryotes “supérieurs” (homme, drosophile, etc.); Chez l’homme: moins de 5 % du gènome est « codant » (transcrit en mARN). Techniques diverses: recherche de signaux, approches statistiques (biais des codons); similarité avec des séquences connues….

Recherche de « signaux » dans une petite partie du promoteur Premiers exons TATA box GC et CAT box Région régulatrices Recherche de « signaux » dans une petite partie du promoteur d’une protéine (apo AII)

Une séquence ADN de C.elegans) (~25’000 bp) …

Approche 1: Genebuilder http://l25.itba.mi.cnr.it/~webgene/genebuilder.html

Schéma récapitulatif 5 ’ 3 ’ Genebuilder prédiction 2 3 1 4 exons 1 2 1083 1003 1305 1406 1452 1661 1914 1997 2 3 1 4 5 ’ 3 ’ exons 1 2 3 4 ADN génomique Splicing / Epissage « in silico » 1 2 3 4 mARN mature EST => cDNA

Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Qu’est-ce qu’un BLAST ? Qu’est-ce que les ESTs ? Approche 2: Aligner la séquence génomique avec des mARNs (BLAST contre ESTs) Qu’est-ce qu’un BLAST ? Outil informatique très efficace, permettant de faire des recherche de similarité à partir d'une séquence (protéine ou nucléique) sur les séquences existantes (banques de données) Qu’est-ce que les ESTs ? “Expressed sequence tags” : cDNAs (mARNs) qui ont été rapidement séquencés, souvent incomplets. -> Très utiles pour connaître les régions génomiques “actives” (transcrites) et la structure des gènes. (~24 mo de séquences “publiques”; 6 mo (homme))

http://www.ncbi.nlm.nih.gov/BLAST/

Approche 2: Aligner la séquence génomique avec des mARNs (BLAST contre ESTs) Intron ?

Mature mARN (-> EST) exons 1 2 3 4 gDNA Splicing 1 2 3 4 Mature mARN (-> EST) EST => cDNA

Séquence codante de notre « gène » 1083 1003 1305 1406 1452 1661 1914 1997 2 3 1 4 Séquence codante de notre « gène » (sans les introns = correspondant au mARN)

Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLASTN) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

Les 3 phases de lecture…

Traduction avec « traduction multiple » http://www. infobiogen Met Stop

Recherche de similarité (contre les séquences de protéines déjà connues: BLAST)

Conclusion de l’analyse La séquence de la protéine est MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIR WTVLHRIKNKKGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQT EDFRRQQREQAAKIAKDANKAVRAAKAAANKEKKASQPKTQQKTAKNVKT AAPRVGGKR Bonne prédiction par tous les logiciels, bons ESTs Notre gène inconnu est en fait déjà connu: il code pour une protéine ribosomale de type L24.

Des cas moins idéaux… Ex: Chromosome 21

Combien de protéines humaines ? Banques de données de séquences de protéines: (Swiss-Prot + TrEMBL = UniProt) 11’415 + 44’860  22’000 Estimation du nombre de gènes humains: 20’000-25’000 MS proteomics has verified more than 10% of human genes products, but has not identified significant numbers of unpredicted proteins (Southan C, Proteomics, 2004) En cours: « peptide mapping » du génome, R. Aebersold, 21 % protéines humaines « vérifiées »….

-> ~ 1’200’000 protéines (estimation) http://www.expasy.org/sprot/

C’est pas fini…

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

http://www.expasy.org/

Séquence d’une protéine « inconnue » de C.elegans >seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Déterminer les caractéristiques physico-chimiques http://www.expasy.org/tools/protparam.html

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Localisation subcellulaire ? PSORT II

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires (TM); Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Résumé des différents résultats obtenus par différents programmes de prédiction de TM grande boucle HMMTOP 1 in 1130 PSORT II 1 1130 TMpred 1 in 1130 TMHMM 1 out 1130

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

http://www.expasy.org/prosite/

Recherche des régions fonctionnelles Il s’agit probablement d’une ATPase

Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (“signal séquences”, “transit peptides”); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post-traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (“low complexity sequences”);

Prédiction des sites de phosphorylation http://www.cbs.dtu.dk/services/NetPhos/ Sequence 484 ISPTTINTC 0.065 . Sequence 487 TTINTCGAI 0.029 . Sequence 499 CFDKTGTLT 0.077 . Sequence 501 DKTGTLTED 0.845 *T* Sequence 503 TGTLTEDGL 0.533 *T* Prédiction des sites de phosphorylation (Importance des données expérimentales !)

Sulfatation Sulfinator Glycosylation

Ça me semble biologique …mais reste à le prouver ! Conclucion de l’analyse in silico de notre protéine inconnue Poids moléculaire: 126 kD; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble biologique …mais reste à le prouver !

Bioinformatique - application 5: alignement de 2 séquences Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution; MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants d’oiseaux)

BLAST

« la pierre angulaire de la bioinformatique » BLAST « la pierre angulaire de la bioinformatique »

Bioinformatique - application 6: Alignement multiple Exemples: Clustal W, T-coffee tr|Q9N323 LVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGANDCAALKAAHAGISLSEAEASIA sp|Q21286|YBF7_CAEEL ITAMCDVYARMAPDQKAQLIGALQEIGAKVSMCGDGANDCAALKAAHAGISLSQAEASIA sp|Q9H7F0|ATY3_HUMAN LMLHGTVFARMAPDQKTQLIEALQNVDYFVGMCGDGANDCGALKRAHGGISLSELEASVA sp|Q9NQ11|ATY1_HUMAN VLVQGTVFARMAPEQKTELVCELQKLQYCVGMCGDGANDCGALKAADVGISLSQAEASVV sp|O74431|ATC9_SCHPO ILLKAQIFARMSPSEKNELVSCFQNLNYCVGFCGDGANDCGALKAADVGISLSEAEASVA sp|Q12697|ATC9_YEAST ILLNSSIYARMSPDEKHELMIQLQKLDYTVGFCGDGANDCGALKAADVGISLSEAEASVA : ::***:*.:* *: :*.: *.:********.*** *. *****: ***:.

Alignement multiple et dendogramme Exemple d’un dendrogramme obtenu à partir d’un résultat de CLUSTALW à l’aide du programme « phylodendron »   http://www.es.embnet.org/Doc/phylodendron/treeprint-form.html

Bioinformatique - application 7: phylogénétique Reconstruction de l’évolution moléculaire des familles de protéines; Reconstruction de l’évolution des espèces; création d’arbres taxonomique; Reconstruction de l’évolution des chemins métaboliques.

Computational Challenges from the Tree of Life The biology community has embarked on an enormously ambitious project, the assembly of the Tree of Life -- the phylogeny of all organisms on this planet. This project presents a true computational grand challenge: - current phylogenetic methods can barely handle a few hundred organisms. yet the Tree of Life has an estimated 10-100 million organisms. November 8, 17:15, EPFL INM 202 Bernard Moret University of New Mexico Albuquerque, USA

Bioinformatique - application 8 analyse de la structure secondaire & modélisation des protéines MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC ? Structure d’une protéine Séquence d’une protéine

Bioinformatique - application 8 analyse de la structure secondaire & tertiaire des protéines Détermination de la structure tertiaire à partir de la séquence (“ab-initio”); problème non-résolu ! Prédiction de la structure secondaire (hélices…) Modélisation par homologie: prédire la structure d’une nouvelle protéine ressemblant à une dont la structure est déjà connue; en plein développement… Programme de visualisation pour la structure 3D Prédiction de “docking” entre protéines ou entre une protéine et une petite molécule (« drug design »)

Exemple de données de cristallographie aux rayons X Coordonnées atomiques - données expérimentales CRYST1 42.700 41.700 73.000 90.00 104.60 90.00 P 21 2 12CA 82 ORIGX1 1.000000 0.000000 0.000000 0.00000 12CA 83 ORIGX2 0.000000 1.000000 0.000000 0.00000 12CA 84 ORIGX3 0.000000 0.000000 1.000000 0.00000 12CA 85 SCALE1 0.023419 0.000000 0.006100 0.00000 12CA 86 SCALE2 0.000000 0.023981 0.000000 0.00000 12CA 87 SCALE3 0.000000 0.000000 0.014156 0.00000 12CA 88 ATOM 1 N TRP 5 8.519 -0.751 10.738 1.00 13.37 12CA 89 ATOM 2 CA TRP 5 7.743 -1.668 11.585 1.00 13.42 12CA 90 ATOM 3 C TRP 5 6.786 -2.502 10.667 1.00 13.47 12CA 91 ATOM 4 O TRP 5 6.422 -2.085 9.607 1.00 13.57 12CA 92 ATOM 5 CB TRP 5 6.997 -0.917 12.645 1.00 13.34 12CA 93 ATOM 6 CG TRP 5 5.784 -0.209 12.221 1.00 13.40 12CA 94 ATOM 7 CD1 TRP 5 5.681 1.084 11.797 1.00 13.29 12CA 95 ATOM 8 CD2 TRP 5 4.417 -0.667 12.221 1.00 13.34 12CA 96 ATOM 9 NE1 TRP 5 4.388 1.418 11.515 1.00 13.30 12CA 97 ATOM 10 CE2 TRP 5 3.588 0.375 11.797 1.00 13.35 12CA 98 ATOM 11 CE3 TRP 5 3.837 -1.877 12.645 1.00 13.39 12CA 99 ATOM 12 CZ2 TRP 5 2.216 0.208 11.656 1.00 13.39 12CA 100 ATOM 13 CZ3 TRP 5 2.465 -2.043 12.504 1.00 13.33 12CA 101 ATOM 14 CH2 TRP 5 1.654 -1.001 12.009 1.00 13.34 12CA 102 ……. http://www.rcsb.org/pdb/

Programme de visualisation de la structure tridimentionnelle (Chime, Rasmol, PDB viewer…) Interaction entre un facteur de transcription (dimère) et l’ADN

C’est beau…mais y a du boulot !

HIV: exemple d’application de la bioinformatique 1984: identification du virus; 1985: séquençage du génome de HIV-1 ; (4 laboratoires dont Montagnier/France et Gallo (USA) (??)) 1985-1989: caractérisation des protéines; 1989: structure X-ray de la protéase; 1990: premiers inhibiteurs modélisés à partir de la structure 3D de la protéase Novembre 1995: premier médicament (Invirase) approuvé par la FDA (trithérapie).

Structure 3D de la protease de HIV

Structure 3D de la protease de HIV + inhibiteur

Conclusions Extraordinaire potentiel de la bioinformatique… mais ne elle ne remplace(ra) pas les expériences «wet lab» génomiques, protéomiques et autres, ni l’esprit critique humain (contexte biologique) ! La bioinfo fournit des outils performants aux chercheurs… Les données expérimentales des chercheurs permettent d’améliorer les programmes bioinformatiques (prédiction)…

Avant … Après …

CPTIC 288 Explorer les génomes en classe Si vous êtes intéressés: CPTIC 288 Explorer les génomes en classe 26 novembre 2004 http://www.webpalette.ch/dyn/4207.htm Acquérir une vue d'ensemble des potentiels “éducatifs” des bases de données (issues du séquençage du génome humain notamment) http://tecfa.unige.ch/%7elombardf/projets/odyssee-genomes/

La taille des génomes (en nombre de bases) Viroide 300 Petit phage (virus infectant une bactérie) 2,000 Virus du SIDA 10,000 Virus de l’herpès 150,000 Mycoplasma genitalium (bactérie parasite) 600,000 Bactérie 1 à 13 millions Levure du boulanger 13 millions Drosophile (mouche) 180 millions Poisson fugu 360 millions Homme 3.2 milliards Pin 68 milliards Salamandre 81 milliards Amibe 670 milliards