Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ L’information structurale B/ Les différentes techniques de détermination de structure C/ Les nouveaux challenges de la biologie/bioinformatique structurale II/ – Application à l’étude d’enzymes d’intérêt médical A/ Un bref aperçu de ce que l’on appelle « Drug design » B/ Recherche d’inhibiteurs d’aminopeptidases de Streptocoques C/ Relations structure-fonction d’hélicases impliquées dans les cancers
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ L’information structurale B/ Les différentes techniques de détermination de structure C/ Les nouveaux challenges de la biologie structurale II/ – Application à l’étude d’enzymes d’intérêt médical A/ Un bref aperçu de ce que l’on appelle « Drug design » B/ Recherche d’inhibiteurs d’aminopeptidases de Streptocoques C/ Relations structure-fonction d’hélicases impliquées dans les cancers
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ L’information structurale 1- Le modèle moléculaire 2- Protein Data Bank (PDB) 3 - Exploiter l’information structurale 4 - Familles de protéines 5 - Quelques définitions
1- Le modèle moléculaire
Il y a fort longtemps, notre perception du monde était déjà reliée au meilleurs outils, dépendant de l’échelle et de la résolution du moment. Les chevaux ponctués environ 25000 ans BP
Biologie structurale
- F. Crick formule « le dogme central de la biologie moléculaire » : l’ADN est le support moléculaire de l’information génétique qui s’exprime à travers les protéines, notamment les enzymes.
Unité fonctionnelle
Quel chemin parcouru … Les pionniers 1895 : Découverte des rayons X 1912 : Von Laue détermine la nature des rayons X - Diffraction par un cristal [NaCl] 1926 : Première protéine cristallisée (Sumner) : Premier cliché de diffraction des rayons X obtenu à partir d'un cristal de protéine - la pepsine - ( Bernal / Hodgkin) Naissance de la Biologie Structurale 1953 : Watson et Crick déterminent la structure de la double hélice d'ADN 1955 : Elucidation de la première séquence protéique (Insuline, Sanger) 1959 : Première structure de protéine résolue (Kendrew) myoglobine, 1200 atomes non hydrogène [Calculateur EDSAC une des toutes 1ères applications de l'informatique à la biologie] : Lien entre séquence et structure (Globines, Perutz) 1969 : Première station graphique (Evans and Sutherland ; 9 ans de recherche à l’université de l’Utah) : Méthode recherche de similarités entre les séquences de 2 protéines (Needleman & Wunsch) 1971 : Création de la Protein Data Bank (PDB) [2 structures déposées en 1972] 1974 : « Prediction of protein conformation (Chou & Fasman) 1977 : Premier package Bioinformatique (Staden) : : Bases de données ACNUC, PIR, EMBL, Genbank 1978 : Modèle atomique complet du virus de la Tomate (Harrison)
The diffraction photograph of the B form of DNA taken by Rosalind Franklin in May 1952 was by far the best photograph of its kind. Data derived from this photograph were instrumental in allowing James Watson and Francis Crick to construct their Nobel Prizewinning model for DNA.
Les ordinateurs se sont perfectionnés au fur et à mesure qu'augmentaient les besoins des biologistes. vers 1980 : Application de la RMN à la structure des macromolécules (100 résidus) ; premières modélisations moléculaires ab initio 1981 : Los Alamos_Genbank : 270 séquences, 370.000 nucléotides (environ 3 Mo) Programme d ’alignement local (Smith & Waterman) 1984 : Micro-ordinateur avec interface graphique et souris (MacIntosh) 1985 : Première protéine membranaire résolue - Centre de la réaction photosynthétique (Deisenhofer) 12000 atomes autres qu'hydrogène 1985-88 : Programme Fasta (Pearson-Lipman) et SWISSPROT (1986) 1989 : Naissance d ’Internet 1996 : La structure de la protéase du virus HIV1 contribue à la "tri-thérapie" anti SIDA 1996 : Séquence complète de la levure (consortium européen) 1997 : Structures du Nucléosome (Richmond) et du virus de la Langue Bleue 1999 : Réalisation du premier médicament luttant efficacement contre la grippe à partir de la structure de la Neuraminidase du virus 2000 : Structures des sous-unités 30 S et 50 S du ribosome 2000 : Séquençage complet du génome humain. 2001 : Structure de la RNA polymérase II 21ème siècle Vers une automatisation de la résolution des structures 3D de macromolécules Synchrotrons de 3ème génération largement dédiés à la biologie (SOLEIL) Génomique structurale ("high throughput studies") et thérapie génique … Vers la « nanoscale » et l’automatisation de toutes les étapes de résolution
Les objets complexes Virus de la Tomate 1985 : (Deisenhofer) - 2.3 Å Centre réaction photosynthétique Rhodopseudomonas virdis, 2000 : Structures des sous-unités 30 S et 50 S du ribosome (E. coli) 1978 : Virus de la Tomate (Harrisson)
2 - Protein Data Bank (PDB)
Modèle moléculaire Relations structure-fonction 25 Å Pepsine humaine et pepstatine (inhibiteur) Repliement global Détails à l'échelle des liaisons inter atomiques Image virtuelle (qui représente la réalité à une échelle agrandie) Couleurs accessoires Positions atomiques Ensemble des coordonnées x,y,z ! à la résolution d'étude Cette protéine adopte un repliement unique qui est la clé de sa fonction. Repliement auquel il faut ajouter l’information de dynamique moléculaire (interne ; évènements= liaison à substrat / inhibiteurs)
Un exemple de fichier PDB (plusieurs dizaines de pages …)
Un exemple de fichier PDB (plusieurs dizaines de pages …)
Demographics of Depositions Macromolecule Type 90% - Protein 6% - Nucleic acid 4% - Protein/Nucleic acid complexes Experimental Method 84.0% - X-Ray diffraction 15.0% - NMR 0.3% - Electron diffraction 0.1% - Neutron diffraction Geographic Region 59.7% - North America 24.8% - Europe 12.9% - Asia 2.4% - Australia/New Zealand 0.1% - South America Release Status 63% - HPUB 21% - REL 16% - HOLD
Premières protéines clonées Pionniers, dvpt méthodes 40.000 structures déposées dont 10.000 humaines (redondances) … ... des millions de protéines dans le monde du vivant On estime à environ 25000 le nombre de gènes et à 500000 celui des protéines chez l’homme, sans compter les anticorps fabriqués spécifiquement pour répondre à une situation particulière et dont le nombre est certainement de plusieurs millions. Aujourd'hui le nombre de séquences de protéines répertoriées, tout organisme confondu, avoisine les 400000 Génomique structurale Nov 2006 Premières protéines clonées Pionniers, dvpt méthodes Il reste du chemin à parcourir …
New Folds (organisation tridimensionnelle originale) 1100 « folds » de protéine (différents) connus à ce jour 90% des repliements (attendus)
http://www.rcsb.org
Une banque de données et un véritable outil de travail
SWISS-PROT : du gène à l’organisation structurale [20 ans] http://www.expasy.org/sprot/
plus de 500 bases de données génétiques et protéiques Aujourd'hui, en 2006 : plus de 500 bases de données génétiques et protéiques
3 - Exploiter l’information structurale
Fold Active site (bien souvent la structure est résumée à cela)
4 - Familles de protéines
Les structures protéiques sont classées en familles (ou superfamilles) 1100 folds de protéine sont connus, leurs combinaisons conduisent à environ 1500 familles de protéines (SCOP – CATH) la famille la plus peuplée contient environ 220 structures et seules 5 familles ont plus de 100 protéines. Génomique structurale : Les protéines regroupées dans une même famille étant structuralement similaires, partagent une fonction similaire
Variation / Sélection / Amplification Evolution Fonction Structure Séquence La génétique, puis la génomique ont ajouté à ce schéma évolutif, la nature algorithmique des séquences d'ADN. Une conséquence de cette évolution est que la structure ne dit pas la fonction, en général. Ainsi, pour comprendre ce qu'est la vie au moyen du texte des génome, il nous faudra toujours ajouter de la connaissance biologique (y compris le mode de vie des organismes considérés) à notre connaissance des génomes.
5 - Quelques définitions
Analyse d'images – Exemple de la radiocristallographie des protéines