La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome.

Présentations similaires


Présentation au sujet: "Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome."— Transcription de la présentation:

1 Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome de Brucella melitensis Christophe Lambert Unité de Recherche en Biologie Moléculaire FUNDP FUNDP, 26 septembre 2003, Namur

2 Introduction Buts Développement de ESyPAliNN Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

3 Brucella sp. Bactérie Gram négative ( -proteo bactérie) Pathogène intracellulaire facultatif danimaux (stérilité et avortement) et des humains (fièvre de Malte ou brucellose). Zoonose mondiale. 6(8?) espèces sont définies Les génomes de deux espèces sont séquencés (Brucella melitensis et Brucella suis) Génome de Brucella melitensis 2 chromosomes ( bp et bp) 3197 protéines déduites (fonction assignée par similarité: 2487)

4 valine (V)leucine (L)méthionine (M) phénylalanine (F)tyrosine (Y) isoleucine (I) tryptophane (W) glycine (G) Protéines Grande partie du poids sec des êtres vivants Hétéropolymères dacides aminés

5 Introduction Structure 3D: information importante pour mieux comprendre la fonction dune protéine les interactions avec des ligands ou dautres protéines planifier de la mutagenèse dirigée Nombre de structures connues (~15.000) est plus petit que le nombre de séquences connues (~ ) Techniques expérimentales: longues et coûteuses Alternative: modélisation

6 Modélisation par homologie ou comparative modeling Recherche en banque de données PDB template Etape critique Construction du modèle 3D Evaluation du modèle Alignement Cible-template

7 MAO B (PDB ID: 1gos) MAO B (template: 1f8r, LAAO) 21

8 Modélisation par homologie Recherche en banques de séquences de structures connues Score E Sequences producing significant alignments: (bits) Value pdb|1YUB Solution Structure Of An Rrna Methyltransferase e-09 pdb|1QAN Chain A, The Structure Of The Rrna Methyltransfe e-08 pdb|1G6Q Chain 1, Crystal Structure Of Yeast Arginine Met pdb|1EI1 Chain A, Dimerization Of E. Coli Dna Gyrase B Pr pdb|3HDH Chain A, Pig Heart Short Chain L-3-Hydroxyacyl C pdb|1PSZ Chain A, Pneumococcal Surface Antigen Psaa pdb|1VID Catechol O-Methyltransferase DIM1p (Saccharomyces cerevisiae) MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVVLEVGPGTGNL TVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELPYFDICISNTPYQISSPLVFK LINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSANVQMWANVTHIMKVGKNNFRPPPQVESSVVRLE IKNPRPQVDYNEWDGLLRIVFVRKNRTISAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEK IDTVLKETDLGDKRAGKCDQNDFLRLLYAFHQVGIHF

9 Modélisation par homologie Alignement cible-template DIM1p MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV 1YUB MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV DIM1p LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP 1YUB YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ DIM1p YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN 1YUB NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL DIM1p VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI 1YUB LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK---- DIM1p SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC 1YUB WVNREYRQLFTKN QFHQAMKHAKVNN--LSTI DIM1p DQNDFLRLLYAFHQVGIHF 1YUB TYEQVLSIFNSYLLFNGR- %id. = 18%

10 DIM1p...LEVGPGTGNLTVRILEQAKNV... 1YUB...YEIGTGKGHLTTKLAKISKQV... YE I G T GK G H L Modélisation par homologie Assignation des coordonnées 1YUB

11 DIM1p... L EVGPGTGNLTVRILEQAKNV... 1YUB... Y EIGTGKGHLTTKLAKISKQV... LE I G T GK G H L Modélisation par homologie Assignation des coordonnées

12 DIM1p...L E VGPGTGNLTVRILEQAKNV... 1YUB...Y E IGTGKGHLTTKLAKISKQV... LE I G T GK G H L Modélisation par homologie Assignation des coordonnées

13 DIM1p...LE V GPGTGNLTVRILEQAKNV... 1YUB...YE I GTGKGHLTTKLAKISKQV... LE V G T GK G H L Modélisation par homologie Assignation des coordonnées

14 DIM1p...LEV G PGTGNLTVRILEQAKNV... 1YUB...YEI G TGKGHLTTKLAKISKQV... LE V G T GK G H L Modélisation par homologie Assignation des coordonnées

15 DIM1p...LEVG P GTGNLTVRILEQAKNV... 1YUB...YEIG T GKGHLTTKLAKISKQV... LE V G P GK G H L Modélisation par homologie Assignation des coordonnées

16 DIM1p...LEVGP G TGNLTVRILEQAKNV... 1YUB...YEIGT G KGHLTTKLAKISKQV... LE V G P GK G H L Modélisation par homologie Assignation des coordonnées

17 DIM1p...LEVGPG T GNLTVRILEQAKNV... 1YUB...YEIGTG K GHLTTKLAKISKQV... LE V G P GT G H L Modélisation par homologie Assignation des coordonnées

18 DIM1p...LEVGPGT G NLTVRILEQAKNV... 1YUB...YEIGTGK G HLTTKLAKISKQV... LE V G P GT G H L Modélisation par homologie Assignation des coordonnées

19 DIM1p...LEVGPGTG N LTVRILEQAKNV... 1YUB...YEIGTGKG H LTTKLAKISKQV... LE V G P GT G N L Modélisation par homologie Assignation des coordonnées

20 DIM1p...LEVGPGTGN L TVRILEQAKNV... 1YUB...YEIGTGKGH L TTKLAKISKQV... LE V G P GT G N L Modélisation par homologie Assignation des coordonnées

21 Modélisation par homologie Assignation des coordonnées DIM1p...LEVGPGTGNLTVRILEQAKNV... 1YUB...YEIGTGKGHLTTKLAKISKQV... LE V G P GT G N L Modèle de DIM1p

22 Alignement pairé: la plupart des caractéristiques bien prédites Alignement multiple: beaucoup de caractéristiques bien prédites Twilight zone Midnight zone reconnaissance de fold (pas très fiable) Modélisation par homologie (fiable) Protéines pas nécessairement homologues MAIS des protéines de séquences différentes peuvent adopter le même fold %id. Combinaison dalignements et données expérimentales quelques caractéristiques bien prédites

23 Sensibilité (%) Sélectivité (%) 10/535 10/10 10/20 10/100 1/1 1/2 1/10 5/5 5/10 5/

24

25

26 Introduction Buts Développement de ESyPAliNN Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

27 Buts Développer une méthode fiable dalignement pairé de séquences Développer un programme de modélisation automatique par homologie Prédire la structure 3D des protéines déduites du génome de Brucella melitensis

28 Introduction Buts Développement de ESyPAliNN Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

29 Thompson J.D. et al. Nucleic Acids Res. 27(13): (1999) Aucun programme nest meilleur que les autres La qualité de lalignement dépend de lensemble de séquences (séquences similaires, divergentes, courtes, longues,...) Il y a des erreurs systématiques lorsquon aligne des séquences dans la twilight zone (20-30% didentité) Limites de lalignement multiple Briffeuil P. et al. Bioinformatics 4: (1998) Le consensus de plusieurs méthodes augmente la sélectivité Lambert C. et al. Current Genomics 4: (2003) La combinaison de plusieurs méthodes peut augmenter la précision

30 Deux séquences ESyPAli Expert System for Pairwise Alignment PSI-BLAST Etape 1 Etape 2 Ensemble A Ensemble B PURGE Etape 3 MultalinT-COFFEEDialign2ClustalW Match-Box Extraction des alignements pairés

31 ESyPAli Etape 4 Attribution dun score aux positions alignées Extraction des positions alignées Fréquence

32 Attribution dun score aux positions alignées Séquence 1 L-G: 3 L-R: 2 L-D: 1 E-D: 4 E-E: 1 E-A: 1

33 Extraction des alignements pairés ESyPAli Etape 4 Attribution dun score aux positions alignées Extraction des positions alignées Fréquence Choix de la position ayant le plus haut score comme point dancrage Elimination des positions incompatibles Points dancrage Construction de lalignement consensus final Etape 5

34 Alignements incompatibles A D L I I Y L R T S P E V A Y E L P G T N I V L G A L P E D R H 1. 2.

35 Extraction des alignements pairés ESyPAli Etape 4 Attribution dun score aux positions alignées Extraction des positions alignées Fréquence Choix de la position ayant le plus haut score comme point dancrage Elimination des positions incompatibles Points dancrage Construction de lalignement consensus final Etape 5

36 Etape 4 Extraction des alignements pairés Choix de la position ayant le plus haut score comme point dancrage Elimination des positions incompatibles Points dancrage Attribution dun score aux positions alignées Extraction des positions alignées Construction de lalignement consensus final Etape 5 Réseau neuronal ESyPAliNN

37 Entraînement du réseau neuronal Entrée Cachée Sortie connue Séquence 1 V Multalin I PSI-BLAST T Dialign2 I ClustalW LL Match-Box I T-COFFEE LL V Structure 1 YiYi W ik YkYk EntréeSortie

38 Utilisation du réseau neuronal Entrée Cachée Sortie Séquence 1 Y Multalin T PSI-BLAST Y Dialign2 T ClustalW WW Match-Box T T-COFFEE WW Y Séquence 1

39 Résultats de lévaluation sur 202 alignements pairés ProgrammeSensibilité (%)Sélectivité (%) Alignement de structures 100,0100,0 MULTALIN 25,5 44,0 MATCHBOX 27,1 27,8 DIALIGN2 33,9 48,1 PSIBLAST 35,2 47,8 CLUSTALW 35,9 29,2 T-COFFEE 37,5 47,4 ESyPAli 44,2 36,8 ESyPAliNN 46,8 38,9 % identité inférieur à 36 % %ID moyen = 20%

40 Alignement pairé Conclusions ESyPAli Combinaison efficace dalignements ESyPAliNN Utilisation de réseaux neuronaux Alignements de meilleure qualité

41 Introduction Buts Développement de ESyPAliNN Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

42 ESyPred3D Expert System to Predict 3D structures of proteins C. Lambert et al., Bioinformatics, 18(9): (2002) PSI-BLAST, nr (NCBI) MODELLER v6.2 PDB template ESyPAliNN Alignement Cible-template Procheck Séquence cible Structure cible prédite Résultat Entrée

43 Qualité de létape ESyPAli au concours CASP4 C. Lambert et al., Bioinformatics, 18(9): (2002)

44 ESyPred3D EVA Système dévaluation continue de serveurs de modélisation par homologie (catégorie CM) 853 modèles de janvier à juin 2003 ESyPred3D, 3D-Jigsaw, Swiss-Model

45 ESyPred3D CASP5 ESyPred3D parmi les 10 meilleurs serveurs évalués (sur 55) ESyPred3D dans le top 40 (si modélisateurs humains + serveurs (180)) Améliorer possible de la sélection du template

46 ESyPred3D Conclusions ESyPred3D est un des meilleurs serveurs de modélisation Performances dues essentiellement à ESyPAliNN

47 Introduction Buts Développement de ESyPAli(NN) Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

48 Prédiction (détermination) de structures 3D à léchelle dun génome 1) Structure (prédite) accessible Ingénierie, hypothèses mutations 2) Recherche de sites actifs Aide à la détermination de fonction 3) Screening (docking) de petites molécules Recherche de cibles pour antibiotiques Banque de données structurales Intérêt

49 Banque de données Qualité des données Problème définition de la position des codons start des pCDS de Integrated Genomics Inc. ----> Correction: consortium de spécialistes de Brucella Fonction prédite par similarité: BLAST/Swiss-Prot et hmmer/Pfam Localisation cellulaire: PSORT Prédiction des structures secondaires: PSI-PRED2 Application de ESyPred3D aux protéines déduites du génome de Brucella melitensis

50 Centraliser les informations à propos du génome de Brucella Fournir des prédictions pour faciliter lannotation et la rendre plus fiable Corriger les informations de la base de données suivant les modifications des utilisateurs Effectuer des recherches avancées Aider à coordonner des corrections à léchelle génomique Intégrer des données biologiques pertinentes Objectifs atteints de la banque de données

51 Introduction Buts Développement de ESyPAli(NN) Développement de ESyPred3D Base de données Brucella melitensis Conclusions / perspectives Plan

52 Conclusion Développement dune méthode fiable dalignement pairé de séquences Utilisation de ce nouveau programme dans une méthode automatique de modélisation par homologie Développement dune banque de données structurales et fonctionnelles

53 Alignement de séquences Développer une méthode dalignement multiple Modélisation par homologie Amélioration de lidentification du template Base de données Docking de petites molécules Prédiction dinteractions protéine-protéine Perspectives

54 Remerciements Eric Depiereux Guy Baudoux Monique Nadia Johan Katalin et Bernard Nicolas et Isabelle Marc Marti-Renom (UCSF) Volker Eirich (Columbia) Ernest Feytmans (SIB) Benjamin URBM Aïko et Etienne Xavier Jean-Jacques Jean VDH Labo CMS Labo CTA Parents


Télécharger ppt "Développement dune méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par homologie et application au protéome."

Présentations similaires


Annonces Google