Docking et Scoring
Precisions, applications Introduction Méthodes de Docking Représentations du site de liaison et du ligand Echantillonnage de l’espace des configurations du complexe récepteur-ligand Méthodes de Scoring Energie libre, affinité de liaison et scores de docking Fonctions de Score, score consensus Logiciels de docking Logiciels existants DOCK, FlexX, GOLD, LUDI, AutoDock, Glide, FRED, CDOCKER Precisions, applications
Docking et Scoring? Positionner un ligand (petite molécule) dans le site de liaison d’un récepteur de façon à optimiser les interactions avec un récepteur. Evaluer les interactions ligand-récepteur de façon à pouvoir discriminer entre les positionnements observés expérimentalement et les autres. Estimer l’affinité de liaison. complexe ligand docking scoring recepteur structure X & DG … etc
Docking à 3 composantes Représentation du site de liaison Avant docking: Représentation du site de liaison du récepteur et du ligand Pendant docking: Echantillonage de l’espace des configurations du Complexe ligand récepteur Pendant docking et scoring: Evaluation des interactions ligand-recepteur
Structure des récepteurs et descriptions des sites de liaison PDB (Protein Data Bank, www.rcsb.org/pdb/) site public de dépot des coordonnées 3D de macromolécules : enzymes + récepteurs structures crystal.: >12,000 structures, 788 ≤ 1.5 Å, 1.5 < 9,390 < 2.5 Å RMN: >450 structures, (et modèles par homologie construits à partir de séquence très similaires) Limitations des structures expérimentales (Davis et al. 2003): Localisations des hydrogènes,des molécules d'eau, et des ions métalliques Identité et localisations de certains atomes lourds (e.g., ~1/6 des N/O de Asn & Gln, et N/C de His sont incorrectement assigné dans la PDB; l'incertitude sur la position atteint 0.5 Å) Flexibilité des protéines Descriptions du site de liaison : coordonnées atomiques, surface, volume, points et distances, pharmacophores, vecteurs des liaisons, grille, potentiel électrostatique, moment hydrophobe, polaire, nonpolaire, typesd'atomes, etc.
GOLD DOCK GOLD
Espace Chimique & Structurale Drug-like: MDDR (MDL Drug Data Report) >147,000 entrées, CMC (Comprehensive Medicinal Chemistry) >8,600 entries Non-drug-like: ACD (Available Chemicals Directory) ~3 millions entrées Litératures et bases de données , Beilstein (>8 millions composés), CAS & SciFinder CSD (Cambridge Structural Database, www.ccdc.cam.ac.uk): ~3 millions structures cristallines pour >264,000 differents composés dont >128,00 composés organiques Composés disponibles Avec ou sans exclusivité: différents fournisseurs Base de données Corporates: Quelques millions dans les grandes industries pharmaceutiques (selon) Librairie virtuelles (énumération combinatoires)
Information Structurale 3D & Descriptions des Ligands Convertisseurs 2D->3D : CORINA, OMEGA, CONCORD, MM2/3, WIZARD, COBRA. CSD: <0.1 Å pour les petites molécules, ! Structures cristallines PDB: complexes proteines ligand ~6000 entrées Atomes associés avec des distances inter- atomiques, charges, pharmacophore, etc Flexibilité: Ensemble de conformations, assemblage de fragments
Echantillonage de l’espace des configurations du Complexe ligand récepteur Appariement de descripteurs: méthodes géométriques de reconnaissance de motifs pour apparier des descripteurs du ligand et du site récepteur géométrique, chimique, propriétés pharmacophoriques, distances (paires, triplet, Tuplet) volume, vecteur, liaisons hydrogènes, hydrophobicité, charge, etc. Simulations: MD (Dynamique Moléculaire), MC (Monte Carlo) Autre: GA (algorithmes génétiques), similarité, combinaison de fragments Challenges L'espace des configurations et conformationnel des complexes récepteurs ligands est trop grand pour une exploration exhaustive. On ne peut ignorer la flexibilité conformationnelle du récepteur et du ligand. Changements de conformation importants (signalisation)
Appariement de descripteurs : DOCK Compatibilités des distances entre les centres des spères et distances entre atomes lourds du ligand
Méthodes de constructions à partir de fragments Flexibilité et/ou de novo design L'Identification et le positionnement du fragment de base sont très importants Importance de l'optimisation de l'énergie pendant ou après le docking Exemples Construction incrémentale dans FlexX avec appariement de triplet et clustering des poses pour maximiser le nombre d'interactions favorables Ludi : croissance et/ou connection à partir de librairies de fragments préconstruits et de linker Maximisation des liaisons H et des interactions hydrophobes
Simulation Moléculaire: MD et MC Deux composantes principales: Description des degrés de liberté (Possibilité de donner une certaines flexibilité à la protéine) Evaluation de l'énergie Mouvement local des atomes Forces présentes a chaque étape en MD (Molecular Dynamics) Aléatoire en MC (Monte Carlo) Généralement consommateur de temps: Recherche de configuration de basse énergie à partir d'une configuration de départ Plusieurs simulations avec différentes orientations de départ pour obtenir un échantillonnage significatif. Grille d'énergies précalculées. Pas de calcul plus grand (MD), poses de départ multiple.
Docking par Monte Carlo T est réduite selon une procédure de refroidissement, une grille peut être utilisée pour les calculs d'énergie. Comparé à des méthodes à base de gradients, MC ne nécessite qu'une simple fonction d'énergie. Ne requiert pas le calcul de dérivées. Possibilité de franchir des barrières d'énergies.
Docking par algorithme génétique Une fonction fitness (valeur sélective) est utilisée pour décider quels individus (configurations) survivent et produisent des descendants pour la prochaine génération d'optimisation. Les degrés de liberté sont encodés sur des gènes composées de chaines binaires. On assigne une fitness basée sur une fonction de score a une collection de gènes (chromosome) Il y a 3 opérateurs génétiques : L'opérateur de mutation change aléatoirement les valeurs des gènes; Le crossing-over provoque un échange d'un ensemble de gène entre parents L'opérateur de migration déplace des chromosomes d'une sous population à une autre. Requiert la génération d'une population (100) initiale alors que les méthodes traditonnelles MC et MD requièrent une seule ou quelques (10) structures de départ Grande puissance d'exploration, dérive génétique, réglage des paramêtres délicat GOLD (Jones et al. 1997)
Fonctions de score Estimation rapide et simplifiée des énergies de liaison scores <-> DGbinding Structure X -scores ? configurations du complexe
Types de fonctions de score Basées sur les Champs de Force: terme d'interactions non liés, parfois combiné avec des termes pour la solvatation. Empirique: régressions multiples pour ajuster les coefficients de fonctions basées sur la physique du sytème. Ajustement à partir d'un jeu de données de complexes récepteurs-ligands avec des affinités mesurées. Knowledge-based: potentiels statistiques de paires d'atomes tabulées à partir des exemples issues des bases structurales Autre: scores et/ou filtres basés sur de propriétés chimiques, pharmacophore, contacts, Complémentarité de forme Fonction de score Consensus
Scoring basé sur les champs de force e.g. AMBER FF dans DOCK Avantages Les termes des FFs sont bien étudiés et ont une base physique Transférable, rapides si utilisés sur une grille précalculée Désavantages Ne tient compte que d'une part de l'énergie , énergies potentielles. Parfois augmentée par des termes de solvatation et d'entropie L'électrostatique est souvent surestimée problêmes pour triés les différents complexes
Fonctions de score empiriques LUDI & FlexX (Boehm 1994) Buts: reproduire les valeur expérimentales des énergies de liaison avec le minimum global de la fonction pour les coordonnées de la structure X expérimentale. Avantages: estimation rapide et directe de l'énergie de liaison Désavantages Il existe peu de complexes avec à la fois des structures et des énergies de liaison Connues précisément Discordances entre mesures d'affinité entre laboratoires (variabilité) Forte dépendance sur l'orientation des atomes d'hydrogène Forte dépendance au jeu d'apprentissage Pas de véritables pénalités pour les mauvaises structures
Potentiels Knowledge-based ou Potentiels of Mean Force (PMF) Suppositions Un complexe crystallographique observé représente le placement optimum des atomes du ligand par rapport aux atomes du récepteur. L'ypothèse de Boltzmann convertis les fréquences de trouver l'atome A du ligand a une distance r de l'atome B du récepteur en une énergie d'interaction entre A et B en fonction de la distance r . w(r) = -kT ln g(r) g(r) = distribution de fréquence w(r) = Energie libre relative ou PMF Avantages Similaire aux méthodes empiriques, mais plus général (Il existe beaucoup plus de données d'interdistances que d'énergies de liaison expérimentales ) Désavantages L'ypothèse de Boltzmann provient des statistiques de liquides spatiallement uniformes, le complexe réceteur-ligand est un milieu à 2 composantes non uniforme Les PMF sont "pairwise", alors que la probabilité de trouver les atomes A and B à une distance r n'est pas "pairwise" et dépends aussi des autres atomes
Consensus Scoring Il existe beaucoup de fonctions de score , elles sont globalement plus ou moins équivalentes en terme de prédictivité, mais pas forcément sur les mêmes complexes Approches combinées: une fonction de score pour l'échantillonage l'autre pour optimiser et/ou scorer Globalement ces scores consensus réduisent les faux positifs
Logiciels de docking de novo design tools DOCK: (Kuntz et al. 1982) DOCK 4.0 (Ewing & Kuntz 1997) AutoDOCK (Goodsell & Olson 1990) AutoDOCK 3.0 (Morris et al. 1998) GOLD (Jones et al. 1997) FlexX: (Rarey et al. 1996) GLIDE: (Friesner et al. 2004) ADAM (Mizutani et al. 1994) CDOCKER (Wu et al. 2003) CombiDOCK (Sun et al. 1998) DIVALI (Clark & Ajay 1995) DockVision (Hart & Read 1992) FLOG (Miller et al. 1994) GEMDOCK (Yang & Chen 2004) Hammerhead (Welch et al. 1996) LIBDOCK (Diller & Merz 2001) MCDOCK (Liu & Wang 1999) PRO_LEADS (Baxter et al. 1998) SDOCKER (Wu et al. 2004) QXP (McMartin & Bohacek 1997) Validate (Head et al. 1996) de novo design tools LUDI (Boehm 1992), BUILDER (Roe & Kuntz 1995) SMOG (DeWitte et al. 1997) CONCEPTS (Pearlman & Murcko 1996) DLD/MCSS (Stultz & Karplus 2000) Genstar (Rotstein & Murcko 1993) Group-Build (Rotstein & Murcko 1993) Grow (Moon & Howe 1991) HOOK (Eisen et al. 1994) Legend (Nishibata & Itai 1993) MCDNLG (Gehlhaar et al. 1995) SPROUT (Gillet et al. 1993)
Logiciels de docking: Facteurs importants Sensibilité et transférabilité des paramêtres, y compris à la configuration de départ Adaptabilité à des fonctions de scores additionnelles Capacité d'amélioration itérative des paramêtres ou protocoles à partir de nouveaux résultats Composition des jeux d'apprentissage, résultats des validations Rapidité, interface utilisateur, formats de fichier Parallélisme
FlexX (Tripos/SYBYL) Basé sur des fragments, appariement de descripteurs, scores empirique (Rarey et al. 1996) Procédures: Sélection d'un petit ensemble de fragments de base qui peuvent être positionnés en utilisant une simple fonction de score. Placement des fragments de base avec l'algorithme de pose clustering : appariement rigide de triplet de liaisons H et d'interactions hydrophobes , fonction de score de Bohm's. Construction du reste du ligand de façon incrémentale à partir des fragments restants. Conformations du ligand Modèle MIMUMBA avec pour chaque rotule des angles de torsion de basse énergie dérivée de la CSD. La structure des cycles provient de CORINA. Conformations multiples pour chaque fragment pendant la construction du ligand Variations: procédure de placement de molécules d'eau explicites dans le site pendant le docking (placement précalculés). Simulation de la flexibilité du récepteur en utilisant un petit nombre de conformations alternatives de la protéine.
GOLD GA, appariement de liaisons H, scoring champ de force(Jones et al. 1997) Une configuration est représentée par deux chaines binaires: la conformation du ligand et de la protéine définie par les angles de torsion; Un appariement entre les HBD et HBA de la protéine et du ligand. Pour l'évaluation de la fitness, une structure 3D est générée à partir de la représentation chromosomique, les HBD et HBA sont ensuite superposées aux positions précalculées sur le récepteur. Fitness (score) : liaison H, énergie interne du ligand, énergie de van der Waals des interactions protéine ligand Certains hydrogènes polaires du récepteur peuvent bouger. La flexibilité du ligand est totale, torsions biaisées par des données statistiques de la CSD: La génération de la structure est biaisée vers la production de liaisons H inter-moléculaire. Possibilité d'incorporer des contraintes : Distance, liaison H (protéine ou ligand ou les deux), fragment, similarité Des points d'ancrage hydrophobes on été ajoutés. Jeu de données de validation : 100 complexes, 66 avec rmsd<2A.
prediction with significant errors (1EAP – a succinylaminophosphonate ligand docked into an antibody): good prediction (4PHV - a peptide-like ligand docked into HIV protease): prediction that was wrong (1ICN - oleate docked into a fatty-acid binding protein): close prediction (1GLQ - a nitrophenyl-substituted peptide ligand docked into glutathione-S-transferase):
LUDI: Appariement de groupes polaires et hydrophobes Structure based drug design Calcul des sites d'interactions de la protéine et du ligand (liaison H ou hydrophobe), qui sont définis par des centres et des surfaces , à partir de : Distributions des contact non liés observés dans la CSD, Un ensemble de rêgles géométriques , Le programme GRID (Goodford 1985) qui calcule les énergies de liaison pour un atome sonde promené dans le site (grille). Ajustement du positionnement des fragments sur les sites d'interaction. Distances entre sites d'interaction sur le récepteur Appariement de triangles, Croissance et connection des fragments Base de donnée de fragments Base de donnée de linker
Précision et succès Précision du docking Reproduction du mode de liaison (X-ray crystal structures) Prediction de l'affinité de liaison (énergies libres) Tri de composés en fonction de leur affinité Augmentation du taux de hit dans le screening virtuel Facteur d'amélioration : EF Précision du docking Reproduction des structures crystallographiques avec rmsd<2A: 50-90% des structures Affinité de liaison: 1.5~2 unité log (32-100 fois, 2.05-2.73 kcal/mol) Correlation entre scores et affinités, r^2<0.3 expt. pred.
Challenges du Docking Les structures 3D de beaucoup de cibles "drugables" ne sont pas connues Identification du site de liaison, molécules d'eau explicites, pontage d'interactions par H20 Dépendance aux structures de la protéine et des ligands Source (apo, co-crystal, complexe avec un autre inhibiteur, NMR, homologie), Traitement (hydrogenes, optimisation), Flexibilité, Conformation initial, Etat de protonation Une bonne prédiction d'affinité n'implique pas forcément un bon mode de liaison Favorise les molécules plus grandes et plus compliquées Les contributons à l'énergie libre de liaison des atomes lourds du ligand saturent à ~15 atomes. Beaucoup d'interactions dont les liaisons H ne mènent pas toujours à de meilleures affinités (Kuntz et al. 1999). Des ligands similaires peuvent adopter des modes de liaison différents -> docking proteine flexible
Docking Flexible Hypothése du récepteur rigide : Re-docking : 75% de succès Cross-docking : Il existe des structures X du même récepteur avec différents ligands succès plus mitigés : 49% Adaptation, mouvement de la proteine, (parfois très faible)
Flexibilité de la protéine conformations multiples de quelques résidues Acetylcholinesterase Phe330 est flexible et agit comme une porte
Flexibilité de la protéine Mouvement d'un grand nombre de résidues Acetylcholinesterase
Flexibilité de la protéine Conséquences de la flexibilité des protéines pour la conception de ligands : Un site, plusiurs mode de liaison sont possibles Ces différences peuvent être fonctionnellement relevante Protéines impliquées dans le transport ou le métabolisme: très "promiscuous", lient beucoup de composés dans beaucoup d'orientations différentes Ex : P450
Modèle de liaison protéine ligand
Méthodes de Docking incorporant la flexibilité du récepteur Ensemble docking Docking à des structure de protéine multiples (expérimentales ou calculées) ou à des hybrides, en gérant les compatibilités entre structures Docking à une structure moyenne unique – “soft docking” construction de grille d'interaction qui incorpore l'effet de plus d'une protéine Induced fit modelling Dynamique Moléculaire et Monte Carlo