Directeur de thèse: Didier Rognan Nathanaël Weill Conception de méthodes in silico afin de trouver de nouveaux ligands de Recepteur Couplé aux Protéines G (RCPG). Directeur de thèse: Didier Rognan Nathanaël Weill Laboratoire de la Pharmacochimie de la Communication Cellulaire LC1 - UMR CNRS/ULP 7175 Faculté de Pharmacie
RCPG récepteurs couplés aux protéines G: 30-45% des protéines cibles de médicaments. Cibles de 26 médicaments parmi les 100 les plus vendus (23.500.000.000 $/an). 30 / 366 RCPG non olfactifs humains utilisés comme cibles intérieur extérieur Membrane cellulaire +++ signal+++
Objectifs: Être capable de prédire l'interaction entre un ligand et un RCPG. ? ? ? ? ? ?
État de l'art: + = Méthode basée sur la structure (Docking): Ligand 1 seule structure 3D pour 366 RCPG. Méthode basée sur la complémentarité: Géométrique Interaction = Évaluation de la pose Structure 3D + Ligand
État de l'art (suite): Méthode basée sur le ligand: A partir des ligands connus, il s'agit de s'en "inspirer" de ces ligands pour en créer de nouveaux. Recherche de sous structure. Similarité chimique basée sur les propriétés moléculaires. Histamine (ulcère gastrique) Burimamide (1972) Cimetidine (1976)
Méthode proposée: On dispose de 366 RCPG non olfactifs. Plusieurs dizaines de milliers de ligands. Fouille de données ("Machine Learning").
Petite analogie: agence matrimoniale But: savoir si un couple proposé a des chances de marcher… Données de départ : un ensemble de couples qui a déjà été formé. Certains couples subsistent d'autres non. Méthode: Créer un modèle de règles qui va permettre de déterminer les chances d'un nouveau couple. Outils de fouille de données.
Petite analogie: agence matrimoniale Chaque personne remplit un questionnaire (qui peut être différent pour les hommes et les femmes). Chaque question est un "descripteur". Ex: âge, taille, longueur des cheveux, se maquille… Un homme Une femme Un couple + On scinde les données de départ en deux: Set d'entraînement qui sert à créer le modèle Set de test qui sert à évaluer le modèle. Création du modèle + évaluation. Évaluation de nouveaux couples
Descripteur 1 Le couple marche Le couple ne marche pas Descripteur 2
Dans notre cas… Représenter les données (vecteur) Données connues (cavité-ligand) Set d'entraînement Set de test "Learning machine" Entraînement Création de modèle Évaluation du modèle Modèle validé Données non connues (récepteurs orphelin -ligands)
Les résultats dépendent: De la quantité et la qualité des données disponibles. De la manière dont la question est posée (attribut à prévoir). De l'algorithme de fouille de données utilisé ainsi que ses paramètres. De la pertinence des descripteurs. Représentation des données. Il s'agit de créer une représentation cohérente de l'information reflétant les possibilités d'interactions. Ligands. Protéines.
Descripteurs de protéines (Cavité) Pour chaque acide aminé, un tableau de 8 cases représente les différentes caractéristiques: Donneur de liaison Hydrogène (0-1) Accepteur de liaison Hydrogène (0-1) Aromatique (0-1) Hydrophobe (0-1) Chargé positivement (0-1) Chargé négativement (0-1) Taille de la chaîne latérale (2 cases): Petite : 00 Moyenne : 01 Grande: 11 Pour la totalité de la cavité, 30 résidus sélectionnés*: 8x30 = 240 cases par RCPG. * Surgand et al. (2006). Proteins 62: 509-538.
Descripteurs de Ligand Basé sur SHED ("Shannon Entropy Descriptor") 7 propriétés : Apolaire (aP). Donneur de liaison H (D). Accepteur de liaison H (A). Aromatique (R). Chargé positivement (+). Chargé négativement (-). SHED Shannon Entropy Descriptors from Topological Feature Distributions. E. Gregori-Puigjané and J. Mestres J. Chem. Inf Model. 2006, 46, 1615-1622
Descripteurs de Ligand Assigner les propriétés aux atomes: S=0.7 E=2 21 couples de propriétés: Descripteur de 378 valeurs Descripteur de 21 valeurs
Évaluation des descripteurs Protéine: Être capable d'évaluer la similitude entre les RCPG => reconstituer les familles. Ligand: Capacité à discriminer des molécules actives de molécules inactives pour des récepteurs données.
Résultats Protéine : 366 RCPG non olfactifs Métrique utilisée: Distance Euclidienne. Méthode UPGMA (bootstrap = 1000) Classification cohérente est obtenue.
Résultats Ligands : Descripteur 1 Descripteur 2 Données: inhibiteurs cox2 (426 actifs, 13726 inactifs) Inhibiteurs p38 (453 actifs, 9700 inactifs). 7 différentes méthodes optimisées: SVM SMO Arbres de décision Random Forest Réseaux neuronaux OneR Modèles Bayesiens Meilleurs résultats
Empreintes circulaires* Résultats Ligands : Courbe ROC: On ordonne les molécules selon leur score. Parcoure la base de données. Aire sous la courbe. idéale : Aire = 1 aléatoire : Aire = 0.5 descripteur 1 (378) descripteur 2 (21) Empreintes circulaires* cox2 0.99 0.92 p38 0.97 0.90 *PipeLine Pilot. SciTegic
Conclusion Jeux de descripteurs (cavités, ligands) validés. Méthode applicable dans le criblage de ligands ou le criblage de RCPGs orphelins 366 protéines x 2 millions de ligands. Intérêt de la fouille de données dans un contexte de pharmacologie => approche globale.
MERCI