Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé.

Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé

Apprentissage: tâches Apprentissage non supervisé (Eisen, …) ‏ Apprentissage supervisé (arbres de décision, k-ppv, …) ‏ Sélection d'attributs: supervisé ou non supervisé Difficulté : trouver les langages de représentation adaptés (données / hypothèses) ‏

Clustering non supervisé (Eisen) ‏

Apprentissage supervisé (arbres de décision) ‏ Pb classique : –2 classes –Pouvoir prédire la classe de nouveaux exemples X2X2 X1X1 * O O O O O O O O O * * * * * * * * a b d c * * O X 2 > c ? X 2 > d ? faux X 1 > a ? * O vrai X 2 > b ? * * * * * * Autre approche : ordonner les exemples entre eux

Apprentissage supervisé Pb classique : –2 classes –Autre approche : ordonner les exemples entre eux X2X2 X1X1 * O O O O O O O O O * * * * * * * * a b d c 1 2 3 4 O* 2413 seuil

Application au problème des complexes protéine-protéine Problème : déterminer si un complexe protéine-protéine est un complexe vraisemblable Objectif : être capable d’ordonner les complexes par probabilité décroissante d’être de “vrais” complexes Problèmes à résoudre : Comment générer les complexes ? Comment représenter les complexes ? Quel algorithme d’apprentissage utiliser ? Comment évaluation de la pertinence ?

Comment obtenir la structure des complexes ? Protéines isolées –Existence de procédures haut-débit pour obtenir les structures –Banques de données disponibles (PDB) ‏ Complexes –Difficile d’obtenir la structure des complexes –Problème de stabilité du complexe –Coût et durée élevés des manipulations associées Besoin d’une solution informatique pour prédire les complexes

Exploration (Recherche des complexes possibles) ‏ –Parcours des rotations-translations Évaluation (Sélection des complexes les plus probables) ‏ –Fonction énergétique, détection des alignements multiples, mesure de l’emboîtement Algorithme de Docking Wodak & Janin Biopolymers 1978, Adv Protein Chem 2002 complexes les plus probables déformation à l’interaction besoin de flexibilité dans l’évaluation

Niveau de modélisation des protéines Au niveau des atomes –Précis mais très coûteux en temps de calcul (~ 10000 atomes/protéine)‏ –Trop de degrés de liberté –Trop sensible à la flexibilité Au niveau des acides aminés (résidus)‏ –Moins précis que le modèle atomique mais suffisamment porteur d’informations –Plus facile et plus rapide à évaluer (~ 400 résidus/protéine)‏ –Moins sensible à la flexibilité due à l’interaction

Modélisation des protéines par des diagrammes de Voronoï Bernauer et al., PLoS Comp Biol, to appear (2006) ‏ Bernauer et al., Phys Bio, 2005 Poupon. Curr Op Struct Biol, 2004 Si on considère un ensemble de sites E : V(p i ) est l'ensemble des points plus proche du site p i que de tous les autres sites

Mesures associées aux Voronoï Paramètres d’apprentissage (84) ‏ Surface de l’interface (1) ‏ nombre de résidus dans le cœur de l’interface (1) ‏ Volume de voronoï de chaque type de résidus (20) ‏ Fréquence d’apparition de chaque type de résidus (20) ‏ Fréquence des paires de résidus en contact (21 après regroupement) ‏ Distance de paires entre résidus (21 après regroupement) ‏

Solutions étudiées pour évaluer les complexes protéines-protéines Écart quadratique moyen par rapport à une base connue Régression logistique SVM (Séparateurs à Vastes Marges) ‏ Algorithme évolutionnaire : ROGER

ROGER (ROC based GEnetic learneR) Sebag et al. ICDM 2003, Lucas et al. PKDD 2003, Azé et al. ICCI’04 Principe : Algorithme évolutionnaire optimisant une fonction pour atteindre un objectif fixé Objectif : ordonner les complexes par « intérêt » décroissant Fonctions étudiées :combinaisons non linéaires des attributs Critère d’évaluation :Aire sous la courbe ROC

ROGER, fonctions étudiées Description des exemples Combinaison linéaire des attributs Combinaison non linéaire des attributs exemple : (x,y) où y  {-1,+1} et x = (x1…xd) (d= 84 mesures associées aux Voronoï)‏  w i | x i – c i | i=1 d  w i. x i i=1 d

AUC : Area Under the Curve Évaluation d’un test : compromis entre % de vrais positifs % de faux positifs (1 - % de vrais négatifs) ‏ Critère plus fiable que la précision (Ling, Huang, Zhang, AI’03) ‏ –Insensible à la distribution –Indépendant des coûts d’erreur % faux positifs % vrais positifs AUC = 0.5 Critère d’évaluation : courbe ROC (Receiver Operating Characteristics) ‏

Comparaison de deux fonctions en cours d’apprentissage FP VP A : ++++--++-+--+--- B : +--++--++-++--+- Intérêt décroissant s1s1 s2s2 VP = 1/8 FP = 0 B VP = 1/8 FP = 0 A S1S1 VP = 3/8 FP = 2/8 VP = 4/8 FP = 0 S2S2

ROGER, critère à optimiser Maximiser l’aire sous la courbe ROC  minimiser la somme des rangs des ex. positifs A : ++++--++-+--+--- B : +--++--++-++--+- Intérêt décroissant FP VP Rangs (+, A) : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Rangs (+, B) : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16  Rangs (+,.)‏ 48 65

ROGER : l’algorithme évolutionnaire Parents (20 fonctions non linéaires)‏ Stop ? (AUC, iterations...)‏ Sélection de 20 individus en fonction du critère de qualité (AUC)‏ Fonction d’intérêt Mutation + Croisement 200 Enfants Remplacement Meilleurs parmi 20+200 Initialisation Évaluation Population : 20 Nb générations : 500-5000 Nb Générations sans évolution : 100 Tirage aléatoire par roue biaisée (AUC) ‏

ROGER, suite Moteur d’optimisation –Stratégies d’évolution (utilisation d’EvolC) ‏ Validation expérimentale –90% apprentissage, 10% test (10 CV) ‏ –21 exécutions indépendantes –Intérêt d’un exemple = intérêt médian

Apprentissage découpage aléatoire et stratifié Test données +- + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - fold 1 fold 2 fold 3 fold 10 erreur 1 erreur 2 erreur 3 erreur 10 erreur =  erreur i i = 1 10 Évaluation : 10 Validation Croisée (10 CV) ‏

Mesure de l’intérêt d’un exemple ROGER est basé sur une approche stochastique Chaque exécution fournit une hypothèse valide et a priori différente des autres Comment profiter au mieux de toutes ces exécutions ? –Les hypothèses sont agrégées –Objectif : améliorer la qualité de la fonction d’intérêt –L’intérêt d’un complexe est égal à la valeur médiane des valeurs médianes des intérêts –Chaque complexe peut donc avoir sa propre fonction d’intérêt

f11f11 f 21 1... f12f12 f 21 2... f13f13 f 21 3... f 1 10 f 21 10... Apprentissage Test (w 1 10,c 1 10 ), (w 2 10,c 2 10 )‏ … (w 83 10,c 83 10 ), (w 84 10,c 84 10 )‏ (x 1,x 2,…,x 84 )‏ a11a11 a 21 1... a12a12 a 21 2... a13a13 a 21 3... médiane a31a31 a82a82 a13a13... a 6 10 a13a13 a  w i | x i – c i | i=1 84 d Aggrégation des hypothèses : bagging

Comparaison de ROGER et d’une fonction logistique Frequency % faux positifs 1 AUC (fonction logistique) =0.85 AUC(ROGER) =0.97 1010 % vrais positifs

Évaluation : Performance en 10 CV Données : –79 exemples positifs + 320 pseudo-positifs –8400 exemples négatifs Écart quadratique moyen (AUC = 0.54) ‏ Régression logistique et SVM (AUC ~ 0.85) ‏ –Phénomène trop complexe mais descripteurs pertinents –Trop sensible au déséquilibre entre classes –Trop sensible au faible nombre d’exemples –Apprentissage par cœur (pas assez d’exemples et exemples trop disparates) ‏ ROGER (AUC = 0.96) ‏ –Peu sensible au nombre d’exemples –Basé sur l’AUC : insensible au déséquilibre entre classes

Quelques résultats Participation à (CAPRI-2) Critical Assesment of PRedicted Interactions (décembre 2004, Gaeta, Italie) ‏ Post traitement des résultats d’Alexandre Bonvain (HADDOCK - Université Utrecht, Netherlands) ‏

CAPRI-2 Cible 12 : Cohesin-Dockerin rang ROGER : 8 – rang DOCK : 131 25% de résidus à l’interface correctement prédits 35% de résidus à l’interface

Comparaison des résultats avec l’état de l’art Notre approche –Aucune information biologique –Informations purement structurales et systématique Approche usuelle –Utilisation d’informations biologique dans l’algorithme de Docking –Tri et sélection manuelle des meilleures solutions proposées par le Docking –Meilleurs résultats mais comparaison difficile Test du modèle structural sur les conformations candidates engendrées par un algorithme de Docking exploitant au mieux les données biochimiques de la littérature… Augmentation du pourcentage de bons contacts prédits > 45 %

CAPRI-2 (Cible 11) ‏ (Programme de Docking exploitant les informations biochimiques : Haddock) ‏ rang 1 rangs 1, 3-5 et 7-10

Conclusion sur le travail réalisé Résultats encore préliminaires mais très satisfaisants –Modèle obtenu plus efficace que le modèle énergétique de DOCK –Modèle purement structural efficace sur des complexes engendrés avec plus d’informations Poursuite de la collaboration pour mettre en place une approche plus spécifique Intérêt réel des participants de CAPRI-2 Reste à faire –Filtrer les conformations non intéressantes –Nouvel algorithme de Docking intégrant le modèle obtenu

Perspectives pour les complexes protéine-protéine Piste pour l’exploitation des descripteurs –Exploitation des liens entre descripteurs –Surface de l’interface (1) ‏ –nombre de résidus dans le cœur de l’interface (1) ‏ –Volume de voronoï de chaque type de résidus (20) ‏ –Fréquence d’apparition de chaque type de résidus (20) ‏ –Fréquence des paires de résidus en contact (21 après regroupement) ‏ –Distance de paires entre résidus (21 après regroupement) ‏ Changer de représentation (attribut-valeur -> relationnel) ‏ –Plus de problème de « valeurs manquantes » (résidus absents) ‏ –Meilleurs exploitation de la structure des complexes

Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé.

Présentations similaires

Présentation au sujet: "Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé.

Présentations similaires

Présentation au sujet: "Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back