Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé.

Slides:



Advertisements
Présentations similaires
Base de sondage et Plan de sondage Pres. 5
Advertisements

Soutenance du stage de DEA.
Apprentissage supervisé et non supervisé sur les données INDANA
Gestion de portefeuille
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Démarches de modélisation
RECONNAISSANCE DE FORMES
Conception Préliminaire de Manipulateurs Mobiles et Génération de Consignes Évolutionnaires : une Méthodologie pour Intégrer la Commande dans l’Évaluation.
5 critères de qualité d'un test
Collecte de données F. Kohler.
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
3. Analyse et estimation du mouvement dans la vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
Visualisation d’information interactive 5 : Graphes
Optimisation dans les télécommunications
Le remplacement moléculaire
Le Fscore est-il une critère pertinent pour évaluer la terminologie ?
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Application à la méthode des
Sélection automatique d’index et de vues matérialisées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Application des algorithmes génétiques
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Régression linéaire simple
Groupe 1: Classes de même intervalle
RECONNAISSANCE DE FORMES
Retour dexpérience Challenge PKDD Plan Types de données fournies lors des challenges Démarche suivie lors des 3 challenges.
Optimisation-Identification et Cast3M
Les Arbres de décision ou régression
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
D. Duret / Présentation Cappi Z
Apprentissage par arbre de décision
Optimisation par les algorithmes génétiques
Génération de tests pour la localisation automatique d’erreurs Yves Le Traon et Franck FLEUREY.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Echantillonage pour une Evaluation d’Impact
Évaluation des examens complémentaires
Travaux Pratiques Optimisation Combinatoire
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Recherches locales et méta-heuristiques
Classification de données par l’algorithme FPSO-GA
Reconnaissance de chiffres manuscrits
Soutenance de Stage DEA / DESS
Recherche de motifs par projections aléatoires
Concepts fondamentaux: statistiques et distributions
Décision incertaine et logistique : Grille typologique
La recherche de vertex dans CMS : le recuit déterministe Nicolas Estre – IPN Lyon – Journées Jeunes Chercheurs 2003.
Université Farhat Abbas_setif
Algorithmes génétiques en optimisation combinatoire
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique.
1 Logiciels de confection automatique d’horaires.
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
Localisation collaborative dans les réseaux de capteurs
ED diagnostic et dépistage
IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.
Transcription de la présentation:

Méthodes d’apprentissage : application au tri de complexes protéines-protéines Jérôme Azé

Apprentissage: tâches Apprentissage non supervisé (Eisen, …) ‏ Apprentissage supervisé (arbres de décision, k-ppv, …) ‏ Sélection d'attributs: supervisé ou non supervisé Difficulté : trouver les langages de représentation adaptés (données / hypothèses) ‏

Clustering non supervisé (Eisen) ‏

Apprentissage supervisé (arbres de décision) ‏ Pb classique : –2 classes –Pouvoir prédire la classe de nouveaux exemples X2X2 X1X1 * O O O O O O O O O * * * * * * * * a b d c * * O X 2 > c ? X 2 > d ? faux X 1 > a ? * O vrai X 2 > b ? * * * * * * Autre approche : ordonner les exemples entre eux

Apprentissage supervisé Pb classique : –2 classes –Autre approche : ordonner les exemples entre eux X2X2 X1X1 * O O O O O O O O O * * * * * * * * a b d c O* 2413 seuil

Application au problème des complexes protéine-protéine Problème : déterminer si un complexe protéine-protéine est un complexe vraisemblable Objectif : être capable d’ordonner les complexes par probabilité décroissante d’être de “vrais” complexes Problèmes à résoudre : Comment générer les complexes ? Comment représenter les complexes ? Quel algorithme d’apprentissage utiliser ? Comment évaluation de la pertinence ?

Comment obtenir la structure des complexes ? Protéines isolées –Existence de procédures haut-débit pour obtenir les structures –Banques de données disponibles (PDB) ‏ Complexes –Difficile d’obtenir la structure des complexes –Problème de stabilité du complexe –Coût et durée élevés des manipulations associées Besoin d’une solution informatique pour prédire les complexes

Exploration (Recherche des complexes possibles) ‏ –Parcours des rotations-translations Évaluation (Sélection des complexes les plus probables) ‏ –Fonction énergétique, détection des alignements multiples, mesure de l’emboîtement Algorithme de Docking Wodak & Janin Biopolymers 1978, Adv Protein Chem 2002 complexes les plus probables déformation à l’interaction besoin de flexibilité dans l’évaluation

Niveau de modélisation des protéines Au niveau des atomes –Précis mais très coûteux en temps de calcul (~ atomes/protéine)‏ –Trop de degrés de liberté –Trop sensible à la flexibilité Au niveau des acides aminés (résidus)‏ –Moins précis que le modèle atomique mais suffisamment porteur d’informations –Plus facile et plus rapide à évaluer (~ 400 résidus/protéine)‏ –Moins sensible à la flexibilité due à l’interaction

Modélisation des protéines par des diagrammes de Voronoï Bernauer et al., PLoS Comp Biol, to appear (2006) ‏ Bernauer et al., Phys Bio, 2005 Poupon. Curr Op Struct Biol, 2004 Si on considère un ensemble de sites E : V(p i ) est l'ensemble des points plus proche du site p i que de tous les autres sites

Mesures associées aux Voronoï Paramètres d’apprentissage (84) ‏ Surface de l’interface (1) ‏ nombre de résidus dans le cœur de l’interface (1) ‏ Volume de voronoï de chaque type de résidus (20) ‏ Fréquence d’apparition de chaque type de résidus (20) ‏ Fréquence des paires de résidus en contact (21 après regroupement) ‏ Distance de paires entre résidus (21 après regroupement) ‏

Solutions étudiées pour évaluer les complexes protéines-protéines Écart quadratique moyen par rapport à une base connue Régression logistique SVM (Séparateurs à Vastes Marges) ‏ Algorithme évolutionnaire : ROGER

ROGER (ROC based GEnetic learneR) Sebag et al. ICDM 2003, Lucas et al. PKDD 2003, Azé et al. ICCI’04 Principe : Algorithme évolutionnaire optimisant une fonction pour atteindre un objectif fixé Objectif : ordonner les complexes par « intérêt » décroissant Fonctions étudiées :combinaisons non linéaires des attributs Critère d’évaluation :Aire sous la courbe ROC

ROGER, fonctions étudiées Description des exemples Combinaison linéaire des attributs Combinaison non linéaire des attributs exemple : (x,y) où y  {-1,+1} et x = (x1…xd) (d= 84 mesures associées aux Voronoï)‏  w i | x i – c i | i=1 d  w i. x i i=1 d

AUC : Area Under the Curve Évaluation d’un test : compromis entre % de vrais positifs % de faux positifs (1 - % de vrais négatifs) ‏ Critère plus fiable que la précision (Ling, Huang, Zhang, AI’03) ‏ –Insensible à la distribution –Indépendant des coûts d’erreur % faux positifs % vrais positifs AUC = 0.5 Critère d’évaluation : courbe ROC (Receiver Operating Characteristics) ‏

Comparaison de deux fonctions en cours d’apprentissage FP VP A : B : Intérêt décroissant s1s1 s2s2 VP = 1/8 FP = 0 B VP = 1/8 FP = 0 A S1S1 VP = 3/8 FP = 2/8 VP = 4/8 FP = 0 S2S2

ROGER, critère à optimiser Maximiser l’aire sous la courbe ROC  minimiser la somme des rangs des ex. positifs A : B : Intérêt décroissant FP VP Rangs (+, A) : Rangs (+, B) :  Rangs (+,.)‏ 48 65

ROGER : l’algorithme évolutionnaire Parents (20 fonctions non linéaires)‏ Stop ? (AUC, iterations...)‏ Sélection de 20 individus en fonction du critère de qualité (AUC)‏ Fonction d’intérêt Mutation + Croisement 200 Enfants Remplacement Meilleurs parmi Initialisation Évaluation Population : 20 Nb générations : Nb Générations sans évolution : 100 Tirage aléatoire par roue biaisée (AUC) ‏

ROGER, suite Moteur d’optimisation –Stratégies d’évolution (utilisation d’EvolC) ‏ Validation expérimentale –90% apprentissage, 10% test (10 CV) ‏ –21 exécutions indépendantes –Intérêt d’un exemple = intérêt médian

Apprentissage découpage aléatoire et stratifié Test données fold 1 fold 2 fold 3 fold 10 erreur 1 erreur 2 erreur 3 erreur 10 erreur =  erreur i i = 1 10 Évaluation : 10 Validation Croisée (10 CV) ‏

Mesure de l’intérêt d’un exemple ROGER est basé sur une approche stochastique Chaque exécution fournit une hypothèse valide et a priori différente des autres Comment profiter au mieux de toutes ces exécutions ? –Les hypothèses sont agrégées –Objectif : améliorer la qualité de la fonction d’intérêt –L’intérêt d’un complexe est égal à la valeur médiane des valeurs médianes des intérêts –Chaque complexe peut donc avoir sa propre fonction d’intérêt

f11f11 f f12f12 f f13f13 f f 1 10 f Apprentissage Test (w 1 10,c 1 10 ), (w 2 10,c 2 10 )‏ … (w 83 10,c ), (w 84 10,c )‏ (x 1,x 2,…,x 84 )‏ a11a11 a a12a12 a a13a13 a médiane a31a31 a82a82 a13a13... a 6 10 a13a13 a  w i | x i – c i | i=1 84 d Aggrégation des hypothèses : bagging

Comparaison de ROGER et d’une fonction logistique Frequency % faux positifs 1 AUC (fonction logistique) =0.85 AUC(ROGER) = % vrais positifs

Évaluation : Performance en 10 CV Données : –79 exemples positifs pseudo-positifs –8400 exemples négatifs Écart quadratique moyen (AUC = 0.54) ‏ Régression logistique et SVM (AUC ~ 0.85) ‏ –Phénomène trop complexe mais descripteurs pertinents –Trop sensible au déséquilibre entre classes –Trop sensible au faible nombre d’exemples –Apprentissage par cœur (pas assez d’exemples et exemples trop disparates) ‏ ROGER (AUC = 0.96) ‏ –Peu sensible au nombre d’exemples –Basé sur l’AUC : insensible au déséquilibre entre classes

Quelques résultats Participation à (CAPRI-2) Critical Assesment of PRedicted Interactions (décembre 2004, Gaeta, Italie) ‏ Post traitement des résultats d’Alexandre Bonvain (HADDOCK - Université Utrecht, Netherlands) ‏

CAPRI-2 Cible 12 : Cohesin-Dockerin rang ROGER : 8 – rang DOCK : % de résidus à l’interface correctement prédits 35% de résidus à l’interface

Comparaison des résultats avec l’état de l’art Notre approche –Aucune information biologique –Informations purement structurales et systématique Approche usuelle –Utilisation d’informations biologique dans l’algorithme de Docking –Tri et sélection manuelle des meilleures solutions proposées par le Docking –Meilleurs résultats mais comparaison difficile Test du modèle structural sur les conformations candidates engendrées par un algorithme de Docking exploitant au mieux les données biochimiques de la littérature… Augmentation du pourcentage de bons contacts prédits > 45 %

CAPRI-2 (Cible 11) ‏ (Programme de Docking exploitant les informations biochimiques : Haddock) ‏ rang 1 rangs 1, 3-5 et 7-10

Conclusion sur le travail réalisé Résultats encore préliminaires mais très satisfaisants –Modèle obtenu plus efficace que le modèle énergétique de DOCK –Modèle purement structural efficace sur des complexes engendrés avec plus d’informations Poursuite de la collaboration pour mettre en place une approche plus spécifique Intérêt réel des participants de CAPRI-2 Reste à faire –Filtrer les conformations non intéressantes –Nouvel algorithme de Docking intégrant le modèle obtenu

Perspectives pour les complexes protéine-protéine Piste pour l’exploitation des descripteurs –Exploitation des liens entre descripteurs –Surface de l’interface (1) ‏ –nombre de résidus dans le cœur de l’interface (1) ‏ –Volume de voronoï de chaque type de résidus (20) ‏ –Fréquence d’apparition de chaque type de résidus (20) ‏ –Fréquence des paires de résidus en contact (21 après regroupement) ‏ –Distance de paires entre résidus (21 après regroupement) ‏ Changer de représentation (attribut-valeur -> relationnel) ‏ –Plus de problème de « valeurs manquantes » (résidus absents) ‏ –Meilleurs exploitation de la structure des complexes