Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique.

Slides:



Advertisements
Présentations similaires
Commission locale de l'eau Réunion du 11 juillet 2011 "Bon état quantitatif" des eaux souterraines Proposition de définition formulée par le groupe d'experts.
Advertisements

Soutenance du stage de DEA.
Gestion de portefeuille
DECONVOLUTION ET AUTRES
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Conception Préliminaire de Manipulateurs Mobiles et Génération de Consignes Évolutionnaires : une Méthodologie pour Intégrer la Commande dans l’Évaluation.
Inférence statistique
3. Analyse et estimation du mouvement dans la vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
Xialong Dai, Siamak Khorram
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Optimisation dans les télécommunications
Modélisation des systèmes non linéaires par des SIFs
8. Les tableaux P. Costamagna – ISEN N1.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Traitement de données socio-économiques et techniques d’analyse :
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Application des algorithmes génétiques
Synthèse Bibliographique
Commande par algorithme génétique
La segmentation
Les pointeurs Modes d’adressage de variables. Définition d’un pointeur. Opérateurs de base. Opérations élémentaires. Pointeurs et tableaux. Pointeurs et.
Représentation des systèmes dynamiques dans l’espace d’état
Courbes de Bézier.
CHAPITRE 19 - La génétique des populations
Optimisation-Identification et Cast3M
Les Arbres de décision ou régression
Structure discriminante (analyse discriminante)
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
Rappel... Matrices bloc. Décomposition des matrices:
Recherche heuristique dans les bases de données L’algorithme BLAST
Introduction aux équations différentielles ordinaires (EDO)
Présentation de la méthode des Eléments Finis
Optimisation par les algorithmes génétiques
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Algorithmes Branch & Bound
Couche limite atmosphérique
Micro-intro aux stats.
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Les Techniques d’enquête quantitative
Travaux Pratiques Optimisation Combinatoire
6° Conférence Francophone de Modélisation et de simulation 3 / 5 Avril Rabat Outil d’aide à l’analyse des interactions de contraintes pour l’ordonnancement.
Recherches locales et méta-heuristiques
Calendrier (sur MathSV)
5. Le modèle IS – LM - BP  Construction à partir du modèle IS – LM avec prise en compte de l’ouverture des économies et des relations économiques internationales.
TIPE Les dames chinoises
Optimisation pour la Conception de Systèmes Embarqués
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Le chaos pourquoi ? Permet de modéliser un type de mouvement récent qui n’est ni uniforme, ni accéléré. Des dynamiques chaotiques ont été mises en évidence.
Décision incertaine et logistique : Grille typologique
Université Farhat Abbas_setif
Algorithmes génétiques en optimisation combinatoire
Méthode des moindres carrés (1)
Implémentation d’un opérateur de répartition de sources lumineuses
Resource-Limited Genetic Programming : Replacing Tree Depth Limit.
Mr.D.MOKKADEM MATI CHEMS-EDDINE MEDJOUBI HALIMA
Optimisation par les algorithmes génétiques
ANNEE UNIVERSITAIRE :2010/2011
Peuplement d’une ville virtuelle S.ESTIENNE PRE001v1.01 Exemple d’utilisation du GA 1. Initialement une population est choisie au hasard. 2. Chaque individu.
Recherche heuristique dans les bases de données L’algorithme BLAST
1 Gestion des voitures médecins d'Urgences-Santé Michel Gendreau Émilie Frot¹ Gilbert Laporte Frédéric Semet¹ Centre de recherche sur les transports Université.
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
Problème du Car Sequencing
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
ECHANTILLONAGE ET ESTIMATION
Evaluation des examens complémentaires dans la démarche médicale
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique

LE CONTEXTE Le contexte La protéomique Problématiques biologiques Les algorithmes génétiques Mise au point d’un AG adapté LE CONTEXTE 2/27

La protéomique Une discipline assez récente Succédant à la génomique Le contexte La protéomique Problématiques biologiques Les algorithmes génétiques Mise au point d’un AG adapté La protéomique Une discipline assez récente Succédant à la génomique = Étude du patrimoine en protéine des individus Permet de recueillir une information dynamique et spécifique Produit des données de très grande dimension Deux types d’objectifs : - interactions entre protéines - relations entre expression des protéines et appartenance à un groupe - interactions entre protéines 3/27

Les Algorithmes Génétiques (AG) Le contexte La protéomique Problématiques biologiques Les algorithmes génétiques Mise au point d’un AG adapté Les Algorithmes Génétiques (AG) Méthodes d’optimisation heuristiques Introduits par Holland en 1975 Inspirés de la sélection naturelle Population initiale Nouvelle population croisement mutation sélection Cross-over: échange aléatoire des caractéristiques de deux solutions Mutation: modification aléatoire des caractéristiques d’une solution Sélection: favorise la survie des individus intéressants du point de vue de la fonction à optimiser  permettent de résoudre problèmes d’optimisation complexes 4/27

PROBLEMATIQUES BIOLOGIQUES Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D PROBLEMATIQUES BIOLOGIQUES 5/27

Recherche de biomarqueurs en SELDI Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Recherche de biomarqueurs en SELDI SELDI-TOF : technique de spectrométrie de masse permettant séparation des protéines d’un échantillon Des données denses m/z intensity Objectif : Identifier un ensemble de pics capables de discriminer deux ou plus groupes de spectres Deux applications : - diagnostic - compréhension des mécanismes (traitement) 6/27

Caractéristiques des données Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Caractéristiques des données spectre bruité Nécessité d’un prétraitement (non abordé ici) variabilité de la position en abscisse variabilité de la hauteur des pics (jusqu’à 50% !) beaucoup d’information dans un spectre (sérum) Nécessité d’extraire l’information d’intérêt pour la discrimination des spectres Essayer de compenser le manque de robustesse des mesures pour une utilisation en prédiction Mettre au point une méthode pouvant être appliquée à plus de deux groupes de spectres Choix : utiliser un seuil pour utiliser des données plus stables utiliser un « petit » sous-ensemble de pics complémentaires (=comité) Problème combinatoire à résoudre par AG 7/27

Alignement de gels d’électrophorèse 2D Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Alignement de gels d’électrophorèse 2D Electrophorèse 2D : technique de séparation des protéines en fonction de leur poids et de leur charge électrique pH pI Objectif : repérer des protéines différentiellement exprimées entre plusieurs conditions Étapes : - détection des spots - alignement des gels - analyse des résultats - détection des spots - alignement des gels - analyse des résultats 8/27

Alignement de gels d’électrophorèse 2D Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Alignement de gels d’électrophorèse 2D Difficultés : - souvent plus de 1000 spots - tous les spots n’ont pas de correspondant - impossible de trouver une transformation globale assez précise Choix : - utilisation de landmarks - adaptation de la méthode Procuste - découpage du gel en zones homogènes - recherche d’une transformation simple dans chaque zone 9/27

MISE AU POINT D’UN AG ADAPTE Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan MISE AU POINT D’UN AG ADAPTE 10/27

Application aux spectres SELDI Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Le codage : passage entre deux disciplines Objectif : traduire le problème d’optimisation et ses solutions sous une forme « chromosomique » Chaque solution doit être entièrement décrite par un vecteur numérique. 2 méthodes : codage binaire (0/1) ou codage réel Application aux spectres SELDI 17 4.56 2.82 NA 234 0.97 56 N° pics seuil Application aux gels 2D 160.54 -36.12 2.45 longueur constante angle de rotation translation horizontale translation verticale 11/27

Application aux spectres SELDI Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’initialisation Objectif : constitution d’une population initiale de solutions  Deux possibilités : aléatoire exploration espace des solutions dirigée quand on a une information a priori Application aux spectres SELDI Pas d’information a priori Génération aléatoire de comités - choix d’un nombre de pics entre 1 et Nmax - choix des pics - choix des seuils associés Application aux gels 2D Cas de l’alignement global : pas d’information a priori ou utilisation des landmarks Cas de l’alignement local : on connaît la meilleure transformation globale génération de transformations autour de cette solution 12/27

Utilisation des landmarks pour l’initialisation Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) 13/27

Utilisation des landmarks pour l’initialisation Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : 13/27

Utilisation des landmarks pour l’initialisation Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : Généralisation à plus de deux gels : On cherche à minimiser : où 13/27

Utilisation des landmarks pour l’initialisation Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : Généralisation à plus de deux gels : On cherche à minimiser : où Problème : pas de solution analytique directe où Z : tableau moyen des Minimisation obtenue en optimisant successivement un des tout en gardant les autres fixés 13/27

Insertion dans l’AG Appariements toujours inconnus (!...) Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Insertion dans l’AG Appariements toujours inconnus (!...) Nombre de spots très élevé et potentiellement très différent entre gels On construit une matrice A contenant tous les appariements réalisés exemple : tous les types d’appariements sont possibles On calcule le gel moyen Z avec autant que lignes que A, sans tenir compte des zéros pour calculer les moyennes. 14/27

Choix de la fitness pour les spectres SELDI Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Choix de la fitness pour les spectres SELDI Rappel : on veut obtenir un petit sous-ensemble de pics capables de réaliser la discrimination entre groupes fitness = a  % bien classés + b  nb pics Précision du modèle Parcimonie du modèle fitness = a  % bien classés + b  nb pics fitness = a  % bien classés + b  nb pics équilibre Pourcentage de bien classés calculé en divisant le jeu de données en test/apprentissage. 15/27

Choix de la fitness pour les gels 2D Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Choix de la fitness pour les gels 2D fitness = a  erreur moyenne + b  nb matchs Précision de la transformation Pertinence de la transformation fitness = a  erreur moyenne + b  nb matchs fitness = a  erreur moyenne + b  nb matchs Paramètres d’équilibre entre les deux parties bon match équivalent au critère de Procuste match douteux 16/27

Opérateur de sélection Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Opérateur de sélection Objectif : sélectionner les solutions les plus performantes au sens du critère (le fitness) = seul opérateur dépendant du problème Règle générale de sélection : plus un individu est adapté au sens du fitness plus sa probabilité d’apparaître dans la génération suivante augmente. IMPORTANT : tout individu (quel que soit son fitness) a une probabilité non nulle d’apparaître dans la population suivante  Maintien de l’hétérogénéité  Possibilité d’évolution vers une meilleure solution 17/27

L’opérateur de croisement Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’opérateur de croisement Objectif : combiner les caractéristiques des individus précédemment sélectionnés = opérateur indépendant du problème Chaque individu de la population courante a une probabilité q de subir un cross-over Application à l’alignement de gels : 160.54 -36.12 2.45 130.28 56.91 1.39 x 130.28 -36.12 2.45 160.54 56.91 1.39 18/27

L’opérateur de mutation Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’opérateur de mutation Objectif : permettre l’exploration de l’espace des solutions = opérateur indépendant du problème Règle générale de mutation : on doit pouvoir passer de toute solution à toute autre en un nombre fini d’itérations. Chaque individu de la population courante a une probabilité p de subir une mutation. Application aux spectres SELDI : toutes possibilités envisagées : - ajout d’un pic et du seuil correspondant - suppression d’un pic et du seuil correspondant - déplacement du seuil  On peut passer de tout comité à tout autre en un nombre fini d’itérations. 19/27

La convergence Le critère de convergence : 2 types possibles Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan La convergence Le critère de convergence : 2 types possibles - critère de convergence réelle de l’ensemble de la population ex. : pas d’évolution significative du fitness pendant 10 générations successives - Nombre maximum de générations atteint Conditions nécessaires et suffisantes (Bhandari et al.,1996): - étape d’élitisme : le meilleur individu d’une génération est nécessairement introduit dans la génération suivante - on peut obtenir toute solution à partir de toute autre en un nombre fini d’étapes 20/27

Résultats pour l’alignement de deux gels Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats pour l’alignement de deux gels Observation de la convergence : évolution au cours des générations t1 t2 nombre de matchs angle a erreur moyenne critère global nombre de matchs générations 21/27

Alignement de plus de trois gels Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Alignement de plus de trois gels 22/27

Résultats alignement local Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats alignement local 23/27

Bilan alignement des gels Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan alignement des gels Efficacité globale des AGs pour trouver de bonnes transformations tout en tenant compte de différentes contraintes (souplesse) L’AG a permis l’utilisation de Procrustes généralisée dans le cas d’appariements inconnus Amélioration globale des résultats par découpage du gel Efficacité de l’utilisation des erreurs comme critère de découpage Obtention d’une transformation homogène malgré le découpage Intérêt des landmarks - Définition plus souple et plus précise des cellules - Amélioration de la vitesse de convergence des AGs - Transformation obtenue plus efficace pour retrouver les matchs Temps de calcul important pouvant être amélioré Nécessité d’un travail en amont pour déterminer les landmarks 24/27

Résultats pour les spectres SELDI Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats pour les spectres SELDI Évolution des paramètres au cours des générations % bien classés Nb pics dans comité Valeur du critère  Convergence des différents paramètres Boxplots des intensités des 3 pics du comité 253 spectres (162 cancer + 91 contrôles)  comité constitué de 3 pics  identification de 427 pics potentiels  98% bien classés en prédiction  100% bien classés en description 25/27

Bilan pour les spectres SELDI Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan pour les spectres SELDI - Codage binaire des données  limiter problèmes de variabilité de l’intensité - Utilisation d’AG  optimisation d’un problème combinatoire complexe - Efficacité globale de la méthode pour obtenir une bonne discrimination en utilisant peu de pics - Généralisation à plus de deux groupes  Faible augmentation du temps de calcul  Résultats précis et interprétables (un comité par comparaison et obtention de probabilités globales d’affectation) - Résultats reproductibles Perspectives : - Application à un jeu de données plus important  vraie validation croisée - Identification chimique des pics retenus - Méthode indépendante  possible étude d’autre données (Clinprot,…) et comparaisons 26/27

Bilan applications protéomiques Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan applications protéomiques - AG applicables à tout problème d’optimisation - Codage des solutions généralement simple (longueur des vecteurs très variable) - Définition des mutations doit permettre d’obtenir toute solution à partir de n’importe quelle solution (convergence) - Taux de mutation et de croisement importants pour la vitesse de convergence - Elitisme nécessaire pour assurer la convergence - Traitement des résultats très simple - observation de la convergence ou non de la population - on retient la meilleure solution ou la plus présente - Principale difficulté : compréhension du contexte biologique et de ses enjeux, construction d’une fonction de fitness adaptée 27/27