La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique.

Présentations similaires


Présentation au sujet: "Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique."— Transcription de la présentation:

1 Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique

2 LE CONTEXTE Le contexte La protéomique Problématiques biologiques
Les algorithmes génétiques Mise au point d’un AG adapté LE CONTEXTE 2/27

3 La protéomique Une discipline assez récente Succédant à la génomique
Le contexte La protéomique Problématiques biologiques Les algorithmes génétiques Mise au point d’un AG adapté La protéomique Une discipline assez récente Succédant à la génomique = Étude du patrimoine en protéine des individus Permet de recueillir une information dynamique et spécifique Produit des données de très grande dimension Deux types d’objectifs : - interactions entre protéines - relations entre expression des protéines et appartenance à un groupe - interactions entre protéines 3/27

4 Les Algorithmes Génétiques (AG)
Le contexte La protéomique Problématiques biologiques Les algorithmes génétiques Mise au point d’un AG adapté Les Algorithmes Génétiques (AG) Méthodes d’optimisation heuristiques Introduits par Holland en 1975 Inspirés de la sélection naturelle Population initiale Nouvelle population croisement mutation sélection Cross-over: échange aléatoire des caractéristiques de deux solutions Mutation: modification aléatoire des caractéristiques d’une solution Sélection: favorise la survie des individus intéressants du point de vue de la fonction à optimiser  permettent de résoudre problèmes d’optimisation complexes 4/27

5 PROBLEMATIQUES BIOLOGIQUES
Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D PROBLEMATIQUES BIOLOGIQUES 5/27

6 Recherche de biomarqueurs en SELDI
Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Recherche de biomarqueurs en SELDI SELDI-TOF : technique de spectrométrie de masse permettant séparation des protéines d’un échantillon Des données denses m/z intensity Objectif : Identifier un ensemble de pics capables de discriminer deux ou plus groupes de spectres Deux applications : - diagnostic - compréhension des mécanismes (traitement) 6/27

7 Caractéristiques des données
Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Caractéristiques des données spectre bruité Nécessité d’un prétraitement (non abordé ici) variabilité de la position en abscisse variabilité de la hauteur des pics (jusqu’à 50% !) beaucoup d’information dans un spectre (sérum) Nécessité d’extraire l’information d’intérêt pour la discrimination des spectres Essayer de compenser le manque de robustesse des mesures pour une utilisation en prédiction Mettre au point une méthode pouvant être appliquée à plus de deux groupes de spectres Choix : utiliser un seuil pour utiliser des données plus stables utiliser un « petit » sous-ensemble de pics complémentaires (=comité) Problème combinatoire à résoudre par AG 7/27

8 Alignement de gels d’électrophorèse 2D
Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Alignement de gels d’électrophorèse 2D Electrophorèse 2D : technique de séparation des protéines en fonction de leur poids et de leur charge électrique pH pI Objectif : repérer des protéines différentiellement exprimées entre plusieurs conditions Étapes : - détection des spots - alignement des gels - analyse des résultats - détection des spots - alignement des gels - analyse des résultats 8/27

9 Alignement de gels d’électrophorèse 2D
Le contexte Problématiques biologiques Recherche de biomarqueurs en SELDI Mise au point d’un AG adapté Alignement de gels d’électrophorèse 2D Alignement de gels d’électrophorèse 2D Difficultés : - souvent plus de 1000 spots - tous les spots n’ont pas de correspondant - impossible de trouver une transformation globale assez précise Choix : - utilisation de landmarks - adaptation de la méthode Procuste - découpage du gel en zones homogènes - recherche d’une transformation simple dans chaque zone 9/27

10 MISE AU POINT D’UN AG ADAPTE
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan MISE AU POINT D’UN AG ADAPTE 10/27

11 Application aux spectres SELDI
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Le codage : passage entre deux disciplines Objectif : traduire le problème d’optimisation et ses solutions sous une forme « chromosomique » Chaque solution doit être entièrement décrite par un vecteur numérique. 2 méthodes : codage binaire (0/1) ou codage réel Application aux spectres SELDI 17 4.56 2.82 NA 234 0.97 56 N° pics seuil Application aux gels 2D 160.54 -36.12 2.45 longueur constante angle de rotation translation horizontale translation verticale 11/27

12 Application aux spectres SELDI
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’initialisation Objectif : constitution d’une population initiale de solutions Deux possibilités : aléatoire exploration espace des solutions dirigée quand on a une information a priori Application aux spectres SELDI Pas d’information a priori Génération aléatoire de comités - choix d’un nombre de pics entre 1 et Nmax - choix des pics - choix des seuils associés Application aux gels 2D Cas de l’alignement global : pas d’information a priori ou utilisation des landmarks Cas de l’alignement local : on connaît la meilleure transformation globale génération de transformations autour de cette solution 12/27

13 Utilisation des landmarks pour l’initialisation
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) 13/27

14 Utilisation des landmarks pour l’initialisation
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : 13/27

15 Utilisation des landmarks pour l’initialisation
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : Généralisation à plus de deux gels : On cherche à minimiser : 13/27

16 Utilisation des landmarks pour l’initialisation
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Utilisation des landmarks pour l’initialisation landmarks : spots pour lesquels on connaît les correspondances  Possibilité d’utiliser Procuste (Schönemann & Carroll, 1970) On cherche à minimiser : Généralisation à plus de deux gels : On cherche à minimiser : Problème : pas de solution analytique directe où Z : tableau moyen des Minimisation obtenue en optimisant successivement un des tout en gardant les autres fixés 13/27

17 Insertion dans l’AG Appariements toujours inconnus (!...)
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Insertion dans l’AG Appariements toujours inconnus (!...) Nombre de spots très élevé et potentiellement très différent entre gels On construit une matrice A contenant tous les appariements réalisés exemple : tous les types d’appariements sont possibles On calcule le gel moyen Z avec autant que lignes que A, sans tenir compte des zéros pour calculer les moyennes. 14/27

18 Choix de la fitness pour les spectres SELDI
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Choix de la fitness pour les spectres SELDI Rappel : on veut obtenir un petit sous-ensemble de pics capables de réaliser la discrimination entre groupes fitness = a  % bien classés + b  nb pics Précision du modèle Parcimonie du modèle fitness = a  % bien classés + b  nb pics fitness = a  % bien classés + b  nb pics équilibre Pourcentage de bien classés calculé en divisant le jeu de données en test/apprentissage. 15/27

19 Choix de la fitness pour les gels 2D
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Choix de la fitness pour les gels 2D fitness = a  erreur moyenne + b  nb matchs Précision de la transformation Pertinence de la transformation fitness = a  erreur moyenne + b  nb matchs fitness = a  erreur moyenne + b  nb matchs Paramètres d’équilibre entre les deux parties bon match équivalent au critère de Procuste match douteux 16/27

20 Opérateur de sélection
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Opérateur de sélection Objectif : sélectionner les solutions les plus performantes au sens du critère (le fitness) = seul opérateur dépendant du problème Règle générale de sélection : plus un individu est adapté au sens du fitness plus sa probabilité d’apparaître dans la génération suivante augmente. IMPORTANT : tout individu (quel que soit son fitness) a une probabilité non nulle d’apparaître dans la population suivante  Maintien de l’hétérogénéité  Possibilité d’évolution vers une meilleure solution 17/27

21 L’opérateur de croisement
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’opérateur de croisement Objectif : combiner les caractéristiques des individus précédemment sélectionnés = opérateur indépendant du problème Chaque individu de la population courante a une probabilité q de subir un cross-over Application à l’alignement de gels : 160.54 -36.12 2.45 130.28 56.91 1.39 x 130.28 -36.12 2.45 160.54 56.91 1.39 18/27

22 L’opérateur de mutation
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan L’opérateur de mutation Objectif : permettre l’exploration de l’espace des solutions = opérateur indépendant du problème Règle générale de mutation : on doit pouvoir passer de toute solution à toute autre en un nombre fini d’itérations. Chaque individu de la population courante a une probabilité p de subir une mutation. Application aux spectres SELDI : toutes possibilités envisagées : - ajout d’un pic et du seuil correspondant - suppression d’un pic et du seuil correspondant - déplacement du seuil  On peut passer de tout comité à tout autre en un nombre fini d’itérations. 19/27

23 La convergence Le critère de convergence : 2 types possibles
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan La convergence Le critère de convergence : 2 types possibles - critère de convergence réelle de l’ensemble de la population ex. : pas d’évolution significative du fitness pendant 10 générations successives - Nombre maximum de générations atteint Conditions nécessaires et suffisantes (Bhandari et al.,1996): - étape d’élitisme : le meilleur individu d’une génération est nécessairement introduit dans la génération suivante - on peut obtenir toute solution à partir de toute autre en un nombre fini d’étapes 20/27

24 Résultats pour l’alignement de deux gels
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats pour l’alignement de deux gels Observation de la convergence : évolution au cours des générations t1 t2 nombre de matchs angle a erreur moyenne critère global nombre de matchs générations 21/27

25 Alignement de plus de trois gels
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Alignement de plus de trois gels 22/27

26 Résultats alignement local
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats alignement local 23/27

27 Bilan alignement des gels
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan alignement des gels Efficacité globale des AGs pour trouver de bonnes transformations tout en tenant compte de différentes contraintes (souplesse) L’AG a permis l’utilisation de Procrustes généralisée dans le cas d’appariements inconnus Amélioration globale des résultats par découpage du gel Efficacité de l’utilisation des erreurs comme critère de découpage Obtention d’une transformation homogène malgré le découpage Intérêt des landmarks - Définition plus souple et plus précise des cellules - Amélioration de la vitesse de convergence des AGs - Transformation obtenue plus efficace pour retrouver les matchs Temps de calcul important pouvant être amélioré Nécessité d’un travail en amont pour déterminer les landmarks 24/27

28 Résultats pour les spectres SELDI
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Résultats pour les spectres SELDI Évolution des paramètres au cours des générations % bien classés Nb pics dans comité Valeur du critère  Convergence des différents paramètres Boxplots des intensités des 3 pics du comité 253 spectres (162 cancer + 91 contrôles)  comité constitué de 3 pics  identification de 427 pics potentiels  98% bien classés en prédiction  100% bien classés en description 25/27

29 Bilan pour les spectres SELDI
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan pour les spectres SELDI - Codage binaire des données  limiter problèmes de variabilité de l’intensité - Utilisation d’AG  optimisation d’un problème combinatoire complexe - Efficacité globale de la méthode pour obtenir une bonne discrimination en utilisant peu de pics - Généralisation à plus de deux groupes  Faible augmentation du temps de calcul  Résultats précis et interprétables (un comité par comparaison et obtention de probabilités globales d’affectation) - Résultats reproductibles Perspectives : - Application à un jeu de données plus important  vraie validation croisée - Identification chimique des pics retenus - Méthode indépendante  possible étude d’autre données (Clinprot,…) et comparaisons 26/27

30 Bilan applications protéomiques
Le contexte Codage et initialisation Problématiques biologiques Fitness et sélection Croisement Mise au point d’un AG adapté Mutation Résultats et bilan Bilan applications protéomiques - AG applicables à tout problème d’optimisation - Codage des solutions généralement simple (longueur des vecteurs très variable) - Définition des mutations doit permettre d’obtenir toute solution à partir de n’importe quelle solution (convergence) - Taux de mutation et de croisement importants pour la vitesse de convergence - Elitisme nécessaire pour assurer la convergence - Traitement des résultats très simple - observation de la convergence ou non de la population - on retient la meilleure solution ou la plus présente - Principale difficulté : compréhension du contexte biologique et de ses enjeux, construction d’une fonction de fitness adaptée 27/27


Télécharger ppt "Christelle Reynès Utilisation des algorithmes génétique en analyse de données de protéomique."

Présentations similaires


Annonces Google