© CEA Tous droits réservés. Toute reproduction totale ou partielle sur quelque support que ce soit ou utilisation du contenu de ce document est interdite sans l’autorisation écrite préalable du CEA All rights reserved. Any reproduction in whole or in part on any medium or use of the information contained herein is prohibited without the prior written consent of CEA Apport de la parcimonie aux méthodes de reconstruction appliquées à la spectrométrie de masse en protéomique Apport de la parcimonie aux méthodes de reconstruction appliquées à la spectrométrie de masse en protéomique Pascal SZACHERSKI, Laurent GERFAULT, Pierre GRANGEAT (LETI, MINATEC, DTBS), Jean-François GIOVANNELLI (IMS Bordeaux) Introduction/Problématique Une maladie (cancer, maladie immunologique, maladie infectueuse) est caractérisée par une signature moléculaire. Pour un traitement efficace de cette maladie, il faut savoir reconnaître cette signature et la faire correspondre à un profil moléculaire. C’est une information fondamentale pour le soin personnalisé, le calcul de facteur de risque, la détection précoce de maladie, la thérapie et son suivi, le développement de médicaments, … Nous basons notre travail sur la reconstruction de profils moléculaire à l’aide de méthodes statistiques bayésiennes dans le cadre de la protéomique associée à des mesures par spectrométrie de masse. Voulant étudier l’état biologique d’un patient, nous pouvons distinguer différentes étapes: l’identification des protéines (reconnaissance), la découverte de biomarqueurs potentiels (apprentissage), la détection de présence de protéines (détection) et finalement une phase de quantification de protéines (quantification). Nous nous intéressons au traitement statistique bayésien hiérarchique. Des analogies peuvent être trouvées avec l’astronomie (détermination, puis présence d’une étoile dans le fond, structuration des étoiles en ensembles comme les galaxies, structure hiérarchique, forme des données (pics), …) ou avec la reconnaissance de la parole (apprentissage, reconnaissance d’un mot à partir de ses lettres ou ses syllabes, structuration des mots en ensembles comme les phrases, structure hiérarchique). Le défi est d’autant plus grand que les concentrations des protéines cibles sont dans un rapport de 1:10 6 à 1:10 8 par rapport au contenu protéique total. Les micro-nanotechnologies interviennent à l’interface entre les échantillons biologiques mesurés et les dispositifs microfluidiques et microélectroniques sur la chaîne de mesure. Bibliographie [1] G.Strubel. Reconstruction de profils moléculaires: modélisation et inversion d’une chaîne de mesure protéomique. PhD thesis, École Polytechnique de Grenoble, 2008 [2] A.Gelman, J.B.Carlin, H.S.Stern, D.B.Rubin. Bayesian Data Analysis, 2 nd Edition, [3] J.Idier. Problèmes inverses: optimisation et inférences. Cours dans le cadre de l’École de Printemps sur les problèmes inverses en traitement des signaux et des images, [4] R.M.Hallett, A.Dvorkin, C.M.Gabardo, J.A.Hassell. An algorithm to discover gene signatures with predictive potential. Journal of Experimental & Clinical Cancer Research, 29(1):120, 2010 [5] M.A. Clyde, L.L. House, R.L. Wolpert. Nonparametric models for proteomic peak identification and quantification. In Bayesian Inference for Gene Expression and Proteomics Pics d’intérêt Figure : Illustration de la structure parcimonieuse des données: Chromato-spectrogramme LC-MS pour l’analyse de la protéine NSE dans sérum (vue 3D et 2D, réalisé avec le logiciel MSight du Swiss Institute of Bioinformatics). Chaîne d’analyse États : 1. Sang 2. Plasma 3. Mélange de protéines 4. Mélange de peptides 5. Peptides séparés 6. Peptides ionisés 7. Chromato-spectrogramme → 2 Étapes : 1 → 2. Centrifugation 2 → 3. Capture par affinité 3 → 4. Colonne de digestion 4 → 5. Colonne chromatographique 5 → 6. Ionisation par électro spray 6 → 7. Spectromètre de masse 2 → 3 3 → 4 4 → 5 5 → 6 6 → 7 Contexte général Nous cherchons à résoudre le problème inverse y = Hx + b où H est la matrice système qui relie les profils moléculaires aux mesures LC-MS. Cette matrice est composée de plusieurs facteurs liés à chaque étage de la chaîne d’analyse (cf. ci-contre) [1]. Ceci définit une structure hiérarchique des composés moléculaires associés aux différents étages. Le faible niveau du signal d’intérêt dans les échantillons justifient le recours aux méthodes statistiques bayésiennes [2] où nous combinons connaissances a priori, apprentissage, structure de la chaîne d’analyse et données de très grande taille. L’estimateur de la moyenne a posteriori est calculé grâce à un algorithme MCMC [3] incorporant le calcul conjoint de la variabilité instrumentale (paramètres instruments, bruit de mesure) ainsi que la variabilité biologique (paramètres d’intérêt). Focus sur l’apport de la parcimonie Données parcimonieuses Les données sont échantillonnées irrégulièrement en temps de rétention et en masse-sur-charge. Elles sont sous-échantillonnées dans les zones de faible intensité et sur-échantillonnées dans les zones de forte intensité. Comme on peut voir sur la figure ci-dessous, les données sont de très grande taille et creuses, avec seulement quelques pics bien localisés, dont uniquement un petit nombre – qui ne sont pas forcément les plus abondants! – nous intéressent (les pics d’intérêt sont entourés en rouge sur la figure). Cette stratégie d’acquisition est comparable à une approche Compressed Sensing. Sélection des protéines d’intérêt Les protéines d’intérêt font partie d’un grand ensemble des protéines. Seul un petit sous-ensemble de protéines est présent dans l’échantillon biologique. Mais parmi ces ensembles, seul un nombre de protéines restreint est pertinent pour le problème posé. Après la phase de découverte de biomarqueurs de la maladie à l’aide de cohortes saine et pathologique [4, 5], nous ne traitons uniquement que ces protéines discrimantes.