Cédric PIONNEAU pionneau@chups.jussieu.fr La protéomique : principales techniques et outils informatiques dédiés à l'étude des protéines Cédric PIONNEAU pionneau@chups.jussieu.fr Plate-forme Post-génomique de la Pitié-Salpétrière (P3S) http://www.p3s.chups.jussieu.fr
Protéome : Protéomique : Terme définit par Wilkins et al., Biotechnol. Gene.Eng.Rev. (1995), 13, 19-50 Concept désignant l’ensemble des produits fonctionnels des gènes d’un organisme vivant = ensemble des protéines à un temps t d’un organisme vivant dans un environnement donné. Protéomique : Etude du protéome, c’est-à-dire l’étude à grande échelle des protéines, et plus particulièrement l’étude de leurs : - niveaux d’expression - modifications - interactions
Pourquoi l’étude du protéome ? Protéines : éléments fonctionnels Génome et transcriptome : supports de l’information génétique Chaque protéine a une structure et une fonction qui lui est propre. - hemoglobine : forme globulaire. Fixation de l’oxygène et du CO2 - actine : filament. Permet la contraction des muscles
Pourquoi l’étude du protéome ? Le séquençage du génome humain a révélé l’existence de 30 000 gènes. On peut déterminer la séquence des protéines à partir de la séquence des gènes. Mais connaître la séquence théorique des protéines ne suffit pas… la séquence ne permet pas toujours de prédire la fonction de la protéine : celle-ci est souvent reliée à sa structure dans l’espace la protéine est très souvent modifiée après sa fabrication (coupure, ajout d’autres composés,…) 1 gène peut donner plusieurs formes d’une même protéine. Chez l’homme : 30 000 gènes mais 100 000 protéines supposées Après l’étude du génome, l’étude du protéome est donc indispensable et constitue une nouvelle étape.
Applications de la protéomique Comprendre les processus cellulaires normaux ou responsables de maladies (cancers, maladie neurodégénératives, etc...) Identifier de nouvelles protéines Identifier des protéines indicatrices de maladies (bio-marqueurs)
La structure des protéines Chaque protéine est élaborée à partir de 20 “briques élémentaires” : les acides aminés. Une protéine est une combinaison, sous la forme d’une chaîne plus au moins longue et orientée, de ces 20 acides aminés (100 à 200 acides aminés).On représente chacun des acides aminés par une lettre. La séquence des acides aminés d’une protéine constitue la structure primaire de la protéine. M N R C A I L
La structure des protéines Des régions de la protéines peuvent adopter 2 formes particulières : hélices ou feuillets. On parle de structure secondaire. La structure tridimensionnelle finale qu'adopte la chaîne d'acides aminés, constitue la structure tertiaire de la protéine. Structure tertiaire d’une protéine Structures secondaires
La structure des protéines Plusieurs protéines peuvent s’associer pour former des ensembles complexes. On parle de structure quaternaire.
Techniques d’études des protéines Les protéines sont extraites à partir : - de tissus - de cellules en culture - de liquides biologiques (sang, liquide céphalo-rachidien, etc..) On utilise des solutions à la composition bien définie pour solubiliser les protéines et les séparer des autres constituants. On obtient ainsi un extrait protéique = matériel de base pour l’étude des protéines. Extrait : mélange d’un grand nombre de protéines (plusieurs milliers). Il faut individualiser les protéines pour mieux les étudier.
- + Electrophorèse bidimensionnelle + - Technique développée par O'Farrell en 1975 (30 ans !). Combine 2 séparations séquentielles des protéines en gel de polyacrylamide (20 X 20 X 0,1 cm). 1ere séparation (charge) 2eme séparation (masse) + - Extrait - +
Electrophorèse bidimensionnelle Le gel de polyacrylamide est incubé dans une solution qui colore les protéines. Chaque « tache » sur le gel représente une protéine. Plus la « tache » est grosse et foncée, plus la protéine est abondante.
Electrophorèse bidimensionnelle Application : comparer les gels dans différentes conditions (cellules normales vs cellules cancéreuses par exemple) pour trouver des différences de quantité de protéine et/ou des absences de protéines. cellules normales cellules cancéreuses
Logiciel d’analyse d’images Après numérisation, détection automatique des protéines dans l’image du gel Quantification : mesure de l’intensité en niveaux de gris des protéines Matching : un algorithme d’appariement compare les gels 2 à 2 pour trouver les taches qui représentent la même protéine dans les 2 gels
Logiciel d’analyse d’images Outils de visualisation 3D pour mieux voir les « taches » Aide pour vérifier la détection faite par le logiciel
Logiciel d’analyse d’images But : repérer les variations d’expression des protéines et les valider par des tests statistiques.
Spectrométrie de masse Technique permettant d’identifier les protéines séparées par électrophorèse bidimensionnelle ou les protéines en solution (mais en nombre limité). Il faut casser au préalable les protéines : on utilise un enzyme qui fragmente les protéines toujours après 2 acides aminés bien précis. Les fragments produits sont caractéristiques de la protéine : « empreinte digitale »
Spectrométrie de masse Principe : propulser les fragments de protéines dans un tube sous vide. Pendant leur vol, les fragments se séparent selon leur masse, les plus légers arrivent les premiers sur le détecteur en bout de tube. Mesure du temps de parcours = mesure de la masse
Spectrométrie de masse Résultat : spectre de masse des fragments de la protéine Liste de masses - 2716.23 - 2284.16 - 2212.10 - 1882.97 - …
Spectrométrie de masse Analyse des données : la liste de masses de la protéine est comparée aux listes de masses théoriques obtenues à partir des séquences protéiques dérivées du génome. Actine - 2716.23 - 2284.16 - 2212.10 - 1882.97 - 1312.25 Génome connu Protéine X - 2716.23 - 2284.16 - 2212.10 - 1882.97 Cytokeratine - 2621.23 - 1985.36 - 1524.59 - 1212.36 Protéome Cytochrome C - 3002.28 - 1684.53 - 1124.53 - 969.12
Outils informatiques pour l’étude des protéines Bases de données Comme pour le gènes, les séquences de toutes les protéines sont stockées dans des bases de données accessibles par Internet. SwissProt : base contenant les séquences de protéines connues. En plus de la séquence, sont stockées des informations sur la protéine (structure, fonction, etc…) Logiciels de recherche dans les bases de données Pour les données de spectrométrie de masse par exemple. Différent algorithmes : SEQUEST : calcul d’un score basé sur la corrélation entre la liste de masses et les listes de masses théoriques MASCOT : calcul d’un score basé sur la probabilité de trouver une correspondance entre la liste de masse et les listes théoriques qui n’est pas due au pur hasard
Outils informatiques pour l’étude des protéines Prédiction de structure A partir de la séquence, des programmes tentent de déterminer la structure tridimensionnelle de la protéine. Nécessite beaucoup de calculs (très grand nombre de combinaisons possibles) : réalisés sur des supercalculateurs. Souvent les programmes se basent sur des modèles de structures de protéines connues (détermination de la structure par homologie).
Outils informatiques pour l’étude des protéines Le calcul partagé (grid computing) Programme Décrypthon : Mieux comprendre le fonctionnement et le rôle des protéines, prédire leur fonction si elle est inconnue, progresser dans la connaissance de leur structure en 3 dimensions, croiser les données du protéome et celles du génome - 3 supercalculateurs (Bordeaux, Lille et Paris 6) connecté par le réseau à haut débit RENATER. Puissance de calcul initiale de de 298 Gflops grille d’internautes : 75 000 volontaires qui ont permis la comparaison de 559275 séquences protéiques en moins de deux mois Berkeley Open Infrastructure for Network Computing (BOINC) - projet Predictor@home et Rosetta@home : pour la prédiction de structure de protéines impliquées dans les maladies telle que le SIDA, les cancers, etc…
Conclusions Après l’étude génome (toujours en cours), l’étude du protéome est actuellement le nouveau défi des chercheurs. Le nombre de données biologiques sur les protéines ne cesse d’augmenter et on aura encore plus besoin de l’informatique pour gérer et analyser toutes ces données.