Protéomique Protéome = ensemble des protéines d’une cellule, ou d’une organelle, à un instant donné (et donc sous des conditions données) Connaissance du génome n’implique pas la connaissance du protéome (régulation de la transcription, de la traduction, de la localisation cellulaire, etc.) Connaissance du transcriptome n’implique pas la connaissance du protéome (régulation de la traduction et de la localisation cellulaire, durée de vie des protéines, etc.) Schizosaccharomyces pombe http://www.nature.com/msb/journal/v3/n1/fig_tab/msb4100117_F3.html
Protéomique Génome = ensemble des gènes d’un organisme, ou d’une espèce Protéome = ensemble des protéines d’une cellule, ou d’une organelle, à un instant donné (et donc sous des conditions données) Y-a-t-il un parallèle complet entre génomique et protéomique ? La protéomique permet de quantifier les variations de leur taux d'expression en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine. Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, avec des substances. La protéomique fonctionnelle étudie les fonctions de chaque protéine. La protéomique étudie enfin la structure primaire, secondaire et tertiaire des protéines
Génome versus Transcriptome et Protéome http://www.defl.ca/~debloisj_dev/cellules/images/Cell_fundp.ac.be/cellule.jpg http://www.ac-grenoble.fr/xmallet/IMG/gene_proteine.jpg
Protéomique Génome = ensemble des gènes d’un organisme, ou d’une espèce Protéome = ensemble des protéines d’une cellule, ou d’une organelle, à un instant donné (et donc sous des conditions données) Y-a-t-il un parallèle complet entre génomique et protéomique ? Génome : taux d’erreur de la réplication, ~10-7 modifications de la chromatine (méthylation, etc.) Protéome : taux d’erreur de la transcription, 10-4 - 10-5 erreur/polymorphisme de l’épissage erreur/polymorphisme de l’édition erreur de la traduction, 10-4 repliement modifications post-traductionnelles (irréversible/réversibles) localisation cellulaire La protéomique permet de quantifier les variations de leur taux d'expression en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine. Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, avec des substances. La protéomique fonctionnelle étudie les fonctions de chaque protéine. La protéomique étudie enfin la structure primaire, secondaire et tertiaire des protéines
Électrophorèse 2D http://www-lmmb.ncifcrf.gov/phosphoDB/2d-description.gif
Electrophorèse 2D http://www.bio.davidson.edu/COURSES/genomics/2003/clement/Cox5b_Mouse%20Liver%202D%20Gel.jpg
DIFFÉRENTES VISIONS DE LA PROTÉOMIQUE Protéomique fonctionnelle : interactions protéines-protéines (double-hybride, PCA, Tap-Tag MS-MS, etc.), etc. Protéomique structurale : structure tridimensionnelle de toutes les protéines (cristallographie, RMN, etc.) Pharmacoprotéomique Etc. --> description de toutes les protéines à un instant t en utilisant la spectrométrie de masse
http://assoxenope.free.fr/cours/proteomique.pdf
http://assoxenope.free.fr/cours/proteomique.pdf
http://assoxenope.free.fr/cours/proteomique.pdf
http://www.erudit.org/revue/ms/2004/v20/n5/008428arf001n.jpg
http://assoxenope.free.fr/cours/proteomique.pdf
http://assoxenope.free.fr/cours/proteomique.pdf
http://assoxenope.free.fr/cours/proteomique.pdf
le NH2 terminal et le NH2 de la chaîne latérale de la Lys ou de l’Arg Le peptide trypsique Se termine par une Lysine ou une Arginine donc 2 sites basiques protonables par peptide : le NH2 terminal et le NH2 de la chaîne latérale de la Lys ou de l’Arg R1 R3 O O C NH C C NH C NH3+ C C OH C NH C O R2 O CH2 (CH2)3 NH3+ Lysine coursenligne.u-strasbg.fr/depotcel/DepotCel/279/Intranet/Carapito.ppt
http://assoxenope.free.fr/cours/proteomique.pdf
http://assoxenope.free.fr/cours/proteomique.pdf
http://pbil.univ-lyon1.fr/events/jobim2005/presentations/vandenbrouck.pdf
Désorption-ionisation laser assistée par matrice Matrix-Assisted Laser Desoption/Ionisation (MALDI) www.univ-lille1.fr/master-proteomique/proteowiki/images/2/23/Structure_d%27une_source_MALDI.png
Désorption-ionisation laser assistée par matrice (MALDI) Avantages : * Possibilité d'ioniser des molécules de hautes masses moléculaires * Méthode d'ionisation douce : peu de fragmentation des ions moléculaires * Permet d'analyser des échantillons de faible concentration (de l'ordre de la picomole (10-12) et de la femtomole (10-15) ) * Produit principalement des ions monochargés, spectre plus simple à analyser * Grande tolérance aux sels et aux tampons Tampon et sels Masse molaire (en g/mol) Concentration maximale compatible avec le MALDI (en mM) Tris 121 100 HEPES 238 Bicine 163 50 Urée 60 500 Guanidine 96 250 DTT 154 Glycérol 92 130 PEG 2000 2000 0,5 Triton X-100 628 1,6 NP 40 603 1,7 SDS 288 0,35 Inconvénients : * Formation d'adduits (combinaison directe de 2 espèces chimiques distinctes) et d'ions de matrice http://www.univ-lille1.fr/master-proteomique/proteowiki/index.php/D%C3%A9sorption-ionisation_laser_assist%C3%A9e_par_matrice
Ionisation par électrospray Electrospray Ionisation (ESI) Pression élevée Pression faible Avantages : molécules en solution La multicharge permet l’étude de molécule de plus haut poids moléculaire que la limite de l'analyseur Inconvénients : complique l'analyse de spectre [M+nH]n+ n pouvant aller jusqu'à plusieurs dizaines multichargé : permet étude de molécule de plus haute poids moléculaire que limite de l'analyseur (par exemple si limite d'un analyseur est 2000 Da, il est possible de mesurer des molécules de 40 000 Da avec un état de charge 20+). m/z = (M+3)/3, (M+4)/4, (M+5)/5, (M+6)/6 http://www.univ-lille1.fr/master-proteomique/proteowiki/index.php/Ionisation_par_%C3%A9lectrospray
http://assoxenope.free.fr/cours/proteomique.pdf
Temps de vol Time Of Flight (TOF) m étant la masse v la vitesse l la distance parcourue pendant le vol t le temps de vol z la charge de l’ion V la tension accélératrice e étant la charge élémentaire http://fr.wikipedia.org/wiki/Spectrom%C3%A8tre_de_masse#L.27ionisation_.C3.A9lectronique_.28EI.29
Le temps de vol L'analyseur quadripolaire Le piège ionique quadripolaire Le FT-ICR L'orbitrappe L'analyseur à secteur magnétique
Détecteur en spectrométrie de masse Chambre d'ionisation Jonction au silicium Scintillateur Cage de Faraday Détecteur à induction Multiplicateur d'électrons Détection dans un spectromètre de masse à résonance cylcotronique Détecteur hybride Détecteur cryogénique http://www.univ-lille1.fr/master-proteomique/proteowiki/index.php/Portail:Spectrom%C3%A9trie_de_masse + grande diversité de fabricants Multitudes de types d’information et de formats de fichier
Spectrométrie de masse en tandem http://w3.umh.ac.be/~ichim/docs/99-05/principe.gif
Règles de fragmentation des peptides Biemann, 1990 2 a b c d R 1 R 3 CH 2 NH CH CO NH CH CO NH CH COOH 2 v w x y z Ions de série a, b et c : charge positive portée par la partie N-terminal Ions de série x, y et z : charge positive portée par la partie C-terminal Ions de série d, v et w : fragmentation des chaînes latérales Fragmentations basse énergie Fragmentations haute énergie Biemann K., Appendix 5, Nomenclature for peptide fragment ions (positive ions), Methods Enzymol, 1990, 193, 886-7 coursenligne.u-strasbg.fr/depotcel/DepotCel/279/Intranet/Carapito.ppt
Fragmentation des peptides : La loi du proton mobile Dongré et al., Journal of Mass Spectrometry, Vol. 31, 339-350 (1996) Les peptides ne cassent qu'une seule fois pour générer préférentiellement les fragments y et b Fragments b Fragments y +ALLLFSDGR+ +A LLLFSDGR+ +ALLLFSDGR+ Fragmentation dans la cellule de collision +AL LLFSDGR+ +ALLLFSDGR+ +ALL LFSDGR+ +ALLLFSDGR+ +ALLL FSDGR+ +ALLLF SDGR+ +ALLLFSDGR+ +ALLLFS DGR+ +ALLLFSDGR+ +ALLLFSD GR+ +ALLLFSDGR+ +ALLLFSDG R+ coursenligne.u-strasbg.fr/depotcel/DepotCel/279/Intranet/Carapito.ppt
Exemple de spectre MS/MS En abscisse, le rapport masse/charge ; en ordonnée, le pourcentage des ions possédant une masse donnée. En pratique, seul l'espacement entre les pics est interprété, pas leur hauteur. En interprétant ces espacements, il est possible de reconstituer la séquence peptidique. Sur cet exemple, la lecture du spectre de droite à gauche permet de reconstituer la séquence EWMPGQPR http://interstices.info/upload/proteomique/schema-spectre.gif
Peptide Mass Fingerprint Concentrations as low as 10 femtomoles (10-15) Cut out 2D-Gel Spot http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Peptide Mass Fingerprint Trypsin Digest http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Peptide Mass Fingerprint MS http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Peptide Mass Fingerprint http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Protein Sequence Myoglobin GLSDGEWQQV LNVWGKVEAD IAGHGQEVLI RLFTGHPETL EKFDKFKHLK TEAEMKASED LKKHGTVVLT ALGGILKKKG HHEAELKPLA QSHATKHKIP IKYLEFISDA IIHVLHSKHP GDFGADAQGA MTKALELFRN DIAAKYKELG FQG http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Protein Sequence Myoglobin GLSDGEWQQV LNVWGKVEAD IAGHGQEVLI RLFTGHPETL EKFDKFKHLK TEAEMKASED LKKHGTVVLT ALGGILKKKG HHEAELKPLA QSHATKHKIP IKYLEFISDA IIHVLHSKHP GDFGADAQGA MTKALELFRN DIAAKYKELG FQG http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Peptide Masses 1811.90 GLSDGEWQQVLNVWGK 1606.85 VEADIAGHGQEVLIR 1271.66 LFTGHPETLEK 1378.83 HGTVVLTALGGILK 1982.05 KGHHEAELKPLAQSHATK 1853.95 GHHEAELKPLAQSHATK 1884.01 YLEFISDAIIHVLHSK 1502.66 HPGDFGADAQGAMTK 748.43 ALELFR http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
Peptide Mass Fingerprint YLEFISDAIIHVLHSK GLSDGEWQQVLNVWGK GHHEAELKPLAQSHATK HGTVVLTALGGILK HPGDFGADAQGAMTK VEADIAGHGQEVLIR KGHHEAELKPLAQSHATK ALELFR LFTGHPETLEK http://www.umiacs.umd.edu/~nedwards/teaching/BCHM676_Spring_2007/handouts/Lecture3.ppt
http://www.expasy.ch/pig/publi/Thesis-StevenGay.pdf
Sensitivité versus spécificité PLOS Comp. Biol. (2008) 4:e12 Sensitivité : identifier le plus de protéines (le moins de faux négatifs) Spécificité : identifier le plus de vrais positifs
Petit rappel Le Dalton est une unité de masse qui correspond à peu près à la masse d’un atome d’hydrogène. Exprimé en g, 1 Da correspond à environ 1,66 10-24 g. Glycine 75 Alanine 89 Sérine 105 Proline 115 Valine 117 Thréonine 119 Cystéine 121 Isoleucine 131 Leucine 131 Asparagine 132 Aspartate 133 Glutamine 146 Lysine 146 Glutamate 147 Méthionine 149 Histidine 155 Phénylalanine 165 Arginine 174 Tyrosine 181 Tryptophane 204 Précision de la spectrométrie de masse : 0,1 dalton à 10 daltons Modifications post-traductionnelles Acétylation 33 Méthylation 15 Glutamylation 146 Glycylation 75 Glycosylation >30 Isoprénylation >100 Phosphorylation 95
Digest with specific protease Trypsin (K, R; not followed by P) Chymotrypsin (F, W, Y, L, M) Lys-C (K) Arg-C (R) Asp-N (D, N-terminal) V8-bicarb (E) V8-biphosph (E, D) {CNBr (M)} b http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Digest with specific protease Why trypsin? High specificity (K or R, not followed by P) Acetylated form commercially available (acetylation lessens autodigestion) Autolysis peaks are great internal calibrants (842.509 and 2212.11) (2254.12), guanidinated http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Digest with specific protease 546 aa 60 kDa; 57 461 Da pI = 4.75 >RBME00320 Contig0311_1089618_1091255 EC-mopA 60 KDa chaperonin GroEL MAAKDVKFGR TAREKMLRGV DILADAVKVT LGPKGRNVVI EKSFGAPRIT KDGVSVAKEV ELEDKFENMG AQMLREVASK TNDTAGDGTT TATVLGQAIV QEGAKAVAAG MNPMDLKRGI DLAVNEVVAE LLKKAKKINT SEEVAQVGTI SANGEAEIGK MIAEAMQKVG NEGVITVEEA KTAETELEVV EGMQFDRGYL SPYFVTNPEK MVADLEDAYI LLHEKKLSNL QALLPVLEAV VQTSKPLLII AEDVEGEALA TLVVNKLRGG LKIAAVKAPG FGDCRKAMLE DIAILTGGQV ISEDLGIKLE SVTLDMLGRA KKVSISKENT TIVDGAGQKA EIDARVGQIK QQIEETTSDY DREKLQERLA KLAGGVAVIR VGGATEVEVK EKKDRVDDAL NATRAAVEEG IVAGGGTALL RASTKITAKG VNADQEAGIN IVRRAIQAPA RQITTNAGEE ASVIVGKILE NTSETFGYNT ANGEYGDLIS LGIVDPVKVV RTALQNAASV AGLLITTEAM IAELPKKDAA PAGMPGGMGG MGGMDF http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Digest with specific protease Trypsin yields 47 peptides (theoretically) Peptide masses in Da: 501.3 533.3 544.3 545.3 614.4 634.3 674.3 675.4 701.4 726.4 822.4 855.5 861.4 879.4 921.5 953.4 974.5 988.5 1000.6 1196.6 1217.6 1228.5 1232.6 1233.7 1249.6 1249.6 1344.7 1455.8 1484.6 1514.8 1582.9 1583.9 1616.8 1726.7 1759.9 1775.9 1790.6 1853.9 1869.9 2286.2 2302.2 2317.2 2419.2 2526.4 2542.4 3329.6 4211.4 http://us.expasy.org/tools/peptide-mass.html http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Digest with specific protease Trypsin yields 47 peptides (theoretically) Peptide masses in Da: 501.3 533.3 544.3 545.3 614.4 634.3 674.3 675.4 701.4 726.4 822.4 855.5 861.4 879.4 921.5 953.4 974.5 988.5 1000.6 1196.6 1217.6 1228.5 1232.6 1233.7 1249.6 1249.6 1344.7 1455.8 1484.6 1514.8 1582.9 1583.9 1616.8 1726.7 1759.9 1775.9 1790.6 1853.9 1869.9 2286.2 2302.2 2317.2 2419.2 2526.4 2542.4 3329.6 4211.4 http://us.expasy.org/tools/peptide-mass.html http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Théorie et Pratique Supposant que l’on connaisse la séquence exacte, on peut prédire une liste de peptides (et leur masse), mais on va en voir moins par MS Digestion incomplète : enzyme n’est pas parfait (e.g. trypsine coupe moins bien quand un a.a. basique est adjacent au site de clivage) empêchement stérique cinétique Peptides perdus au cours de l’expérience : lavages mauvaise ionisation Peptides supplémentaires : contaminations clivage non spécifique modifications (e.g. oxydation de la méthionine) Bruit dans les spectres est surtout chimique, pas electrique
Digest with specific protease Trypsin yields 47 peptides (theoretically) Peptide masses in Da: 501.3 533.3 544.3 545.3 614.4 634.3 674.3 675.4 701.4 726.4 822.4 855.5 861.4 879.4 921.5 953.4 974.5 988.5 1000.6 1196.6 1217.6 1228.5 1232.6 1233.7 1249.6 1249.6 1344.7 1455.8 1484.6 1514.8 1582.9 1583.9 1616.8 1726.7 1759.9 1775.9 1790.6 1853.9 1869.9 2286.2 2302.2 2317.2 2419.2 2526.4 2542.4 3329.6 4211.4 501.3 533.3 544.3 545.3 614.4 634.3 674.3 675.4 701.4 726.4 822.4 855.5 861.4 879.4 921.5 953.4 974.5 988.5 999.7 1000.6 1196.6 1217.6 1228.5 1232.6 1233.7 1245.4 1249.6 1249.6 1344.7 1455.8 1484.6 1514.8 1582.9 1583.9 1616.8 1726.7 1759.9 1775.9 1786.2 1790.6 1853.9 1869.9 2286.2 2302.2 2317.2 2419.2 2526.4 2542.4 3329.6 4211.4 http://us.expasy.org/tools/peptide-mass.html http://academic.uofs.edu/organization/IMBM/PMF_talk.ppt
Seulement une protéine avec 5 matches parmi > 100 000 protéines Fragfit : une approche simple Fragfit (PNAS, 1993, 90:5011-5015 Quel seuil choisir ? Favorise les grosses protéines (e.g. titine, 3 Mda) Requiert une liste de peptides (et leur masse) et une base de données de séquences protéiques Calcule, pour chaque protéine, la liste théorique Calcule, pour chaque protéine, le nombre de peptides qui “matchent” (en fonction d’un seuil défini a priori) Donne la liste des protéines par ordre décroissant de nombre de matches Remplacer le nombre de fragments trouvés par la fréquence des fragments trouvés Seulement une protéine avec 5 matches parmi > 100 000 protéines Journal of the American Society for Mass Spectrometry (2003) 14:931-942
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
http://www. bioinformatics http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
INDIQUER QUE L’ON PEUT ACCEPTER DES NON-COUPURES AVEC UNE CERTAINE FREQUENCE (CONTEXTE DEPENDANT) http://www.bioinformatics.ca/workshop_pages/proteomics/lectures/DAY2/2.4.pdf
MASCOT, une approche probabiliste Perkins et al. (1999) Electrophoresis 20:3551-3567 Définir un modèle et calculer la probabilité qu’un spectre correspond à une protéine particulière Distribution a priori de la taille des peptides en fonction de la taille de la protéine Probabilité de non coupure par la protéase Probabilité de modifications post-traductionelles ou chimiques (en particulier des extrémités N et C terminales) Précision de la mesure de la masse (intervalle)
MASCOT, une approche probabiliste Avantages : Fournit naturellement une e-value Corrige naturellement pour la taille des protéines Inconvénients : Temps calcul Limitations du modèle
Comparaison des cellules mutantes, cancéreuses, de deux écotypes différents, infectées par un virus, soumises à un médicament ou à un composé toxique Regarder les différentes protéines présentes, les modifications post-traductionnelles, les différents variants d’épissage ou d’édition Regarder les complexes protéiques RNAi http://assoxenope.free.fr/cours/proteomique.pdf
Génome versus Transcriptome et Protéome Etude de la pleiotropie http://www.defl.ca/~debloisj_dev/cellules/images/Cell_fundp.ac.be/cellule.jpg http://www.ac-grenoble.fr/xmallet/IMG/gene_proteine.jpg
Quelles améliorations ? Fournir des informations supplémentaires (taille de la protéine, pI, etc.) Utiliser une banque de spectres pré-établis plutôt qu’une banque de séquences (suppose que le spectre est assez reproductible) Développer des statistiques permettant de garder le taux de faux positifs en dessous de e.g. 5% Filtrer les spectres de masse a priori pour éliminer les contaminants Utiliser des distributions plutôt que des intervalles pour prendre en compte l’erreur de mesure Identifier des mélanges de protéines (cadre Bayésien) Approche consensus Séquençage (étiquette - 3 a.a. - ou ensemble du fragment) Protéomique est une approche très séduisante. Mais le parallèle avec la génomique est trompeur. Le cadre théorique n’est pas le même : il y a 1 génome et une infinité de protéomes, car pour chaque gène, même chez les bactéries, il y a une population de séquences protéiques, qui diffèrent plus ou moins les unes des autres. Identifier le niveau d’expression du gène (avec toutes les difficultés que cela représente) ne permet pas de caractériser cette population. La base théorique de la protéomique est donc pour l’instant insuffisante et cela constituera une limite majeure à moyen terme. Cependant, à court terme, c’est une opportunité extraordinaire pour les biochimiques et pour les bio-informaticiens. La MS peut être ajoutée à la plupart des approches biochimiques existantes et fournir une meilleure, même si elle est imparfaite, caractérisation du protéome. Les bioinformaticiens peuvent améliorer les méthodes d’identification, même si ils sont souvent limités par la qualité des données (dépend des choix et des limites des méthodes biochimiques et physiques). Finalement, ne pas perdre de vue un effet néfaste de la protéomique (et de tout progrès scientifique en général), le coût environnemental est de plus en plus élevé : de plus en plus de machines, de plus en plus de données, donc plus de disques durs, plus d’ordinateurs, plus de temps calcul. Pour vous fixer les idées, dans un domaine de recherche tout à fait différent, la physique quantique. 1 million de dollars au Japon