Réseau d’interactions Développement, reproduction, Mastère BBSG-M2 Marseille 2007-2008 Bioinformatique fonctionnelle des protéines intégration Molécule Fonction biochimique ou moléculaire Réseau d’interactions entre molécules Fonction cellulaire : voie, cascade, processus Cellules Tissus, organes Organismes Populations Régulations physiologiques Développement, reproduction, vieillissement Relations inter-espèces, Équilibres écologiques Migrations, Communications Bernard Jacq, IBDML
Des constats (1/2) Le fait de disposer de plusieurs dizaines de séquences génomiques donne (potentiellement) accès aux protéomes complets de nombreuses espèces Des comparaisons de séquences de protéomes complets sont maintenant réalisables permettant de commencer à classer structuralement et fonctionnellement les protéines du monde vivant
Des constats (2/2) Le fossé s’accroit entre le nombre de séquences protéiques déterminées, le nombre de structures 3D disponibles et le nombre de fonctions expérimentalement connues pour ces séquences Il y a un besoin de plus en plus important pour prédire des structures ou des fonctions pour des protéines totalement ou partiellement inconnues
QU’APPELLE T’ON LA FONCTION D’ UNE PROTEINE ? La structure d ’une protéine correspond à la représentation d ’un objet physique Même s ’il est trop petit pour être directement visible, nous avons une idée précise de sa constitution et de sa forme (structures 1D, 2D, 3D) La (les) fonction(s) d ’une protéine correspondent à des propriétés effectrices de la structure
différents niveaux de fonction On peut distinguer différents niveaux de fonction LA FONCTION BIOCHIMIQUE Activité moléculaire du produit d’un gène Exemples : ATPase, protéine affine de l’ADN… LA FONCTION CELLULAIRE Processus cellulaire dans lequel le produit du gène intervient intégration de la fonction biochimique au sein d’un processus Exemples : Synthèse de l’ADN, métabolisme des nucléotides, traffic des protéines .....
EXEMPLE : LES FONCTIONS DE LA PROTEINE RAP1 De LEVURE Fonctions biochimiques : Facteur de transcription Protéine affine de l’ADN Fonctions cellulaires : Transcription dépendante de l’ARN polymérase II Structure de la chromatine/ des chromosomes Métabolisme des carbohydrates
Niveaux d’intégration des fonctions Niveaux d’organisation Niveaux fonctionnels intégration Cellules Tissus, organes Organismes Populations Régulations physiologiques Développement, reproduction, vieillissement Relations inter-espèces, Équilibres écologiques Migrations, Communications Réseau d’interactions entre molécules Fonction cellulaire : voie, cascade, processus Molécule Fonction biochimique ou moléculaire
La fonction : une notion complexe • Une fonction se définit par rapport à un niveau structural • Une protéine peut avoir plusieurs fonctions, au sein d ’un même niveau et/ou entre niveaux différents • Comment représenter informatiquement la notion de fonction ? • la nécessité d’un language commun : l’initiative GO (Gene Ontology)
1- Approche « classique » Comment accéder à la fonction d’un gène/protéine ? 1- Approche « classique » Analyse génétique Biologie moléculaire Biologie moléculaire, Bioinformatique Analyses génétique, biochimique Phénotype mutant DU GENE … Clonage du gène Séquençage, structure Fonction biochimique inférée Fonction biochimique, Fonction cellulaire (dans un contexte peu connu) Tests fonctionnels
… A L’ANALYSE DES SYSTEMES Comment accéder à la fonction d’un gène/protéine ? 2- Approche génomique … A L’ANALYSE DES SYSTEMES Les gènes/protéines sont les composants élémentaires d’un système dont on étudie les variations Génomique et protéomique fonctionnelles, Bioinformatique Fonction cellulaire et niveaux d’intégration supérieurs de la fonction L’approche change, le raisonnement du biologiste aussi…
L’utilisation de données “complètes” change tout En biologie moléculaire classique, l’ingéniosité consiste à essayer d ’apporter une réponse fonctionnelle pour un gène en ignorant presque tous les autres (99,9% des gènes) En génomique, l’ingéniosité est de découvrir ce qui devient possible quand vous « voyez » tous les gènes Il faut changer complètement de mode de raisonnement ...
Passer du réductionisme à l’analyse de systèmes • En biologie moléculaire : disséquer un phénomène complexe en ses plus petits éléments et caractériser chacun d’eux. Problème: Il est très difficile d’essayer de mettre ensuite les pièces du puzzle ensemble: Soient A, B, C : A+B+C = ? • En génomique : Utiliser la cellule come un tube à essais dont l’ensemble des composants serait “visible”. Il devient possible de “voir” A+B+C (+D+E+…) travaillant ensemble. On étudie comment tous les composants élémentaires travaillent ensemble en identifiant des groupes fonctionnels non initialement connus. On étudie alors le comportement du système.
Les prédictions bioinformatiques
Les prédictions bioinformatiques Plusieurs approches importantes en prédictions structurales et fonctionnelles prédiction de la séquence protéique à partir de l’ADN génomique (identification start/stop de transcription et de traduction, prédiction et identification jonctions exons-introns) prédiction de la structure 2D ou 3D à partir des séquences prédiction des fonctions protéiques à partir des séquences prédiction de la fonction protéique à partir de la structure Nouvelles méthodes de prédiction fonctionnelle fournies par la génomique
La méthode de prédiction de fonction « classique » utilisant les données de séquence Crédit 3 diapos: Christine Brun
Méthodes de prédiction fonctionnelle existantes (I) Inférence par homologie 1- recherche de similitudes Séquences (Blast) Structures (Prosite, Prodom, PDB) 2- utilisation des annotations des protéines similaires Texte libre EC code (Enzyme Commission) (1- oxydoreductase; 2- transferase; 3- hydrolase; 4- lyases; 5- isomerase; 6- ligases) Mots clefs (classification, ontologies)
L’inférence de fonction par homologie de séquence ou de structure Renseigne sur les fonctions biochimiques et moléculaires Dépend de la qualité des annotations Dépend de l’étendue des connaissances Ne renseigne pas sur le contexte et les fonctions cellulaires
Quand l’inférence de fonction par homologie ne suffit pas… Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase)
Mutation d ’un acide aminé de la triade catalytique Le domaine cholinesterase de la neurotactine de Drosophile a des propriétés d’adhésion et non plus d’activité cholinestérase Darboux et al. (1996), EMBO J, 15: 4835-43
Quand l’inférence de fonction par homologie ne suffit pas… Une variation de séquence très subtile peut conduire à une variation de fonction importante (exemple: neurotactine vs. acetylcholinesterase) Des protéines ne partageant aucune similarité de séquence peuvent avoir des structures 3D similaires (exemple: le domaine de fixation à l’ADN de EBNA1 vs. E2)
Des protéines dont la structure primaire est différente peuvent avoir des structures 3D identiques Exemple : EBNA1 et E2 Bochkarev et al. (1995) Cell 83: 39-46
Les méthodes de prédiction de fonction utilisant les données de la génomique
Quelles informations, apportées par la génomique, peuvent être utilisées pour la mise au point de méthodes de prédiction fonctionnelle ? Les variations de séquences entre organismes Les séquences regulatrices près des gènes Le contenu en gènes d’un organisme La variation du contenu en gènes entre organismes La variation de l’ordre des gènes entre organismes La variation d’organisation des gènes entre organismes
Méthodes de prédiction fonctionnelle existantes II Inférences par corrélation La variation d’organisation des gènes entre organismes Méthode de la pierre de Rosette (Marcotte et al. (1999), Science 285, 751-753) La variation de l’ordre des gènes entre organismes Méthode des gènes voisins (Dandekar et al. (1998) TIBS 23, 324-328; Overbeek et al. (1999) PNAS 96, 2896-2901) La variation du contenu en gènes entre organismes Méthode des profils phylogénétiques (Pellegrini et al. (1999) PNAS 96,4285-4288)
La méthode de la « Pierre de Rosette » Principe : utilise la variation d’organisation des gènes entre organismes et la modularité des protéines Si dans un génome 1, on trouve un gène A composé d’un module A et un gène B composé d’un module B Si dans un génome 2, le module A et le module B sont associés pour former un seul gène C contenant A+B Alors A et B pourraient être des gènes/protéines fonctionnellement reliés. Marcotte et al., Science 285, 751-753 (1999)
La méthode de la « Pierre de Rosette » exemples Marcotte et al., Science 285, 751-753 (1999)
La méthode des gènes voisins Principe : utiliser la variation de l’ordre des gènes ou des groupes de gènes sur les chromosomes D A B C Génome 1 D A C B Génome 2 A B C Génome 3 A B C Génome 4 D D Les gènes & sont fonctionnellement reliés A B Dandekar et al. TIBS 1998 Overbeek et al. PNAS 1999
Exemple : Groupes fonctionnels dans la glycolyse BB, Borrelia burgdorferi; DR, Deinococcus radiodurans; CA, Clostridium acetobutylicum; BS, Bacillus subtilis; EF, Enterococcus faecalis; MP, Mycoplasma pneumoniae; MG, Mycoplasma genitalium; ML, Mycobacterium leprae; MT, Mycobacterium tuberculosis; CJ, Campylobacter jejuni; TP, Treponema pallidum; HP, Helicobacter pylori; ST, Streptococcus pyogenes; PN, Streptococcus pneumoniae. Overbeek et al. (1999) PNAS 96, 2896-2901
La méthode des profils phylogénétiques Principe : utiliser les corrélations + ou - de variation du contenu en gènes entre organismes Pellegrini et al. PNAS 96, 4285-4288 (1999)
prédiction fonctionnelle Méthodes combinées de prédiction fonctionnelle Marcotte et al., Nature 402, 83-6 (1999)
Un réseau de liens fonctionnels entre protéines Nature 402, 83-6 (1999)
L’inférence de fonction par corrélation : bilan Renseigne sur l’existence probable de liens fonctionnels entre protéines Ces liens fonctionnels suggèrent : que les protéines participent à une même voie, un même processus cellulaire fonction cellulaire parfois qu’il existe des interactions directes entre protéines (interaction protéine-protéine)
Prédictions de fonction Structure Séquence Fonction Transcriptome Génome Protéome Interactome