Réseau d’interactions Développement, reproduction, Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions Deuxième partie intégration Molécule Fonction biochimique ou moléculaire Réseau d’interactions entre molécules Fonction cellulaire : voie, cascade, processus Cellules Tissus, organes Organismes Populations Régulations physiologiques Développement, reproduction, vieillissement Relations inter-espèces, Équilibres écologiques Migrations, Communications Octobre 2008 Bernard Jacq
Les méthodes de prédiction fonctionnelle existantes Sont souvent basées sur des inférences utilisant des données structurales (alignments de séquence, fusions de domaines, proximités géniques, profils phylogénétiques) Similarité de séquence/structure n’est pas toujours synonyme de similarité de fonction Ne peuvent souvent être appliquées qu’à un sous-ensemble de protéines Sont souvent dépendantes de la qualité de l’annotation Problème du transfert automatique d’annotations (catastrophes transitives) Nécessitent la connaissance de la séquence génomique Ne donnent pas accès à des prédictions au niveau cellulaire NB : Une prédiction doit toujours être vérifiée expérimentalement
Les approches de la fonction à grande échelle (suite) : protéome et interactome
Etude à grande échelle des complexes protéiques
ANALYSE SYSTEMATIQUE DES COMPLEXES PROTEIQUES CHEZ LA LEVURE Stratégie PCR of the TAP cassette Transformation of yeast cells Selection for positive clones Large scale cultivation Cell lysis, Tandem affinity purification 1D SDS-PAGE MALDI-TOF protein identification Bioinformatic interpretation data Gavin et al. (2002) Nature, 415:141-147
Quelques résultats 589 protéines utilisées comme entrées 78 % ont des partenaires 232 complexes identifiés 304 protéines sans annotation fonctionnelle dans YPD proposition de rôle pour 231 d’entre elles 76 % 113 protéines de fonction connue se voient attribuer une nouvelle fonction
Un RESEAU DE COMPLEXES PROTEIQUES Rouge : Cell cycle Vert foncé : Signalling Bleu foncé : Transcription, DNA maintenance, chromatin structure Rose : Protein and RNA transport Orange : RNA metabolism Vert clair : Protein synthesis and turnover Marron : Cell polarity and structure Violet: Intermediate and energy metabolism Bleu clair : Membrane biogenesis and traffic
ANALYSE STATISTIQUE DES PROTEINES ET DES COMPLEXES
L’interactome Liste de toutes les interactions entre toutes les macromolécules d’une cellule, d’un type cellulaire, d’un organisme Employé par défaut pour décrire l ’ensemble des interactions protéine-protéine
L’interactome (motivation) Les protéines n’agissent pas seules et les processus cellulaires reposent dans leur grande majorité sur des interactions spécifiques entre protéines Après avoir établi la liste des composants protéiques individuels (d’après les résultats du séquençage), une tâche essentielle est maintenant de déchiffrer la sructure, la dynamique, l’évolution des réseaux d’interaction Identifier quels sont les partenaires connus d’une protéine inconnue pourra nous aider à en comprendre la fonction
Interactome Genome Transcriptome Proteome In the interactome ith is thought that communities of proteins exist in a scale free network. We aim to find the structural basis of the interactome. Challenge: different conditions, splice variants You can basically determine the interactome for every species, but we can use homology with other species to find PPI on the protein or residue level (see next) Network community: pathway
Les Interactions : quelques définitions Interactions moléculaires Il y a interaction moléculaire entre le gène A et le gène B si le gène A (ou son ARNm ou son produit) interagit directement au niveau moléculaire avec le gène B (ou son ARNm ou son produit) --> Il existe un contact physique entre macromolécules. La majorité des interactions décrites sont de 3 types: Protéine-ADN Protéine-ARN Protéine-Protéine Les interactions peuvent être orientées (Protéine-ADN, Protéine-ARN) ou non orientées (Protéine-Protéine).
Les Interactions : quelques définitions, suite Interactions et réseaux Un ensemble d’interactions forme un réseau d’interactions Un réseau peut illustrer les relation fonctionnelles existant entre gènes/protéines Un réseau peut être représenté par un graphe orienté ou non B E •A-->B:interaction directe • A-->C-->D-->F-->G: Interactions indirectes • En bleu : le réseau D A F C G
Les Interactions : quelques définitions, fin Interactions génétiques Interactions indirectes entre gènes/protéines (mais aussi directes) Analyse et mise en évidence au niveau du phénotype de l’animal Quelques Propriétés des interactions Spécifiques Dynamiques Dépendantes des caractéristiques intrinsèques de la protéine (modularité structurale, temps de 1/2 vie, localisation…) Nombre ? Eléments de base des réseaux de régulation
CARTE D’INTERACTIONS Protéine-Protéine LEVURE, 1200 protéines Tucker, Gera, and Uetz TCB, 2001
CARTE D’INTERACTIONS PP LEVURE 1548 protéines, 2358 interactions Gris : Chromatine structure Bleu : Membrane fusion Vert : Cell structure Jaune : Lipid metabolism Rouge : Cytokinesis Schikowski et al. (2000), Nat.Biotech., 18, 1257-1261
Les réseaux protéines-ADN Facteurs de Transcription Gène 1 Gène 2 Gène 3 ..... Un trait liant 2 points Sur la circonférence Représente une interaction Protéine-ADN Comment évolue la dynamique des réseaux P-ADN en fonction des conditions physiologiques ? Crédit: N. Luscombe
Utilisation du réseau dans differentes Conditions physiologiques Cycle cellulaire Sporulation Diauxic shift Réparation du DNA Stress Crédit: N. Luscombe
On dispose maintenant, grâce aux approches à grande échelle (double hybride, Chromatin IP) de milliers d’interactions binaires entre protéines ou entre protéines et ADN Que faire avec cette masse de données ?? décrire les caractéristiques de l'organisation du protéome/interactome = statistique, approche descriptive prédire certaines « règles » à partir de l'observation du réseau = inférence, approche prédictive
Analyse fonctionnelle du réseau Comptage des interactions entre groupes fonctionnels Schwikowski et al. (2000), Nat.Biotech., 18, 1257-1261
Analyse structurale et fonctionnelle de réseaux d’interaction Quelles caractéristiques structurales peut-on mettre en évidence ? Un réseau PPI de levure 5
Analyse structurale et fonctionnelle de réseaux d’interaction Deletion phenotype: Red = lethal Green = non-lethal Orange = slow growth Yellow = unknown Ce réseau représente un type d’organisation dit « scale-free » La plupart des nœuds (protéines) ont peu d’interactions Un petit nombre de nœuds (hubs) sont connectés à un grand nombre de noeuds Un réseau PPI de levure 5
Des mesures topologiques pour caractériser un réseau Analyse structurale et fonctionnelle de réseaux d’interaction Des mesures topologiques pour caractériser un réseau Degré de connectivité Coefficient de clusterisation Longueur de chemin Crédit: N. luscombe
Méthodes d’analyse de graphes d’interactions protéine-protéine Comment identifier à l’intérieur du graphe des groupes de protéines reliées fonctionnellement ? • Approches : distance dans le graphe connectivité des protéines densité Peu dense Dense (clique) Crédit: C. Herrmann
Caractéristiques statistiques connectivité k d'une protéine = nombre de voisins k = 4 kin = 1 kout = 3 si le réseau est dirigé (réseaux protéine-ADN) , on distingue kin et kout Crédit: C. Herrmann
Caractéristiques statistiques distribution de connectivité: quelques protéines fortement connectées = « hub » beaucoup de protéines faiblement connectées Crédit: C. Herrmann
Interprétation biologique (1/3) particularité des protéines ayant un grand nombre d'interacteurs protéines structurantes ex.: PBS2 chez S. cerevisae, k=15 protéine structurante (« échafaudage ») pour le complexe MAP-kinase protéines létales ex.: Jeong et al. ont montré une corrélation entre la connectivité d'une protéine et son caractère létal chez la levure « plus une protéine a de partenaires, plus elle est essentielle » Crédit: C. Herrmann
Interprétation biologique (2/3) Si des protéines ont une grande densité de connections ... ... c'est qu'elles forment un module fonctionnel 2 type de modules fonctionnels les complexes protéiques (interactions simultanées) les voies de signalisation/voies métaboliques (interactions consécutives) Crédit: C. Herrmann
Interprétation biologique (3/3) voie de transduction du signal déclenchée par la phéromone levure module impliqué dans la régulation du cycle cellulaire [Spirin & Mirny, PNAS 2003] Crédit: C. Herrmann
Peut-on utiliser les réseaux d'interaction pour faire de la prédiction ? Prédire quoi ? on dispose d'informations encore très partielles sur le rôle des protéines [date: 9/11/2004] les réseaux d'interactions sont un moyen privilégié pour inférer des fonctions Crédit: C. Herrmann
Exemple de prédiction à partir d’un réseau d'interaction PP levure [Schwikowski et al., Nature Biotech 2000] Observation: les protéines de même fonction ont tendance à être en interaction directe les unes avec les autres Règle inférée: on peut déduire la fonction d'une protéine à partir des fonctions de ses voisines source d'erreurs Crédit: C. Herrmann
Utilisation de la clusterisation fonctionnelle Comment peut-on systématiser les prédictions fonctionnelles faites à partir de réseaux d’interactions ? Utilisation de la clusterisation fonctionnelle Exemple de la méthode Prodistin (PROtein DIStance based on INteractions Brun et al., Genome Biology (2003) R, R6
What can be inferred about the functional relationships between A and B on the one hand and C and D on the other ? Tucker, Gera and Uetz Trends in Cell Biology, March 2001 A B C D C and D interact directly and share several common interactors, whereas A and B do not It is likely that the network (cellular) functions of C and D are related whereas that of proteins A and B are not
Principles of our functional classification method (ProDistIn) … Do not compare proteins themselves but… …compare the lists of their interactors… • Etablish a functional distance between proteins using lists of common and specific interactors • Calculate the distance for all possible pairs of proteins • Perform a clusterisation (NJ) • Visualisation of result as a tree (dendrogram)
ProDistIn : the 3 first steps j k l m Z T n o p In order to make a functional comparison between N proteins: - calculate D for all pairwise comparisons of proteins - fill in a distance matrix ProDistIn : the 3 first steps 1- Czekanovski-Dice distance for protein pairs e c a b f g h Y d X D(X, Y) = X spec + Y spec (X U Y) + (X Y) 1 + 4 8 + 3 = 0.45 = - T 0.84 Z 0.66 0.6 Y 0.77 0.5 0.45 X 2- distance table for all possible pairs X Y Z T 3- clusterisation and tree drawing Apply a clusterisation method (e.g. NJ) and build a functional similarity tree
Test on the yeast proteome • A total of 2946 direct protein-protein interactions involving 2143 proteins • Only proteins with at least 3 interactors are considered further =>Classification of 602 yeast proteins (10% of the proteome) • Double-hybrid screens (Fromont-Racine et al., Uetz et al., Ito et al.) • literature (via MIPS and YPD) • Information Extraction on Medline yeast abstracts Data from :
RESULT : FUNCTIONAL PROXIMITY TREE FOR 602 YEAST PROTEINS
Il existe maintenant des bases de données dédiées aux interactions • Les interactions sont devenues en quelques années des données essentielles pour analyser et comprendre les fonctions des gènes et protéines • Pour chaque organisme et dans chaque type cellulaire, il existe probablement des dizaines, centaines de milliers voire millions d’interactions moléculaires différentes • Il est nécessaire de stocker informatiquement les données relatives aux interactions Il existe maintenant des bases de données dédiées aux interactions Exemple des bases DIP et BIND …
La biologie à grande échelle conduit à un changement de vision de la fonction des protéines Vision classique La fonction de la protéine A est définie par son action de transformation du substrat (S) en produit (P) S (Substrat) P (Produit) A Nouvelle vision A La fonction de la protéine A est définie par Le contexte des ses interactions avec d ’autres produits dans la cellule
C ’EST FINI !
Le double-hybride dans la levure Uetz et al. (2000) Nature, 403:623-627 Ito et al. (2000) PNAS, 97:1143-1147
Le double-hybride dans la levure : bas-débit et haut-débit Schächter (2002)
Le double-hybride dans la levure : automatisation Kumar and Snyder (2001)
PRINCIPAUX CRIBLES DOUBLE-HYBRIDE A GRANDE ECHELLE Schachter (2002) DDT,7:S48-S54
Avantages et inconvénients des deux méthodes Approche double-hybride : + Mise en évidence d’interactions binaires carte d’interactions + Automatisable Nombreux faux positifs des appâts semblent interagir avec beaucoup de protéines car ils sont auto-activateurs, pb des proies collantes Nombreux faux-négatifs repliement incorrect, localisation subcellulaire incorrecte, absence de modification post-traductionnelle Ne met en évidence que les interactions « durables » Approche Spectrométrie de masse : + On peut détecter les interactions du signalling - Impératif de stabilité, solubilité, temps, concentration, taille Approche chromosomique : pb tag des gènes essentiels