Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur : Thierry Rose
Search in Protein Interaction Network : La fonction dune protéine peut être déduite de celle de ses partenaires. LISTER :- récupérer ou créer des listes dinteraction protéine/protéine, - normaliser leur format, - éliminer les redondances, - constituer les listes de références. SPIDER :- utiliser les listes de référence pour retrouver le graphe connexe qui contient une protéine requête, suivant des contraintes fixées. GRAPHER :- représenter les graphes. Informatique en Biologie Institut Pasteur
Bases de données DIP : intéractions BIND : intéractions … Création - Prédiction Rosetta stone Profiles de conservation Gènes voisins … Saisie Le chercheur … Futur Puces Text mining … LISTER SPIDER GRAPHER Informatique en Biologie Institut Pasteur Architecture
DIP XML PSI MI BIND Texte simple Texte délimité par des tabulations BASE DE DONNEES XML au format PSI MI LISTE SIMPLE direct PSI MI Maker XML Flattener Saisie Analyseur syntaxique : Module EXPAT de Python Informatique en Biologie Institut Pasteur Choix du format des données
LISTE SIMPLE : OBJECTIF XML PSI MI : LISTE SIMPLE : RESULTAT
Algorithme de prédiction dintéraction : Rosetta stone Marcotte et al., Informatique en Biologie Institut Pasteur S. cerevisiae topo II E. coli gyrB Parfois, 2 protéines A et B dun organisme sont fusionnées dans un autre organisme. Les protéines A et B ont des chances dinteragir. Base non redondante (nr) : protéines... E. coli x S. cerevisiae 4300 x 6200 E. coli gyrA
Informatique en Biologie Institut Pasteur Algorithme de prédiction dintéraction : Rosetta stone query_file my_db pb formatdb look for pairs rosetta pairs history une ligne par paire : concatenation de 2 lignes de la sortie Blast : historique de lassociation en paire. list_ids liste des gi de chaque protéine impliquée dans une paire prédictive. list_pairs liste des paires, tuples de gi. build fasta file buil simple list iterator BioFasta fichier FASTA (requêtes au NCBI)
Algorithme de prédiction dintéraction : Rosetta stone query_filemy_db fonction look for pairs iterator BioFasta single_query fonction runblast : pb blastall -p blastp -e 0,001 -m 8 -d user/my_db -i single_query Q ligne par hit : instanciations de la classe Hit la ligne est un attribut de Hit les paramètres sont définis ici (par défaut) méthode covers : recouvrement dans la protéine requête si Hit.target est vrai, lobjet est placé dans une liste fonction extractpairs : stocke la position dans la liste des objets Hit formant une paire (méthode covers) -> liste de tuples de position fonction builsrosettalist : concatène les attributs line de 2 objets Hit formant une paire, ecrit la ligne dans un fichier Informatique en Biologie Institut Pasteur
Algorithme de prédiction dintéraction : Rosetta stone temps dexécution, paramètres et contrôles, optimisations S.cerevisiae x E. coli 6200 x h35 de calcul E value < E value < E value < paire gyrA gyrB+++ nb de paires prédites NR jours de calcul Faire varier le score, la taille des domaines dhomologie, des domaines non recouvrants.
Saisie dintéractions : Formulaire et CGI CGI avec méthode POST
Bases de données DIP : intéractions BIND : intéractions … Création - Prédiction Rosetta stone Gènes voisins … Saisie Le chercheur … Futur Puces Text mining … LISTER SPIDER GRAPHER DIP : intéractions Rosetta stone Le chercheur Profiles de conservation SPIN LISTER