La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Informatique en Biologie 2004 - Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :

Présentations similaires


Présentation au sujet: "Informatique en Biologie 2004 - Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :"— Transcription de la présentation:

1 Informatique en Biologie 2004 - Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur : Thierry Rose

2 Search in Protein Interaction Network : La fonction dune protéine peut être déduite de celle de ses partenaires. LISTER :- récupérer ou créer des listes dinteraction protéine/protéine, - normaliser leur format, - éliminer les redondances, - constituer les listes de références. SPIDER :- utiliser les listes de référence pour retrouver le graphe connexe qui contient une protéine requête, suivant des contraintes fixées. GRAPHER :- représenter les graphes. Informatique en Biologie 2004 - Institut Pasteur

3 Bases de données DIP : 45000 intéractions BIND : 75000 intéractions … Création - Prédiction Rosetta stone Profiles de conservation Gènes voisins … Saisie Le chercheur … Futur Puces Text mining … LISTER SPIDER GRAPHER Informatique en Biologie 2004 - Institut Pasteur Architecture

4 DIP XML PSI MI BIND Texte simple Texte délimité par des tabulations BASE DE DONNEES XML au format PSI MI LISTE SIMPLE direct PSI MI Maker XML Flattener Saisie Analyseur syntaxique : Module EXPAT de Python Informatique en Biologie 2004 - Institut Pasteur Choix du format des données

5 LISTE SIMPLE : OBJECTIF XML PSI MI : LISTE SIMPLE : RESULTAT

6 Algorithme de prédiction dintéraction : Rosetta stone Marcotte et al., 1999. Informatique en Biologie 2004 - Institut Pasteur S. cerevisiae topo II E. coli gyrB Parfois, 2 protéines A et B dun organisme sont fusionnées dans un autre organisme. Les protéines A et B ont des chances dinteragir. Base non redondante (nr) : 2 768 300 protéines... E. coli x S. cerevisiae 4300 x 6200 E. coli gyrA

7 Informatique en Biologie 2004 - Institut Pasteur Algorithme de prédiction dintéraction : Rosetta stone query_file my_db pb formatdb look for pairs rosetta pairs history une ligne par paire : concatenation de 2 lignes de la sortie Blast : historique de lassociation en paire. list_ids liste des gi de chaque protéine impliquée dans une paire prédictive. list_pairs liste des paires, tuples de gi. build fasta file buil simple list iterator BioFasta fichier FASTA (requêtes au NCBI)

8 Algorithme de prédiction dintéraction : Rosetta stone query_filemy_db fonction look for pairs iterator BioFasta single_query fonction runblast : pb blastall -p blastp -e 0,001 -m 8 -d user/my_db -i single_query Q.............. 1 ligne par hit : instanciations de la classe Hit la ligne est un attribut de Hit les paramètres sont définis ici (par défaut) méthode covers : recouvrement dans la protéine requête si Hit.target est vrai, lobjet est placé dans une liste fonction extractpairs : stocke la position dans la liste des objets Hit formant une paire (méthode covers) -> liste de tuples de position fonction builsrosettalist : concatène les attributs line de 2 objets Hit formant une paire, ecrit la ligne dans un fichier Informatique en Biologie 2004 - Institut Pasteur

9 Algorithme de prédiction dintéraction : Rosetta stone temps dexécution, paramètres et contrôles, optimisations S.cerevisiae x E. coli 6200 x 4300 1h35 de calcul E value < 10 -4 E value < 10 -6 E value < 10 -10 paire gyrA gyrB+++ nb de paires prédites 422636341718 NR 2 768 000 15 jours de calcul Faire varier le score, la taille des domaines dhomologie, des domaines non recouvrants.

10 Saisie dintéractions : Formulaire et CGI CGI avec méthode POST

11 Bases de données DIP : 45000 intéractions BIND : 75000 intéractions … Création - Prédiction Rosetta stone Gènes voisins … Saisie Le chercheur … Futur Puces Text mining … LISTER SPIDER GRAPHER DIP : 45000 intéractions Rosetta stone Le chercheur Profiles de conservation SPIN LISTER


Télécharger ppt "Informatique en Biologie 2004 - Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :"

Présentations similaires


Annonces Google