La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Informatique en Biologie 2004, Institut Pasteur

Présentations similaires


Présentation au sujet: "Informatique en Biologie 2004, Institut Pasteur"— Transcription de la présentation:

1 Informatique en Biologie 2004, Institut Pasteur
SPIN Search in Protein Interaction Network Elizabeth Remy Karine Robbe Mathieu Barthelemy Projet encadré par Thierry Rose Le « spider » : Recherche pour une protéine à partir de son identifiant de l’ensemble des protéines du même organisme qui pourraient lui être associées structuralement ou fonctionnellement.

2 SPIN spider Base de données d’interactions Rosetta
Interface utilisateur DIP (fichier XML) BIND Données personnelles Identifiant de la protéine Requête Liste de paires au format simplifié SPIN spider graphe

3 SPIN spider : parcours de graphe
Protéome de l’organisme de requête Protéine de la requête G_ G_ Immunoprecipitation qu file pointer Le réseau d’interactions protéine-protéine obtenu est un graphe: connexe et cyclique un vertex = une protéine (identifiant gi) une arête = une interaction protéine-protéine - il peut exister plusieurs arrêtes entre 2 vertex (plusieurs méthodes)

4 SPIN spider : interaction prédictive déduite du Blast
Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interactions Autre organisme

5 SPIN spider : interaction prédictive déduite du Blast
Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interaction Autre organisme

6 SPIN spider : interaction prédictive déduite du Blast
Protéine de la requête Protéome de l’organisme de requête Method = ‘Blast predictive’ Blast Blast Protéines de la base de données d’interaction Protéines de la base de données non redondante du NCBI Autre organisme

7 SPIN spider : problèmes des identifiants du NCBI gi et taxon-id
la ligne d’interaction utilise le gi et le taxon-id: G_ G_ Immunoprecipitation qu file pointer gi 2 gi différents pour la même protéine - base de données pas formatable pour le Blast Prend le premier gi de la liste taxon-id lors de la remontée du Blast, l’organisme est un nom est en latin => Il faut trouver le taxon-id Format fasta

8 SPIN spider : parseur de la sortie du Blast

9 Choix de l’algorithme: Parcours en largeur
Premiers tests de création/parcours de graphe: Le réseau comportant la protéine peut être très important (exemple: un réseau de la levure S. saccharomyces cerevisiae : interactions, 4927 protéines) Introduire la notion de niveau pour l’utilisateur, qui correspondra a la distance entre le vertex (la protéine) considéré et le vertex (la protéine) de départ Parcours en largeur : Inspiré de l’algorithme du BFS (Breadth First Search) Protéine de la requête

10 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

11 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

12 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

13 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

14 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

15 SPIN spider: Structure du programme
__dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

16 SPIN spider: exemple de résultats par niveaux
Nombre protéines nouvelles par niveau = f (niveau) Homo sapiens gi: Homo sapiens gi :66820 E. coli gi :749025 285 protéines 285 protéines 115 protéines S. cerevisiae gi :82888 S. cerevisiae gi : fichier level 4926 protéines 4926 protéines Niveau = nombre d’intermédiaires

17 fichier pairs niveau A orgA B orgB méthode

18 SPIN spider: Optimisation
Calcul en CPU.s = f (niveau) Test 1: gi= niveau= 1, 2 et 4 niveau - index + index __dict__ Attributs Protein dict_index Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ instance Attributs Test 2: gi=8288 niveau= 3, 4 et 7 gi org graph interact find_inter distance niveau - index + index

19 SPIN spider: entrée/sortie
DIP (fichier XML) Liste de paires au format simplifié simple2gml Requête (gi,niveau) file2fasta database -index Liste_simple fasta database index gml SPIN spider gml level pairs list_gi fasta simple2gml

20 fichier mis au format gml
Sortie graphique Sur yEd Graph Editor

21 SPIN spider Base de données d’interactions Rosetta
Interface utilisateur DIP (fichier XML) BIND Données personnelles Identifiant de la protéine Requête Liste de paires au format simplifié SPIN spider

22 Création de 5 fichiers temporaires
Grapher: interfaceTK Base de données d’interactions Rosetta Interface utilisateur DIP (fichier XML) Client form BIND Données personnelles Requête Identifiant de la protéine (gi) Niveau (distance) Méthode (immunoprécipitation) http Liste de paires au format simplifié http Ecriture Création de 5 fichiers temporaires (propriétaire =www) CGI SPIN spider

23

24

25


Télécharger ppt "Informatique en Biologie 2004, Institut Pasteur"

Présentations similaires


Annonces Google