Informatique en Biologie 2004, Institut Pasteur

Slides:



Advertisements
Présentations similaires
Présentation du prototype :
Advertisements

Parcours.
Material/Sources: Daniel Bardou, Julie Dugdale &
Linq, fonctionnement et architecture
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Modèle Entités-Associations
Les technologies XML Cours 3 : Les APIS XML Janvier Version 1.0 -
BLAST parallélisé avec une banque de protéines Comparaison avec BLAST sur n machines du protéome de la levure (fichier dentrée de 5 Mo, divisé en n fichiers)
Programmation et projet encadré
TP 3-4 BD21.
11:16:331 Programmation Web Programmation Web : Formulaires HTML Jérôme CUTRONA
S.T.S. S.I.O. 1ère année La gestion de projets
Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004.
Développement d’applications Intranet
Bioinformatique =?? génomique protéomique
XML-Family Web Services Description Language W.S.D.L.
UNIVERSITE CHOUAIB DOUKKALI Département des mathématiques
Heuristiques A. Introduction B. Recherche d ’une branche
Lycée Louis Vincent Séance 1
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Interface CWIPI Thierry Morel Formation OpenPALM avril 2012
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T Réseau BD 11/12/08 Hibernate Search Réunion dunité – 23/10/2008 Erik Kimmel.
Structures de données IFT-2000
Structures de données IFT-2000
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Algorithme Génétique et Gestion de Projet
Vous avez dit Homo sapiens sapiens ?. .
Module 2 : Préparation de l'analyse des performances du serveur
Atelier de formation : MAT optimisation II (les graphes).
Solvent eXtraction Database - INTERNET -
Recherche heuristique dans les bases de données L’algorithme BLAST
- Projet informatique ECE 2004/ Bienvenue sur METRO FUTE.
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
PHP 3° PARTIE : GESTION DE FICHIERS ET DE REPERTOIRES
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
0 Objectifs de la session n°1  Revenir sur toutes les bases théoriques nécessaires pour devenir un développeur Web,  Découvrir l’ensemble des langages.
Développement d’application client/serveur
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
CEG3585/CEG3555 Tutorat 2 Hi ver 2013.
Séminaire INGI 2591 Attaques Web Accardo Nicolas Blerot Olivier Couvreur Pascal Depry Fabian.
Application de gestion des retards
Angela Formisano Profession: Responsable graphique Classe: V A linguistique Année:2007/2008.
Initiation à Access: Interfaces
Struts.
Configuration d'un serveur DNS
COMPARAISON ENTRE GNUTELLA ET FREENET
Fichier=open('monfichier.txt','w') >>> fichier.write('bonjour\n') 8 >>> liste ['le chien', 'le chat', 'le loup'] >>> for s in liste: fichier.write(s+'\n')
LOGO 2010/2011 Encadré par: Mr Chaouech Helmi Elaborée par: Galloussi Ons Université de Carthage Faculté des Sciences économique et de Gestion de Nabeul.
Un service de partage de données pour DIET : GDS basé sur JuxMem Mathieu Jan Projet PARIS Lyon, 5 décembre 2003.
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
Intelligence Artificielle
Service de vidéo à la demande Projet Tutoré : Groupe C3 Université Paris 5.
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
MobyleNet – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Le DNS B.T.S. S.I.O – SISR3 –
Informatique et Sciences du Numérique
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Module 2 : Planification de l'installation de SQL Server
Recherche heuristique dans les bases de données L’algorithme BLAST
LE SERVEUR PROXY Un serveur proxy (traduction française de «proxy server», appelé aussi «serveur mandataire») est à l'origine une machine faisant fonction.
SOAP et les RPC XML SOAP WSDL RPC. Rappels sur le XML Langage avec des balises Très lisible Pour stocker des données Séparation entre contenu et présentation.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Initiation aux bases de données et à la programmation événementielle
Développement du jeu Ricochet Robots pour Android
Projet lif7 : Zelda Armes
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
INF2005– Programmation web– A. Obaid Les cartes. INF2005– Programmation web– A. Obaid Images cliquables Outil permettant d'effectuer des liens à partir.
Transcription de la présentation:

Informatique en Biologie 2004, Institut Pasteur SPIN Search in Protein Interaction Network Elizabeth Remy Karine Robbe Mathieu Barthelemy Projet encadré par Thierry Rose Le « spider » : Recherche pour une protéine à partir de son identifiant de l’ensemble des protéines du même organisme qui pourraient lui être associées structuralement ou fonctionnellement.

SPIN spider Base de données d’interactions Rosetta Interface utilisateur DIP (fichier XML) BIND Données personnelles Identifiant de la protéine Requête Liste de paires au format simplifié SPIN spider graphe

SPIN spider : parcours de graphe Protéome de l’organisme de requête Protéine de la requête G_7 8400738 0 0 0 9606 G_12 627657 0 0 0 9606 Immunoprecipitation qu file pointer Le réseau d’interactions protéine-protéine obtenu est un graphe: connexe et cyclique un vertex = une protéine (identifiant gi) une arête = une interaction protéine-protéine - il peut exister plusieurs arrêtes entre 2 vertex (plusieurs méthodes)

SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interactions Autre organisme

SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interaction Autre organisme

SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Method = ‘Blast predictive’ Blast Blast Protéines de la base de données d’interaction Protéines de la base de données non redondante du NCBI Autre organisme

SPIN spider : problèmes des identifiants du NCBI gi et taxon-id la ligne d’interaction utilise le gi et le taxon-id: G_7 8400738 0 0 0 9606 G_12 627657 0 0 0 9606 Immunoprecipitation qu file pointer gi 2 gi différents pour la même protéine - base de données pas formatable pour le Blast Prend le premier gi de la liste taxon-id lors de la remontée du Blast, l’organisme est un nom est en latin => Il faut trouver le taxon-id Format fasta

SPIN spider : parseur de la sortie du Blast

Choix de l’algorithme: Parcours en largeur Premiers tests de création/parcours de graphe: Le réseau comportant la protéine peut être très important (exemple: un réseau de la levure S. saccharomyces cerevisiae : 15340 interactions, 4927 protéines) Introduire la notion de niveau pour l’utilisateur, qui correspondra a la distance entre le vertex (la protéine) considéré et le vertex (la protéine) de départ Parcours en largeur : Inspiré de l’algorithme du BFS (Breadth First Search) Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

SPIN spider: exemple de résultats par niveaux Nombre protéines nouvelles par niveau = f (niveau) Homo sapiens gi:1070666 Homo sapiens gi :66820 E. coli gi :749025 285 protéines 285 protéines 115 protéines S. cerevisiae gi :82888 S. cerevisiae gi :1077878 fichier level 4926 protéines 4926 protéines Niveau = nombre d’intermédiaires

fichier pairs niveau A orgA B orgB méthode

SPIN spider: Optimisation Calcul en CPU.s = f (niveau) Test 1: gi=1070666 niveau= 1, 2 et 4 niveau - index + index __dict__ Attributs Protein dict_index Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ instance Attributs Test 2: gi=8288 niveau= 3, 4 et 7 gi org graph interact find_inter distance niveau - index + index

SPIN spider: entrée/sortie DIP (fichier XML) Liste de paires au format simplifié simple2gml Requête (gi,niveau) file2fasta database -index Liste_simple fasta database index gml SPIN spider gml level pairs list_gi fasta simple2gml

fichier mis au format gml Sortie graphique Sur yEd Graph Editor

SPIN spider Base de données d’interactions Rosetta Interface utilisateur DIP (fichier XML) BIND Données personnelles Identifiant de la protéine Requête Liste de paires au format simplifié SPIN spider

Création de 5 fichiers temporaires Grapher: interfaceTK Base de données d’interactions Rosetta Interface utilisateur DIP (fichier XML) Client form BIND Données personnelles Requête Identifiant de la protéine (gi) Niveau (distance) Méthode (immunoprécipitation) http Liste de paires au format simplifié http Ecriture Création de 5 fichiers temporaires (propriétaire =www) CGI SPIN spider