Centre Régional Languedoc-Roussillon Présentation CONSERVATOIRE NATIONAL DES ARTS ET MÉTIERS Centre Régional Languedoc-Roussillon Spécialité : INFORMATIQUE MÉMOIRE Création d’une application intégrée pour la gestion et l’analyse de données protéomiques Cédric Bouttes
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 2.1 Comparaison de séquences 2.2 Recherche de motifs 2.3 Elimination de la redondance 4 Conclusion et perspectives
Génoplante, programme fédérateur en génomique végétale 1 Contexte et objectifs Génoplante, programme fédérateur en génomique végétale INRA CNRS IRD CIRAD Biogemma Bioplante
Les données génomiques générées dans Génoplante 1 Contexte et objectifs Les données génomiques générées dans Génoplante bioinformatique gène Chromosome Position des gènes ATTGCACTCCCTAAG Séquence d’ADN Structure des gènes Cartographie génétiques thématique INRA CNRS IRD CIRAD Biogemma Bioplante Fonction des gènes Données Analyse de séquences / Polymorphisme thématique Transcriptomique thématique Mesure Expression des gènes Séquence protéique Protéomique thématique I A V P K Produit d’expression des gènes GENOPLANTE INFO
Le système d’information de Génoplante 1 Contexte et objectifs Le SI de Génoplante Le système d’information de Génoplante GENOPLANTE INFO GpiIS (Genoplante-info information system) Cartographie Génétique Séquences Polymorphisme génétique Transcriptome Protéomique Protéomique GnpProt Contexte intégratif utilisateur
Un objectif double : Un système intégré (GnpProt) et local (ProteomIs) 1 Contexte et objectifs Le SI de Génoplante Un objectif double : Un système intégré (GnpProt) et local (ProteomIs) GENOPLANTE INFO GpiIS (Genoplante-info information system) Cartographie Génétique Séquences Polymorphisme génétique Transcriptome Protéomique Protéomique GnpProt Contexte intégratif Laboratoires partenaires Protéomique ProteomIs UR1199 Montpellier, URPVI Nantes, UMR 5546 Toulouse, UMR 5019 Grenoble Gestion et visualisation des données de laboratoire Liens avec les bases de données publiques Analyse des données de séquences Contexte local utilisateur utilisateur
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Gestion des données protéomiques : Analyse de l’existant 2 Gestion et visualisation des données 2.1 Solutions et choix Gestion des données protéomiques : Analyse de l’existant Gestion Des Données Extrait Echantillon Séparation des protéines Gel 2D (possible 1D ou Liquid chromatographie) 1 spot ? Prélèvement Scan et analyse de l’image du gel Supports de stockages Digestion trypsique 184 Fichiers Excel Images gels Analyse par spectrométrie de masse Fichiers textes : Listes de masses Interrogation en banque (e.g logiciel Mascot) Notes papiers Fichiers html : Résultats (Mascot) Fichiers pdf : publications
Gestion des données protéomiques : Conception du MCD 2 Gestion et visualisation des données 2.1 Solutions et choix Gestion des données protéomiques : Conception du MCD Gestion Des Données Extrait Echantillon Séparation des protéines Gel 2D (possible 1D ou Liquid chromatographie) 1 spot ? Prélèvement Scan et analyse de l’image du gel Digestion trypsique BD ProteomIs/GnpProt Echantillons et extraits Protocoles Séparation des protéines Données administratives Identification des proteines 51 classes Analyse par spectrométrie de masse Interrogation en banque (e.g logiciel Mascot)
Gestion des données Contrainte au niveau de la conception du MCD 2 Gestion et visualisation des données 2.1 Solutions et choix Contrainte au niveau de la conception du MCD Gestion des données Base de données GpiIS classes communes Transcriptome Protéomique GnpProt Extraits Protocoles Echantillons Contacts Séquences Cartographie Génétique Séquences Polymorphisme génétique
Gestion des données SQL Choix imposé au niveau du SGBD 2 Gestion et visualisation des données 2.1 Solutions et choix Choix imposé au niveau du SGBD Gestion des données Dû à la solution d’intégration des données choisi par Génoplante : approche centralisée BD GpiIS relationnelle Avantages : robustesse, efficacité du SQL, sécurité et intégrité des données Base de données GpiIS Interface SQL SGBD relationnel Postgres/Oracle Transcriptome Protéomique GnpProt Extraits Protocoles Echantillons Contacts Séquences Cartographie Génétique Séquences Polymorphisme génétique
Gestion Des Données Saisie ? Consultation ? INTERFACES répertoire 2 Gestion et visualisation des données 2.1 Solutions et choix Gestion des données protéomiques : Solution retenue Gestion Des Données SAISIE Format d’échange Importation (scripts Perl, SQL) INTERROGATION VISUALISATION INTERFACES consultation Saisie ? Consultation ? BD relationnelle ProteomIs/GnpProt répertoire
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Processus de développement 2 Gestion et visualisation des données 2.2 Réalisation des interfaces sept 2002 Veille technologique (autour des outils existants : Paris, Protic, PPMdb …) Cahier des charges (solutions et choix) Conception du MCD Analyse / cas d’utilisation (saisie, consultation et analyse des données) Maquette des interfaces avril 2002 Analyse et conception Développement du format d’échange 1 ingénieur Développement des interfaces 1 stagiaire avril 2003 - Livraison ProteomIs avril 2004 - Développement des outils d’analyse 2 stagiaires juin 2004 - Livraison GnpProt fev 2005
Maquette des interfaces 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Réaliser l’inventaire des interfaces : Maquettes Interface de login (version locale) Interfaces d’interrogation Interfaces de visualisation des différents objets de la base (extraits, gels, spots, protéines …) Interface pour naviguer dans l’image des gels Réalisation d’une maquette powerpoint Niveau d’interactivité des interfaces : Interface de login, d’interrogation ++ Interfaces de visualisation + Interface pour naviguer dans l’image des gels ++++
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Composant présentation Analyse des besoins 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Implémentation Application accessible via Internet (GnpProt) Utilisant les services d’un SGBD (sur le serveur de Génoplante dans le cas de GnpProt) Portable (ProteomIs) Outils de développement gratuit (GnpProt et ProteomIs) Fonctionnant en multi-utilisateurs (GnpProt et ProteomIs) Réalisation d’interfaces statiques (textuelles) et interactives Composant applicatif Application Serveur Application client Base de données (SGBD) Composant présentation Java Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Composant présentation Solution retenue 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Avantage : - Facilité de déploiement - Charge client diminué Inconvenient : - Mode non connecté Implémentation architecture 3-tiers (ou client léger) Réseau Poste utilisateur Machine(s) serveur HTTP JSP/Servlets, CGI, PHP (génère le HTML) JDBC Composant présentation Composant applicatif Base de données (SGBD) HTML java script applet Interfaces de visualisation textuelles Application client Application serveur Formulaire d’interrogation Interface de navigation dans l’image d’un gel Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Poste client (Navigateur) Réseau Développement de l’applet de navigation dans l’image d’un gel 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Applet « Viewer » de gel de PPMDB Applet permettant d’explorer une carte astronomique (source : http://www.aao.gov.au/hdfs/Redshifts/hdfmap.html) Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Composant présentation Solution retenue 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Architecture 3-tiers architecture 3-tiers (ou client léger) Réseau Poste utilisateur Machine serveur HTTP JSP/Servlets, CGI, PHP (génère le HTML) JDBC Composant présentation Composant applicatif Base de données (SGBD) HTML java script applet Interfaces de visualisation textuelles Application client Formulaire d’interrogation Interface de navigation dans l’image d’un gel Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Solution retenue côté serveur : JSP/Servlet 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Avantage des Servlets sur la solution Perl/CGI : - Avantages liés à java Servlet + rapide (compilé) qu’un programme Perl (interprété) Servlet conservé en mémoire (threads) : meilleures performances, conservation de l’état Avantages JSP Pourquoi des JSP (Java Server Pages) en plus ? Avantage des JSP : - Séparation du codage de l’aspect présentation (JSP) des traitements (Java Beans) Utilisation de balise spécifique (avantage sur PHP) Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Poste client (Navigateur) Réseau Utilisation du modèle MVC (Modèle Vue Contrôleur) 2 Gestion et visualisation des données 2.2 Réalisation des interfaces MVC Poste utilisateur Réseau Application Serveur Application client Vue = JSP Contrôleur = Servlet (oriente les requêtes) requêtes HTTP Poste client Réseau Requête utilisateur Interface d’interrogation requête http basé sur le framework Struts JavaScript Présentation HTML+ Serveur Web / Serveur d’application Réseau Serveur de données html Result = 1 Traitements Données SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) Result > 1 NAVIGATEUR Modèle = Java Beans (couche d’accès aux données) Base de données (SGBD) Interface de visualisation (details) JDBC utilise ehcache du projet Hibernate Interface de visualisation (liste) Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo Analyse et conception
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Interface d’interrogation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Liste de protéines 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Fiche protéine 2 Gestion et visualisation des données Demo 2.2 Réalisation des interfaces Demo
Demo Fiche protéine Liens sur BD publiques 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Fiche protéine Liens sur BD publiques 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Fiche protéine Liens gels 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Demo Applet de navigation 2 Gestion et visualisation des données 2.2 Réalisation des interfaces Demo
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives Y V N G F G R I G R L V T
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives Y V N G F G R I G R L V T
La comparaison de séquences BLAST 3 Analyse des données 3.1 Comparaison de séquences La comparaison de séquences Mon objectif : Fournir un outil permettant de trouver une similarité entre une séquence requête et une des séquences annotées de la base de données ProteomIs Utilité : Proposer des informations complémentaires Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma
La comparaison de séquences BLAST La comparaison de séquences 3 Analyse des données 3.1 Comparaison de séquences Solution retenue : Séquence requête Interface de saisie IAVPKGIAVPKSLGSLSVAEPAMIAECK BLAST ARSHSGGELESSLGSASVAEPAMIAEES comparaison ProteomIs Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma IAVPKGIAVPKSLGSLSVAEPAMIAECK ARSHSGGELESSLGSASVAEPAMIAEES Séquence requête Séquence de ProteomIs ** * * * * e-values > 0.1 Interface de visualisation
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives Y V N G F G R I G R L V T
La recherche de motifs dans les séquences protéiques 3 Analyse des données 3.2 Recherche de motifs La recherche de motifs dans les séquences protéiques Définition : - D’un point de vue syntaxique, un motif est un segment continu dans une séquence Séquence : GKVKVGVNGFGRIGRLVTRAAGRIG Motif : GRIG de longueur 4 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 G K V K V YV N G F G R I G R L V T R A A G R I G Solution : ensemble de positions {11,22} Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma - D’un point de vue biologique, un motif est un élément souvent fonctionnel qui peut-être partagé par toute une famille de protéines Motif
La recherche de motifs dans les séquences protéiques 3 Analyse des données 3.2 Recherche de motifs La recherche de motifs dans les séquences protéiques Thématique du laboratoire : étude des motifs de phosphorylation Ma mission : construire un outil de recherche des motifs de phosphorylation dans les séquences Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma Motif
Motif La recherche de motifs dans les séquences protéiques 3 Analyse des données 3.2 Recherche de motifs La recherche de motifs dans les séquences protéiques Solution adoptée : Interfacer deux logiciels dédiés (Netphos et MSDigest) Motif Séquences GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT MSDigest NetPhos 18 2 Position Sites de phosphorylation Validé expérimentalement Prédit par MSDigest Prédit par Netphos Méthodes Oui Non Tableau comparatif réalisé automatiquement Résultats expérimentaux seq 1 : 18 seq 2 : 20 seq 3 : 23 seq 4 : 24 Fichier Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma
Motif La recherche de motifs dans les séquences protéiques Netphos 3 Analyse des données 3.2 Recherche de motifs La recherche de motifs dans les séquences protéiques Difficultées rencontrées : Netphos et MSDigest non disponibles en version locale Netphos INTERNET Query Module Bioperl GET Motif Séquences GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT MSDigest NetPhos MSDigest redéveloppé en Perl Résultats expérimentaux seq 1 : 18 seq 2 : 20 seq 3 : 23 seq 4 : 24 Fichier Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma Sites de phosphorylation Méthodes Position Prédit par Netphos Prédit par MSDigest Validé expérimentalement 2 Non Oui 18 Tableau comparatif réalisé automatiquement
Plan 1 Contexte et objectifs 2 Gestion et visualisation des données 2.1 Solutions et choix 2.2 Réalisation des interfaces 2.2.1 Analyse et conception 2.2.2 Choix d’implémentation 2.2.3 Résultats 3 Analyse des données 3.1 Comparaison de séquences 3.2 Recherche de motifs 3.3 Elimination de la redondance 4 Conclusion et perspectives Y V N G F G R I G R L V T
Le problème de la redondance des séquences protéiques 3 Analyse des données 3.3 Elimination de la redondance BD ProteomIs accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 accession AGI : At5g06730 protein name : Peroxydase Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 2 Laboratoire 1 Laboratoire 2 Ce qui a été fais : Script fait Mais il manque : Modifier les interfaces Modifier les scripts du format d’échange pour qu’ils s’adaptent aux modif du schéma
Le problème de la redondance des séquences protéiques 3 Analyse des données 3.3 Elimination de la redondance BD ProteomIs « REDONDANTE » accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 accession AGI : At5g06730 protein name : Peroxydase Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 2 CLUSTERING BD ProteomIs « NON REDONDANTE » accession AGI : At5g06730 Nom protéine : Peroxydase Références croisées : Q9FG34 Sequence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 Annotations Laboratoire 2 Placer ici le fait que l’on utilise la nomenclature AGI comme identifiant unique
Solutions étudiées pour réaliser le clustering 3 Analyse des données 3.3 Elimination de la redondance Solutions étudiées pour réaliser le clustering Solutions clustering procédure manuelle : contrôle à la soumisssion
Solutions étudiées pour réaliser le clustering 3 Analyse des données 3.3 Elimination de la redondance Solutions étudiées pour réaliser le clustering Solutions clustering procédure automatique BD ProteomIs « REDONDANTE » accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 accession AGI : At5g06730 protein name : Peroxydase Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 2 Comparaison des noms
Solutions clustering Solutions étudiées pour réaliser le clustering 3 Analyse des données 3.3 Elimination de la redondance Solutions étudiées pour réaliser le clustering Solutions clustering procédure automatique BD ProteomIs « REDONDANTE » accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 accession AGI : At5g06730 protein name : Peroxydase Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 2 Comparaison des séquences
Solutions clustering Solutions étudiées pour réaliser le clustering 3 Analyse des données 3.3 Elimination de la redondance Solutions étudiées pour réaliser le clustering Solutions clustering procédure automatique Comparaison des accessions BD ProteomIs « REDONDANTE » accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 1 accession AGI : At5g06730 protein name : Peroxydase Séquence : GKVKVGVNGFGRIGRLVTRAA Annotations Laboratoire 2 accession SWISSPROT : Q9FG34 protein name : Peroxydase 54 [Precursor] Références croisées : At5g06730 Séquence : GKVKVGVNGFGRIGRLVTRAA BD SWISSPROT utilisation des références croisées
Conclusion Conclusion Poste client (Navigateur) Réseau 4 Conclusion et perspectives Les objectifs ont en majeure partie été atteint : ProteomIs installé dans trois laboratoires permet : - de gérer et explorer les données protéomiques - d’effectuer des liens sur les bases de données publiques - d’analyser les données (en cours de finition) GnpProt installé sur le serveur privée de Génoplante info accessible sur : https://genoplante.infobiogen.fr/gnpprot et sur site public fin juillet Valorisation du projet (poster à JOBIM le 6 juillet) Conclusion Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)
Perspectives Perspectives Entrée des données 4 Conclusion et perspectives Entrée des données Procédure de vérification des données saisies dans le format d’échange Intéropérabilité : Liens et interfaces sur les autres modules de GpiIS Utilisation des ontologies Perspectives Outils d’analyse : Intégration d’autres outils de recherche de motifs Interface java de visualisation des motifs séquence motifs
Conclusion Conclusion 4 Conclusion et perspectives Première expérience de responsable de la conduite d’un projet informatique conséquent Contexte de travail collaboratif : réunions à Evry avec les biologistes travail d’équipe avec les informaticiens de Génoplante à Evry et 1 ingénieur du campus encadrement de stagiaires de DESS bioinformatique Importance de la veille technologique Conclusion Poste client (Navigateur) Réseau Serveur Web et d’application (Apache et/ou Tomcat) Serveur de base de données Poste client Réseau Vue = Java Server Pages Requête utilisateur requête http Contrôleur = Servlet (oriente les requêtes, basé sur le Framework Struts) Présentation HTML+ JavaScript requêtes HTTP Serveur Web / Serveur d’application Réseau Serveur de données html Interface d’interrogation Traitements Données Result = 1 SGBD Applet Programme serveur (CGI/PHP/JSP-servlets) Driver (DBI/ /JDBC) NAVIGATEUR Result > 1 Modèle = Java Beans (couche d’accès aux données utilisant ehcache du projet Hibernate) Base de données (SGBD) JDBC Interface de visualisation (details) Interface de visualisation (liste)