Système de représentation et dexploration de données biologiques hétérogènes.

Slides:



Advertisements
Présentations similaires
REFERENTIEL DE LA SERIE STG
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
Les Systèmes de Gestion de Bases de Données (SGBD) PL-SQL.
C#3 et le projet Linq Mitsuru FURUTA
Linq, fonctionnement et architecture
Transformation de documents XML
Système de représentation et dexploration de données biologiques hétérogènes.
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Spécification et qualité du logiciel
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Informatique en Biologie 2004, Institut Pasteur
Réalisation dun compréhenseur multidimensionnel Projet Master Informatique 1ère année Année 2005 Christophe MOUFLIN Jérôme COPPENS.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Diagram-Based Techniques
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
XML schema Objectifs Valider un doc. XML pour des contraintes syntaxiques Documenter un type de documents XML caractérisé par des contraintes Encadrer.
UML - Présentation.
Modélisation par le concept de graphe
MUSETTE Pierre Antoine Champin Alain Mille Yannick Prié
CURSUS DE FORMATION AUX NOUVELLES TECHNOLOGIES DE DEVELOPPEMENT UV EJB Entité Module Java Expert.
Laurent Labarre AGC - UMR Génoscope
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
UML : GENERALITES Rappel Diagrammes Niveaux de visions
Contrôles d'accès aux données
Introduction à la conception de Bases de Données Relationnelles
Chap 4 Les bases de données et le modèle relationnel
Administration de bases de données spatiales avec SavGIS
RDF(S)
Modèle, Méthode et Conception
L’utilisation des bases de données
Complément Le diagramme des classes
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
66 Utilisation des classes et des objets. 6-2 Objectifs A la fin de ce cours, vous serez capables de : Créer de nouvelles classes à laide de Eclipse Utiliser.
MOT Éditeur de modèles de connaissances par objets typés
La Bioinformatique à Nancy
Xpath XML Path language par Yves Bekkers
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections 15.5.
CSI3525: Concepts des Languages de Programmation
Les concepts et les méthodes des bases de données
CSI 1502 Principes fondamentaux de conception de logiciels
Initiation aux bases de données et à la programmation événementielle
Annotation de génomes complets
8 - XML Cours XML.
Introduction.
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
La Modélisation Orientée Objet Concevoir un programme : modélisation du problème à résoudre Notion de programme : machine de Turing Pouvoir d’expression.
1 A llier R elations et O bjets pour M odéliser Projet Sherpa INRIA Rhône-Alpes Visite Schneider 15/09/99.
Concepts intermédiaires de VHDL
« Validation Formelle de Systèmes Interactifs »
Une architecture de sécurité hiérarchique, adaptable et dynamique pour la grille Arnaud Contes.
Intégration de schémas
Familles de gènes Nadia El-Mabrouk.
1 Jérôme GENSEL (avec la bénédiction… mais sans le contrôle de Cécile CAPPONI) un résumé de [CAPPONI98] Présentation équipe AROM du 01/04/99 METEO : un.
Diagramme de Déploiement
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Quinio1 Bases de données : modèlisation et SGBD Séance 3 B Quinio.
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
3 Copyright © Oracle Corporation, Tous droits réservés. Créer des fonctions.
Réalisé avec le soutien de Pied de page fixe Pied de page 1 Titre Sous titre.
Exploration immersive de données génomiques textuelles et factuelles
Séance /10/2004 SGBD - Approches & Principes.
Responsable : Serge Hamon
Initiation aux bases de données et à la programmation événementielle
Mais d’abord rappelez-vous!!
CHMI 4206 Bioinformatique appliquée
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
Modélisation et utilisation Aurélien Marion1 Aurélien Marion
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
Bases de données : modèlisation et SGBD Séance 3.
Transcription de la présentation:

Système de représentation et dexploration de données biologiques hétérogènes.

Sommaire GenoLink Genostar Démonstration de GenoLink

GenoLink ? Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes Deux versions du logiciel: autonome et module de Genostar.

Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. Notion de voisinage. GenoLink:Concept:1/3

Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3

Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.

Graphe dinstances Helicobacter pylori NC_ HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI: ,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID: GB:AE percent identity: ; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation d un génome.

Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3

Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3

Langage de requête : GQL GQL = GenoLink-Graph Query Language Soit Q=(A,Y,GC) un graphe requête où A={a i } i=1,m un ensemble de variables de noeud Y={y k } k=0,n un ensemble de variables darête GC une expression sur a i et y k (Global Constraint). Q ne peut contenir quune unique composante connexe, A et Y définissent la topologie de la requête. GenoLink:Concept:2/3

Langage de requête : GQL Déclaration dune variable de nœud: N a isa TE [where AE]; Nom de la variable Expression de type Expression de contrainte locale pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; GenoLink:Concept:2/3

Langage de requête : GQL Les opérateurs autorisés dans les expressions: Relationnels: = != == Booléens: and or not Arithmétiques: + - * / ( ) Pattern-matching: !: :: (GNU RegExp) GenoLink:Concept:2/3

Langage de requête : GQL Déclaration dune variable darête: N y (N a1, N a2 ) isa TE [where AE]; Nom de la variable Expression de type m (pg,pp) isa IsCodingFor ; Nom des variables de nœud source (a1) et cible (a2) GenoLink:Concept:2/3 Expression de contrainte locale

Langage de requête : GQL Déclaration dune requête: query N q N x [where GC]; Nom de la requête Liste de noms de variable Contrainte globale query q m;

Langage de requête : GQL En résumé : pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create graphRes from GenolinkDB with q; pg pp m GenoLink:Concept:2/3

Langage de requête : GQL Requête avec contrainte globale et filtrage des résultats: p1 isa Polypeptide ; p2 isa Polypeptide ; ppi (p1,p2) isa HasPhysicalInteractionWith ; query q2 ppi where p1.Length<=250 and p1!=p2; create graphRes2 from GenolinkDB with q2 distinct p1; p1 p2 ppi

Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.

Algorithme de recherche Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg; pg pp m 1. Validation du GQL, PG {pg i } i=1,2 S Ø for all pg i in PG do if solve(pg i )=true then for all neighbours of pg i do s = DFS(query, pg i ) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end for end if end for 3. Résolution: GenoLink:Concept:2/3 2. Choix de lamorce: interrogation du graphe dinstances, pg1 pp1 pg2 pp2 pp3 pg2 pg1 pp1 pg2 pp2 pp3 ProteinGene 2 instances Polypeptide 3 instances IsCodingFor 3 instances

Opérateurs spéciaux de GQL Opérateurs sur les ensembles : union, intersection et différence (de graphes). GenoLink:Concept:2/3

Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3

Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3

Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3

GENOME Express Hybrigenics INRIA Institut Pasteur développer une plate-forme bioinformatique de génomique exploratoire But : Partenaires : Plus : Genostar

Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x). GenoCore, le noyau du système, propose les services logiciels (API): de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... Tout module Genostar (GenoAnnot, GenoLink, GenoBool,...) fonctionne grâce à GenoCore.

Genostar Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002), Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).

Démo...