Système de représentation et dexploration de données biologiques hétérogènes.
Sommaire GenoLink Genostar Démonstration de GenoLink
GenoLink ? Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes Deux versions du logiciel: autonome et module de Genostar.
Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. Notion de voisinage. GenoLink:Concept:1/3
Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3
Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.
Graphe dinstances Helicobacter pylori NC_ HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI: ,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID: GB:AE percent identity: ; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation d un génome.
Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3
Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3
Langage de requête : GQL GQL = GenoLink-Graph Query Language Soit Q=(A,Y,GC) un graphe requête où A={a i } i=1,m un ensemble de variables de noeud Y={y k } k=0,n un ensemble de variables darête GC une expression sur a i et y k (Global Constraint). Q ne peut contenir quune unique composante connexe, A et Y définissent la topologie de la requête. GenoLink:Concept:2/3
Langage de requête : GQL Déclaration dune variable de nœud: N a isa TE [where AE]; Nom de la variable Expression de type Expression de contrainte locale pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; GenoLink:Concept:2/3
Langage de requête : GQL Les opérateurs autorisés dans les expressions: Relationnels: = != == Booléens: and or not Arithmétiques: + - * / ( ) Pattern-matching: !: :: (GNU RegExp) GenoLink:Concept:2/3
Langage de requête : GQL Déclaration dune variable darête: N y (N a1, N a2 ) isa TE [where AE]; Nom de la variable Expression de type m (pg,pp) isa IsCodingFor ; Nom des variables de nœud source (a1) et cible (a2) GenoLink:Concept:2/3 Expression de contrainte locale
Langage de requête : GQL Déclaration dune requête: query N q N x [where GC]; Nom de la requête Liste de noms de variable Contrainte globale query q m;
Langage de requête : GQL En résumé : pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create graphRes from GenolinkDB with q; pg pp m GenoLink:Concept:2/3
Langage de requête : GQL Requête avec contrainte globale et filtrage des résultats: p1 isa Polypeptide ; p2 isa Polypeptide ; ppi (p1,p2) isa HasPhysicalInteractionWith ; query q2 ppi where p1.Length<=250 and p1!=p2; create graphRes2 from GenolinkDB with q2 distinct p1; p1 p2 ppi
Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.
Algorithme de recherche Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg; pg pp m 1. Validation du GQL, PG {pg i } i=1,2 S Ø for all pg i in PG do if solve(pg i )=true then for all neighbours of pg i do s = DFS(query, pg i ) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end for end if end for 3. Résolution: GenoLink:Concept:2/3 2. Choix de lamorce: interrogation du graphe dinstances, pg1 pp1 pg2 pp2 pp3 pg2 pg1 pp1 pg2 pp2 pp3 ProteinGene 2 instances Polypeptide 3 instances IsCodingFor 3 instances
Opérateurs spéciaux de GQL Opérateurs sur les ensembles : union, intersection et différence (de graphes). GenoLink:Concept:2/3
Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3
Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3
Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3
GENOME Express Hybrigenics INRIA Institut Pasteur développer une plate-forme bioinformatique de génomique exploratoire But : Partenaires : Plus : Genostar
Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x). GenoCore, le noyau du système, propose les services logiciels (API): de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... Tout module Genostar (GenoAnnot, GenoLink, GenoBool,...) fonctionne grâce à GenoCore.
Genostar Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002), Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).
Démo...