La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Système de représentation et dexploration de données biologiques hétérogènes.

Présentations similaires


Présentation au sujet: "Système de représentation et dexploration de données biologiques hétérogènes."— Transcription de la présentation:

1 Système de représentation et dexploration de données biologiques hétérogènes.

2 Sommaire GenoLink Genostar Démonstration de GenoLink

3 GenoLink ? Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes Deux versions du logiciel: autonome et module de Genostar.

4 Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. Notion de voisinage. GenoLink:Concept:1/3

5 Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3

6 Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.

7 Graphe dinstances Helicobacter pylori NC_ HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI: ,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID: GB:AE percent identity: ; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation d un génome.

8 Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3

9 Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3

10 Langage de requête : GQL GQL = GenoLink-Graph Query Language Soit Q=(A,Y,GC) un graphe requête où A={a i } i=1,m un ensemble de variables de noeud Y={y k } k=0,n un ensemble de variables darête GC une expression sur a i et y k (Global Constraint). Q ne peut contenir quune unique composante connexe, A et Y définissent la topologie de la requête. GenoLink:Concept:2/3

11 Langage de requête : GQL Déclaration dune variable de nœud: N a isa TE [where AE]; Nom de la variable Expression de type Expression de contrainte locale pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; GenoLink:Concept:2/3

12 Langage de requête : GQL Les opérateurs autorisés dans les expressions: Relationnels: = != == Booléens: and or not Arithmétiques: + - * / ( ) Pattern-matching: !: :: (GNU RegExp) GenoLink:Concept:2/3

13 Langage de requête : GQL Déclaration dune variable darête: N y (N a1, N a2 ) isa TE [where AE]; Nom de la variable Expression de type m (pg,pp) isa IsCodingFor ; Nom des variables de nœud source (a1) et cible (a2) GenoLink:Concept:2/3 Expression de contrainte locale

14 Langage de requête : GQL Déclaration dune requête: query N q N x [where GC]; Nom de la requête Liste de noms de variable Contrainte globale query q m;

15 Langage de requête : GQL En résumé : pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create graphRes from GenolinkDB with q; pg pp m GenoLink:Concept:2/3

16 Langage de requête : GQL Requête avec contrainte globale et filtrage des résultats: p1 isa Polypeptide ; p2 isa Polypeptide ; ppi (p1,p2) isa HasPhysicalInteractionWith ; query q2 ppi where p1.Length<=250 and p1!=p2; create graphRes2 from GenolinkDB with q2 distinct p1; p1 p2 ppi

17 Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.

18 Algorithme de recherche Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:hypothetical ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg; pg pp m 1. Validation du GQL, PG {pg i } i=1,2 S Ø for all pg i in PG do if solve(pg i )=true then for all neighbours of pg i do s = DFS(query, pg i ) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end for end if end for 3. Résolution: GenoLink:Concept:2/3 2. Choix de lamorce: interrogation du graphe dinstances, pg1 pp1 pg2 pp2 pp3 pg2 pg1 pp1 pg2 pp2 pp3 ProteinGene 2 instances Polypeptide 3 instances IsCodingFor 3 instances

19 Opérateurs spéciaux de GQL Opérateurs sur les ensembles : union, intersection et différence (de graphes). GenoLink:Concept:2/3

20 Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3

21 Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3

22 Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3

23

24 GENOME Express Hybrigenics INRIA Institut Pasteur développer une plate-forme bioinformatique de génomique exploratoire But : Partenaires : Plus : Genostar

25 Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x). GenoCore, le noyau du système, propose les services logiciels (API): de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... Tout module Genostar (GenoAnnot, GenoLink, GenoBool,...) fonctionne grâce à GenoCore.

26 Genostar Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002), Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).

27 Démo...


Télécharger ppt "Système de représentation et dexploration de données biologiques hétérogènes."

Présentations similaires


Annonces Google