Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parSimone Robillard Modifié depuis plus de 10 années
1
Système de représentation et dexploration de données biologiques hétérogènes.
2
Sommaire Genostar GenoLink Démonstration de GenoLink
3
La bioinformatique... beaucoup de données, beaucoup de méthodes danalyse, peu/pas de modélisation de linformation, peu/pas de communication aisée entre méthodes (pipeline danalyse) …et ses problèmes : Revue: Durand et al., Integration of data and methods for genome analysis (2003), Current Opinion in Drug Discovery & Development:6(3), 346-352.
4
La bioinformatique Solution : Formaliser linformation (modèle de données) Cadre logiciel reposant sur ce formalisme. Exemples : NCBI Software Toolkit, disponible en C et C++ Cadre logiciel utilisé pour GenBank, PubMeb, Blast, Cn3D,... ( www.ncbi.nlm.nih.gov / IEB ) Genostar, disponible en Java ( www.genostar.org ) Cadre logiciel utilisé pour la plate-forme Genostar.
5
plate-forme logicielle de génomique exploratoire Genostar : Consortium public/privé créé en 2000 par lINRIA, lInstitut Pasteur, Genome Express et Hybrigenics. Genostar : www.genostar.org
6
Genostar GenoCore GenoAnnotGenoLinkGenoBool Genostar = noyau + modules applicatifs... de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... GenoCore, propose les services logiciels (API):
7
GenoLink Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes
8
Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. GenoLink:Concept:1/3
9
Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3
10
Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.
11
Graphe dinstances Helicobacter pylori 26695 NC_000915 HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp15644702 Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI:15644702,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID:149011 GB:AE000511 percent identity: 100.00; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation dun génome.
12
Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3
13
Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3
14
Langage de requête : GQL o1 isa Organism where Name::pylori ; o2 isa Organism where Name::coli ; g1 isa ProteinGene; g2 isa ProteinGene; r1 (g1,o1) isa OccursInOrganism; r2 (g2,o2) isa OccursInOrganism; r3 (g1,g2) isa IsOrthologTo; query q1 r1, r2, r3; GenoLink:Concept:2/3 Organism Gene Organism Gene H.pylori E.coli IsOrthologTo
15
Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.
16
Organism Gene Organism Gene H.pylori E.coli IsOrthologTo H.pylori E.coli H.pylori Gene_1 E.coli Gene_1 H.pylori Gene_2 E.coliGene_4 Gene_1 Gene_2 Gene_3 Gene_4 Gene _1 Gene_2 Gene_3 Gene_4 Requête Graphe dinstances Réponse + Principe de la recherche GenoLink:Concept:2/3
17
Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3
18
Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3
19
Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3
20
Démo...
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.