La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Système de représentation et dexploration de données biologiques hétérogènes.

Présentations similaires


Présentation au sujet: "Système de représentation et dexploration de données biologiques hétérogènes."— Transcription de la présentation:

1 Système de représentation et dexploration de données biologiques hétérogènes.

2 Sommaire Genostar GenoLink Démonstration de GenoLink

3 La bioinformatique... beaucoup de données, beaucoup de méthodes danalyse, peu/pas de modélisation de linformation, peu/pas de communication aisée entre méthodes (pipeline danalyse) …et ses problèmes : Revue: Durand et al., Integration of data and methods for genome analysis (2003), Current Opinion in Drug Discovery & Development:6(3),

4 La bioinformatique Solution : Formaliser linformation (modèle de données) Cadre logiciel reposant sur ce formalisme. Exemples : NCBI Software Toolkit, disponible en C et C++ Cadre logiciel utilisé pour GenBank, PubMeb, Blast, Cn3D,... ( / IEB ) Genostar, disponible en Java ( ) Cadre logiciel utilisé pour la plate-forme Genostar.

5 plate-forme logicielle de génomique exploratoire Genostar : Consortium public/privé créé en 2000 par lINRIA, lInstitut Pasteur, Genome Express et Hybrigenics. Genostar :

6 Genostar GenoCore GenoAnnotGenoLinkGenoBool Genostar = noyau + modules applicatifs... de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... GenoCore, propose les services logiciels (API):

7 GenoLink Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes

8 Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. GenoLink:Concept:1/3

9 Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3

10 Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.

11 Graphe dinstances Helicobacter pylori NC_ HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI: ,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID: GB:AE percent identity: ; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation dun génome.

12 Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3

13 Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3

14 Langage de requête : GQL o1 isa Organism where Name::pylori ; o2 isa Organism where Name::coli ; g1 isa ProteinGene; g2 isa ProteinGene; r1 (g1,o1) isa OccursInOrganism; r2 (g2,o2) isa OccursInOrganism; r3 (g1,g2) isa IsOrthologTo; query q1 r1, r2, r3; GenoLink:Concept:2/3 Organism Gene Organism Gene H.pylori E.coli IsOrthologTo

15 Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.

16 Organism Gene Organism Gene H.pylori E.coli IsOrthologTo H.pylori E.coli H.pylori Gene_1 E.coli Gene_1 H.pylori Gene_2 E.coliGene_4 Gene_1 Gene_2 Gene_3 Gene_4 Gene _1 Gene_2 Gene_3 Gene_4 Requête Graphe dinstances Réponse + Principe de la recherche GenoLink:Concept:2/3

17 Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3

18 Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3

19 Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3

20 Démo...


Télécharger ppt "Système de représentation et dexploration de données biologiques hétérogènes."

Présentations similaires


Annonces Google