Système de représentation et dexploration de données biologiques hétérogènes.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

C#3 et le projet Linq Mitsuru FURUTA
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Applications de GdX Coordinateur thématique : Christophe Cérin
Système de représentation et dexploration de données biologiques hétérogènes.
Apprentissage supervisé à partir de séquences
Corese Moteur de recherche sémantique pour RDF
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Informatique en Biologie 2004, Institut Pasteur
Equipe Biosystème Membres de l’équipe: Mme. Hounaida Homri Thèse
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Diagram-Based Techniques
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
Entre construction théorique et mise en œuvre opérationnelle
UML - Présentation.
MUSETTE Pierre Antoine Champin Alain Mille Yannick Prié
Initiation à la bioinformatique
Laurent Labarre AGC - UMR Génoscope
Les bases de données biologiques au LBBE
Cours Visual Basic pour Application
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Bioinformatique =?? génomique protéomique
Formation RNG octobre 2005 Aide à linterprétation des données Virginie Defamie.
XML-Family Web Services Description Language W.S.D.L.
Introduction à la conception de Bases de Données Relationnelles
Modèle, Méthode et Conception
Modélisation causale multiphysique
Entre construction théorique et mise en œuvre opérationnelle
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
MOT Éditeur de modèles de connaissances par objets typés
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
ELE6306 : Test de systèmes électroniques Projet de cours Chaîne de scan unique: Reconfiguration = Optimisation Louis-Martin Côté Professeur : A. Khouas.
Introduction à la bioinformatique
Les étapes du cycle de développement du génie logiciel
Annotation de génomes complets
BIOS – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Bases de données en biologie (suite)
Modèles et Algorithmes pour la Bioinformatique et la Visualisation d'informations Guy Melançon Pascal Ferraro David Auber David Sherman.
1 A llier R elations et O bjets pour M odéliser Projet Sherpa INRIA Rhône-Alpes Visite Schneider 15/09/99.
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
UML : un peu d’histoire H. Lounis.
Agathe Madeleine Développement d’un logiciel de visualisation de données métaboliques Stage DESS CCI, Université F. Rabelais (Tours)
Une architecture de sécurité hiérarchique, adaptable et dynamique pour la grille Arnaud Contes.
Familles de gènes Nadia El-Mabrouk.
Génomes microbiens entièrement séquencés. 1995: Haemophilus influenzae, 1.8 Mb, protéines (TIGR) 1995: Mycoplasma genitalium, 0.6 Mb, 470 protéines.
1 Jérôme GENSEL (avec la bénédiction… mais sans le contrôle de Cécile CAPPONI) un résumé de [CAPPONI98] Présentation équipe AROM du 01/04/99 METEO : un.
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Problèmes du génie logiciel. H. Lounis Les problèmes zTaille et complexité des logiciels ; zTaille croissante des équipes ; zSpécifications peu précises.
Banques de données en bio-informatique
Soutenance de Stage DEA / DESS
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Flot de conception de.
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
Intégration des données sur le transcriptome
Exploration immersive de données génomiques textuelles et factuelles
MobyleNet – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Cours MIAGE M1 « Urbanisation des Systèmes d’Information » Henry Boccon-Gibod Urbanisation des Systèmes d’Information Plan de cours.
Responsable : Serge Hamon
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
GROUPE RESSOURCES DE TECHNOLOGIE Technologie Cycle 4 Niveau Quatrième
© 2002 ISA–The Instrumentation, Systems, and Automation Society Apports de la norme ISA88 dans le cadre de la validation des systèmes de contrôle Jean.
Transcription de la présentation:

Système de représentation et dexploration de données biologiques hétérogènes.

Sommaire Genostar GenoLink Démonstration de GenoLink

La bioinformatique... beaucoup de données, beaucoup de méthodes danalyse, peu/pas de modélisation de linformation, peu/pas de communication aisée entre méthodes (pipeline danalyse) …et ses problèmes : Revue: Durand et al., Integration of data and methods for genome analysis (2003), Current Opinion in Drug Discovery & Development:6(3),

La bioinformatique Solution : Formaliser linformation (modèle de données) Cadre logiciel reposant sur ce formalisme. Exemples : NCBI Software Toolkit, disponible en C et C++ Cadre logiciel utilisé pour GenBank, PubMeb, Blast, Cn3D,... ( / IEB ) Genostar, disponible en Java ( ) Cadre logiciel utilisé pour la plate-forme Genostar.

plate-forme logicielle de génomique exploratoire Genostar : Consortium public/privé créé en 2000 par lINRIA, lInstitut Pasteur, Genome Express et Hybrigenics. Genostar :

Genostar GenoCore GenoAnnotGenoLinkGenoBool Genostar = noyau + modules applicatifs... de modélisation et de gestion des données (AROM), de typage complexe (matrice, séquence), de modélisation des tâches (AROM-Task), dexécution de logiciels externes avec gestion des entrées/sorties (BLAST), daffichage graphique générique (AROM-GCL) et cartographique, dinteropérabilité,... GenoCore, propose les services logiciels (API):

GenoLink Système de représentation de données bio. hétérogènes Système dintégration de données Moteur de requêtes Outils de visualisation adaptés à la gestion de graphes

Représentation des données Principe: utilisation dun graphe contient domaine code pour interaction protéine noeuds arêtes gène domaine Chaque nœud/arête a un identifiant, type, et peut avoir des attributs. GenoLink:Concept:1/3

Modèle de données Pour décrire formellement les données autorisées dans un graphe, GenoLink sappuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble). Gene Identifier Name Type de lentité attributs IsLocatedOn from to Chromosome Identifier Size Topology Type et attributs de la relation GenoLink:Concept:1/3

Modèle de données HasPhysicalInteractionWith IsCodingForContainsFragment IsOrthologTo HasNucleicSimilarityWith HasPeptidicSimilarityWith Organism PeptidicComposite FragmentPolypeptide Peptidic Gene Nucleic PeptidicAtomic Replicon RnaGeneProteinGene IsLocatedOn IsRepliconOf Identifier: string Name: string Synonym: string Description: string Length: int Polypeptide GenoLink:Concept:1/3 Identifier: string from: int to: int IsLocatedOn Exemple de modèle pour la génomique bactérienne.

Graphe dinstances Helicobacter pylori NC_ HP0072 HP0073 ureB ureA IRO ILO ICF HPIW Identifier:pp Name:urease beta subunit (urea amidohydrolase) (ureB) Synonym:GI: ,RS:NP_206872,GB:AAD07143 Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID: GB:AE percent identity: ; identified by sequence similarity; putative Length:569 IRO : IsRepliconOf ILO : IsLocatedOn ICF : IsCodingFor HPIW : HasPhysicalInteractionWith Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915). GenoLink:Concept:1/3 Exemple: représentation dun génome.

Exploration dun graphe dinstances GénoLink voit linformation via un graphe Requête GenoLink = un motif de graphe GenoLink:Concept:2/3

Exploration dun graphe : principe Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli. Organism Gene Organism Gene H.pylori E.coli IsOrthologTo Requête: Résultat: H.pylori HP0396 E.coli yigC H.pylori HP0810 E.coli yhhF H.pylori HP1247 E.coli holA... GenoLink:Concept:2/3

Langage de requête : GQL o1 isa Organism where Name::pylori ; o2 isa Organism where Name::coli ; g1 isa ProteinGene; g2 isa ProteinGene; r1 (g1,o1) isa OccursInOrganism; r2 (g2,o2) isa OccursInOrganism; r3 (g1,g2) isa IsOrthologTo; query q1 r1, r2, r3; GenoLink:Concept:2/3 Organism Gene Organism Gene H.pylori E.coli IsOrthologTo

Construction dune requête GenoLink GenoLink:Concept:2/3 En pratique: Query Builder.

Organism Gene Organism Gene H.pylori E.coli IsOrthologTo H.pylori E.coli H.pylori Gene_1 E.coli Gene_1 H.pylori Gene_2 E.coliGene_4 Gene_1 Gene_2 Gene_3 Gene_4 Gene _1 Gene_2 Gene_3 Gene_4 Requête Graphe dinstances Réponse + Principe de la recherche GenoLink:Concept:2/3

Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe dobjets: groupe de gènes orthologues. classifications fonctionnelles. Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification) Modèle ouvert, interchangeable Quelles données ? Modèle de données pour génomes bactériens GenoLink:Concept:3/3

Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies. Quelles données ? GenoLink:Concept:3/3

Processing / Integration Genomic data Interaction data Functional Classes Domain data PGPP DSPP EC GenoLink data-graph PG PP DS EC Intégration de données GenoLink:Concept:3/3

Démo...