Exploration immersive de données génomiques textuelles et factuelles

Slides:



Advertisements
Présentations similaires
Constructive Volume Geometry (CVG) Article de Min Chen & John V. Trucker COMPUTER GRAPHICS Benoît Capelli – Stéphane Renaudie DESS IMM
Advertisements

IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Accélération du Rendu Volumique basée sur la Quantification des Voxels
Département Informatique Responsable :M. Huchard Responsables adjoints : A. Jean-Marie, F. Koriche, P. Séébold.
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Design de l’ambiance sonore dans les gares
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
la boule (sphère) le cylindre
Equipe Biosystème Membres de l’équipe: Mme. Hounaida Homri Thèse
Réalisation dun compréhenseur multidimensionnel Projet Master Informatique 1ère année Année 2005 Christophe MOUFLIN Jérôme COPPENS.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Systèmes d'Information
jeux à réalité augmentée, exemple de pacMan
Rendu de pierres taillées en temps réel Stéphane Guy Directeur de stage: Cyril Soler.
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
Visualisation d’information interactive 5 : Graphes
Gestion de la persistance des objets
BTS SIO : Stage première année – Création d’un site web interactif
Projet 4info.
Laboratoire Sciences Pour l’Environnement
Recherche d’un même objet / scène
Introduction à la conception de Bases de Données Relationnelles
Paradigme constructiviste
Annotations sémantiques pour le domaine des biopuces
Tecsan Technologies pour la santé et l'autonomie
Construction de modèles visuels
Elèves de seconde Bac Pro EDPI 3ans Didier Descomps, IEN Limoges
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
1 Du pixel à lobjet : méthodes stochastiques X. Descombes Projet Ariana Orféo, 14 juin 2005.
Un modèle sémantique pour linteropérabilité de systèmes dinformation Equipe Ingénierie informatique et base de données – Laboratoire LE2I Université de.
La résolution de problèmes grâce à la technologie de l'information
Description de documents XML multistructurés au moyen de nœuds retards Jacques Le Maitre LSIS Université du Sud Toulon-Var.
Réalité virtuelle et Représentation de Données Complexes
Sensibilisation a la modelisation
Visualisation de graphes avec Qt
Conception et développement d ’une interface entre un environnement de réalité virtuelle et un périphérique d ’interaction.
Modélisation géométrique
Agathe Madeleine Développement d’un logiciel de visualisation de données métaboliques Stage DESS CCI, Université F. Rabelais (Tours)
Fast and Furious Decision Tree Induction
LEMKE LaurentBITSCH José TERRIER VincentLAALA Yoann MONTAVONT GuillaumeBRIBI Mohamed 1.
Xavier Lepaul - Master IVR - 24 juin 2004 Retour Tactile et Exploration de Données Scientifiques Xavier Lepaul I3D - Gravir / Inria Rhône-Alpes Responsable.
Laboratoire PSI – FT-R&D Delalandre Mathieu 3 septembre 2001
Le Taquin Mathieu Bernou Laurent Robin.
Initiation à la conception des systèmes d'informations
1 Déformation Bi-manuelle en Réalité Virtuelle Encadrants : Antonio Capobianco, Jérôme Grosjean Étudiants : Michaël Kolomytzeff, Manuel Veit.
Visualisation d’un entrepôt de données Pré soutenance technique
Reconnaissance de visage par vidéo
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Soutenance de Stage DEA / DESS
Visualisation interactive de données hétérogènes pour l ’ amélioration des dépenses énergétiques du bâtiment Benoit LANGE Rapporteurs M. Gilles GESQUIÈRE,
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE.
TEXT MINING Fouille de textes
FAUVET Nicolas 1 Gestion de données scientifiques 3d massives pour l’interaction en Réalité Virtuelle Doctorant: Nicolas Fauvet Encadrant: Jean-Marc Vézien.
Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c.
Visualisation des flots optiques en 3D
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
APPLICATION : Un diagnostic précoce et automatique des pathologies végétales LA VISION COGNITIVE De la science de la reconstruction visuelle à la science.
Traitements d'images et Vision par ordinateur
Introduction aux technologies des web services en Java EE
Présentations BIN1001.
Responsable : Serge Hamon
Consolidation de grands réseaux lexicaux
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
Mais d’abord rappelez-vous!!
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Les bases de données Séance 4 Construction du Modèle Physique (la BDD)
GEOMETRIE du cycle 1 au cycle 3 quelques pistes
Analyse de séquences nucléotidiques séance n°2 Bio-Informatique.
Transcription de la présentation:

Exploration immersive de données génomiques textuelles et factuelles Présenté par : Nicolas FEREY Directeur de thèse : Rachid GHERBI Equipe Bioinformatique : J. HERISSON, P.E. GROS, F. BENHADJALI

Introduction Introduction Définition d’un format fédérateur Caractérisation des bases de données génomiques Caractérisation de l’existant en analyse documentaire Description du format Modalités de visualisation Choix de représentation Association entre les données et leur représentation Conclusion Références

Historique du sujet de thèse : Joan HERISSON : ADN-Viewer

Problématiques Traitement du langage naturel Base de données Termes acronymes Termes polysémiques Base de données Hétérogénéité des formats Volume important Visualisation Trouver un paradigme de visualisation adapté aux données et aux besoins des biologistes.

Caractérisation des bases de données génomiques Centrées sur un objet biologique spécifique : Séquences protéiques Séquences d’ADN Associées à des attributs descriptifs (annotation) Mis en relation par des mesures d’alignement : BLAST ZScore

Exemple d’existant en analyse documentaire. Exploration : Recherche de co-occurrence de termes Exemple : Score de Dice Extraction de données Relations entre les entités biologiques : inhibition, interaction, rétroaction. 2 * |x,y| Dice(x,y) = |x| + |y|

Points communs entre les données textuelles et factuelles symbolic numéric textuel Objet Type de séquence (protéique,ADN) Fonction Taille, Entropie Séquence textuelle, Étiquette, Identifiant Relation (binaire) Extraction de relation textuelles (inhibition, interaction) co-occurrence alignement Type Entités Données textuelles Données factuelles

Modalités de visualisation Que doit t-on représenter : Entités biologiques et de leurs relations (binaires). Motivations fortes : Indépendance entre données et représentation. Indépendance de toutes références à la réalité. Visualisation par des graphes : Entités biologiques  Nœuds. Relations Arêtes.

Inventaire des attributs graphiques Noeud (a) Arête (a,b) symbolic numéric numeric Position x,y,z Taille dx,dy,dz largeur longueur distance Couleur rose vert violet r,g,b Forme sphère cube ligne cylindre Transparence α objets Attributs

Problématique Données traduites en contraintes géométriques sans solution : Approche utilisée : « Force Directed Placement » 2 1 8

Approche «Force Directed Placement» Force entre nœuds connectés : Fa(x,y) = (Dréelle(x,y) –Ddésirée(x,y))attr /nbnoeuds Force entre les autres nœuds (répulsion) : Fr(x,y) = (nbnoeuds)2 / Dréelle(x,y)rep

Premiers résultats : données textuelles Réseau de co-occurrences de termes Mesure de co-occurrence : 2 * |x,y| Dice(x,y) = |x| + |y|

Premiers résultats : données factuelles

Premiers résultats : données factuelles

Premiers résultats : données factuelles

Premiers résultats : données factuelles

Conclusion Indépendance entre les données et leur représentation : Représentation définie par l’utilisateur Expériences visuelles comparatives Application du paradigme de visualisation de Staplet & Benoit au cadre immersif. Format fédérateur adapté aux données génomiques textuelles et factuelles.

Perspectives Amélioration de l’analyse linguistique Système d’extraction d’informations textuelles robuste. Améliorer l’intégration entre les données textuelles et factuelles Construction entière du Decrypthon en 3D le Décrypthon (39 Gigas de données d’alignements de séquences protéiques)

Références R.GHERBI, AND J.HERISSON : Representation and processing of complex dna spatial architecture and its annotated genomic content. B.J.STAPLET, AND G.BENOIT : Biobibliometrics : Information retrieval and visualization from co-occurences of genes names in medline abstracts. I.ROJDESTVENSKI, D.MODJESKA, AND F.PETTERSSON : Sequence world : A genetics database in virtual reality. J.CASTANO, J.ZHANG, AND J.PUSTEJOVSKY : Anaphora resolution in biomedical literature. J.PUSTEJOVSKY, J., B.COCHRAN, M.KOTECKI, M.MORRELL, AND RUMSHISKY : Linguistic knowledge extraction from medline : Automatic construction of an acronym database. J.THOMAS, D.MILDWARD, C.OUZOUNIS, S.PULMAN, AND M.CAROLL : Automatic extraction of protein interaction from scientific abstract.