Exploration immersive de données génomiques textuelles et factuelles

Exploration immersive de données génomiques textuelles et factuelles
Présenté par : Nicolas FEREY Directeur de thèse : Rachid GHERBI Equipe Bioinformatique : J. HERISSON, P.E. GROS, F. BENHADJALI

Introduction Introduction Définition d’un format fédérateur
Caractérisation des bases de données génomiques Caractérisation de l’existant en analyse documentaire Description du format Modalités de visualisation Choix de représentation Association entre les données et leur représentation Conclusion Références

Historique du sujet de thèse :
Joan HERISSON : ADN-Viewer

Problématiques Traitement du langage naturel Base de données
Termes acronymes Termes polysémiques Base de données Hétérogénéité des formats Volume important Visualisation Trouver un paradigme de visualisation adapté aux données et aux besoins des biologistes.

Caractérisation des bases de données génomiques
Centrées sur un objet biologique spécifique : Séquences protéiques Séquences d’ADN Associées à des attributs descriptifs (annotation) Mis en relation par des mesures d’alignement : BLAST ZScore

Exemple d’existant en analyse documentaire.
Exploration : Recherche de co-occurrence de termes Exemple : Score de Dice Extraction de données Relations entre les entités biologiques : inhibition, interaction, rétroaction. 2 * |x,y| Dice(x,y) = |x| + |y|

Points communs entre les données textuelles et factuelles
symbolic numéric textuel Objet Type de séquence (protéique,ADN) Fonction Taille, Entropie Séquence textuelle, Étiquette, Identifiant Relation (binaire) Extraction de relation textuelles (inhibition, interaction) co-occurrence alignement Type Entités Données textuelles Données factuelles

Modalités de visualisation
Que doit t-on représenter : Entités biologiques et de leurs relations (binaires). Motivations fortes : Indépendance entre données et représentation. Indépendance de toutes références à la réalité. Visualisation par des graphes : Entités biologiques  Nœuds. Relations Arêtes.

Inventaire des attributs graphiques
Noeud (a) Arête (a,b) symbolic numéric numeric Position x,y,z Taille dx,dy,dz largeur longueur distance Couleur rose vert violet r,g,b Forme sphère cube ligne cylindre Transparence α objets Attributs

Problématique Données traduites en contraintes géométriques sans solution : Approche utilisée : « Force Directed Placement » 2 1 8

Approche «Force Directed Placement»
Force entre nœuds connectés : Fa(x,y) = (Dréelle(x,y) –Ddésirée(x,y))attr /nbnoeuds Force entre les autres nœuds (répulsion) : Fr(x,y) = (nbnoeuds)2 / Dréelle(x,y)rep

Premiers résultats : données textuelles
Réseau de co-occurrences de termes Mesure de co-occurrence : 2 * |x,y| Dice(x,y) = |x| + |y|

Premiers résultats : données factuelles

Conclusion Indépendance entre les données et leur représentation :
Représentation définie par l’utilisateur Expériences visuelles comparatives Application du paradigme de visualisation de Staplet & Benoit au cadre immersif. Format fédérateur adapté aux données génomiques textuelles et factuelles.

Perspectives Amélioration de l’analyse linguistique
Système d’extraction d’informations textuelles robuste. Améliorer l’intégration entre les données textuelles et factuelles Construction entière du Decrypthon en 3D le Décrypthon (39 Gigas de données d’alignements de séquences protéiques)

Références R.GHERBI, AND J.HERISSON :
Representation and processing of complex dna spatial architecture and its annotated genomic content. B.J.STAPLET, AND G.BENOIT : Biobibliometrics : Information retrieval and visualization from co-occurences of genes names in medline abstracts. I.ROJDESTVENSKI, D.MODJESKA, AND F.PETTERSSON : Sequence world : A genetics database in virtual reality. J.CASTANO, J.ZHANG, AND J.PUSTEJOVSKY : Anaphora resolution in biomedical literature. J.PUSTEJOVSKY, J., B.COCHRAN, M.KOTECKI, M.MORRELL, AND RUMSHISKY : Linguistic knowledge extraction from medline : Automatic construction of an acronym database. J.THOMAS, D.MILDWARD, C.OUZOUNIS, S.PULMAN, AND M.CAROLL : Automatic extraction of protein interaction from scientific abstract.

Exploration immersive de données génomiques textuelles et factuelles

Présentations similaires

Présentation au sujet: "Exploration immersive de données génomiques textuelles et factuelles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Exploration immersive de données génomiques textuelles et factuelles

Présentations similaires

Présentation au sujet: "Exploration immersive de données génomiques textuelles et factuelles"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back