Exploration immersive de données génomiques textuelles et factuelles Présenté par : Nicolas FEREY Directeur de thèse : Rachid GHERBI Equipe Bioinformatique : J. HERISSON, P.E. GROS, F. BENHADJALI
Introduction Introduction Définition d’un format fédérateur Caractérisation des bases de données génomiques Caractérisation de l’existant en analyse documentaire Description du format Modalités de visualisation Choix de représentation Association entre les données et leur représentation Conclusion Références
Historique du sujet de thèse : Joan HERISSON : ADN-Viewer
Problématiques Traitement du langage naturel Base de données Termes acronymes Termes polysémiques Base de données Hétérogénéité des formats Volume important Visualisation Trouver un paradigme de visualisation adapté aux données et aux besoins des biologistes.
Caractérisation des bases de données génomiques Centrées sur un objet biologique spécifique : Séquences protéiques Séquences d’ADN Associées à des attributs descriptifs (annotation) Mis en relation par des mesures d’alignement : BLAST ZScore
Exemple d’existant en analyse documentaire. Exploration : Recherche de co-occurrence de termes Exemple : Score de Dice Extraction de données Relations entre les entités biologiques : inhibition, interaction, rétroaction. 2 * |x,y| Dice(x,y) = |x| + |y|
Points communs entre les données textuelles et factuelles symbolic numéric textuel Objet Type de séquence (protéique,ADN) Fonction Taille, Entropie Séquence textuelle, Étiquette, Identifiant Relation (binaire) Extraction de relation textuelles (inhibition, interaction) co-occurrence alignement Type Entités Données textuelles Données factuelles
Modalités de visualisation Que doit t-on représenter : Entités biologiques et de leurs relations (binaires). Motivations fortes : Indépendance entre données et représentation. Indépendance de toutes références à la réalité. Visualisation par des graphes : Entités biologiques Nœuds. Relations Arêtes.
Inventaire des attributs graphiques Noeud (a) Arête (a,b) symbolic numéric numeric Position x,y,z Taille dx,dy,dz largeur longueur distance Couleur rose vert violet r,g,b Forme sphère cube ligne cylindre Transparence α objets Attributs
Problématique Données traduites en contraintes géométriques sans solution : Approche utilisée : « Force Directed Placement » 2 1 8
Approche «Force Directed Placement» Force entre nœuds connectés : Fa(x,y) = (Dréelle(x,y) –Ddésirée(x,y))attr /nbnoeuds Force entre les autres nœuds (répulsion) : Fr(x,y) = (nbnoeuds)2 / Dréelle(x,y)rep
Premiers résultats : données textuelles Réseau de co-occurrences de termes Mesure de co-occurrence : 2 * |x,y| Dice(x,y) = |x| + |y|
Premiers résultats : données factuelles
Premiers résultats : données factuelles
Premiers résultats : données factuelles
Premiers résultats : données factuelles
Conclusion Indépendance entre les données et leur représentation : Représentation définie par l’utilisateur Expériences visuelles comparatives Application du paradigme de visualisation de Staplet & Benoit au cadre immersif. Format fédérateur adapté aux données génomiques textuelles et factuelles.
Perspectives Amélioration de l’analyse linguistique Système d’extraction d’informations textuelles robuste. Améliorer l’intégration entre les données textuelles et factuelles Construction entière du Decrypthon en 3D le Décrypthon (39 Gigas de données d’alignements de séquences protéiques)
Références R.GHERBI, AND J.HERISSON : Representation and processing of complex dna spatial architecture and its annotated genomic content. B.J.STAPLET, AND G.BENOIT : Biobibliometrics : Information retrieval and visualization from co-occurences of genes names in medline abstracts. I.ROJDESTVENSKI, D.MODJESKA, AND F.PETTERSSON : Sequence world : A genetics database in virtual reality. J.CASTANO, J.ZHANG, AND J.PUSTEJOVSKY : Anaphora resolution in biomedical literature. J.PUSTEJOVSKY, J., B.COCHRAN, M.KOTECKI, M.MORRELL, AND RUMSHISKY : Linguistic knowledge extraction from medline : Automatic construction of an acronym database. J.THOMAS, D.MILDWARD, C.OUZOUNIS, S.PULMAN, AND M.CAROLL : Automatic extraction of protein interaction from scientific abstract.