Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parJean-Philippe Dubé Modifié depuis plus de 9 années
1
Exploration immersive de données génomiques textuelles et factuelles
Présenté par : Nicolas FEREY Directeur de thèse : Rachid GHERBI Equipe Bioinformatique : J. HERISSON, P.E. GROS, F. BENHADJALI
2
Introduction Introduction Définition d’un format fédérateur
Caractérisation des bases de données génomiques Caractérisation de l’existant en analyse documentaire Description du format Modalités de visualisation Choix de représentation Association entre les données et leur représentation Conclusion Références
3
Historique du sujet de thèse :
Joan HERISSON : ADN-Viewer
4
Problématiques Traitement du langage naturel Base de données
Termes acronymes Termes polysémiques Base de données Hétérogénéité des formats Volume important Visualisation Trouver un paradigme de visualisation adapté aux données et aux besoins des biologistes.
5
Caractérisation des bases de données génomiques
Centrées sur un objet biologique spécifique : Séquences protéiques Séquences d’ADN Associées à des attributs descriptifs (annotation) Mis en relation par des mesures d’alignement : BLAST ZScore
6
Exemple d’existant en analyse documentaire.
Exploration : Recherche de co-occurrence de termes Exemple : Score de Dice Extraction de données Relations entre les entités biologiques : inhibition, interaction, rétroaction. 2 * |x,y| Dice(x,y) = |x| + |y|
7
Points communs entre les données textuelles et factuelles
symbolic numéric textuel Objet Type de séquence (protéique,ADN) Fonction Taille, Entropie Séquence textuelle, Étiquette, Identifiant Relation (binaire) Extraction de relation textuelles (inhibition, interaction) co-occurrence alignement Type Entités Données textuelles Données factuelles
8
Modalités de visualisation
Que doit t-on représenter : Entités biologiques et de leurs relations (binaires). Motivations fortes : Indépendance entre données et représentation. Indépendance de toutes références à la réalité. Visualisation par des graphes : Entités biologiques Nœuds. Relations Arêtes.
9
Inventaire des attributs graphiques
Noeud (a) Arête (a,b) symbolic numéric numeric Position x,y,z Taille dx,dy,dz largeur longueur distance Couleur rose vert violet r,g,b Forme sphère cube ligne cylindre Transparence α objets Attributs
10
Problématique Données traduites en contraintes géométriques sans solution : Approche utilisée : « Force Directed Placement » 2 1 8
11
Approche «Force Directed Placement»
Force entre nœuds connectés : Fa(x,y) = (Dréelle(x,y) –Ddésirée(x,y))attr /nbnoeuds Force entre les autres nœuds (répulsion) : Fr(x,y) = (nbnoeuds)2 / Dréelle(x,y)rep
12
Premiers résultats : données textuelles
Réseau de co-occurrences de termes Mesure de co-occurrence : 2 * |x,y| Dice(x,y) = |x| + |y|
13
Premiers résultats : données factuelles
14
Premiers résultats : données factuelles
15
Premiers résultats : données factuelles
16
Premiers résultats : données factuelles
17
Conclusion Indépendance entre les données et leur représentation :
Représentation définie par l’utilisateur Expériences visuelles comparatives Application du paradigme de visualisation de Staplet & Benoit au cadre immersif. Format fédérateur adapté aux données génomiques textuelles et factuelles.
18
Perspectives Amélioration de l’analyse linguistique
Système d’extraction d’informations textuelles robuste. Améliorer l’intégration entre les données textuelles et factuelles Construction entière du Decrypthon en 3D le Décrypthon (39 Gigas de données d’alignements de séquences protéiques)
19
Références R.GHERBI, AND J.HERISSON :
Representation and processing of complex dna spatial architecture and its annotated genomic content. B.J.STAPLET, AND G.BENOIT : Biobibliometrics : Information retrieval and visualization from co-occurences of genes names in medline abstracts. I.ROJDESTVENSKI, D.MODJESKA, AND F.PETTERSSON : Sequence world : A genetics database in virtual reality. J.CASTANO, J.ZHANG, AND J.PUSTEJOVSKY : Anaphora resolution in biomedical literature. J.PUSTEJOVSKY, J., B.COCHRAN, M.KOTECKI, M.MORRELL, AND RUMSHISKY : Linguistic knowledge extraction from medline : Automatic construction of an acronym database. J.THOMAS, D.MILDWARD, C.OUZOUNIS, S.PULMAN, AND M.CAROLL : Automatic extraction of protein interaction from scientific abstract.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.