Télécharger la présentation
Publié parAlexandre Cordier Modifié depuis plus de 10 années
1
Cartographie des connaissances biologiques
Une application à l’analyse de données d’expression de puces ADN Fabien Jalabert, Michel Crampes, Sylvie Ranwez, Vincent Derozier Centre de Recherche LGI2P – Ecole des Mines d’Alès
2
Cartographie des connaissances biologiques
Contexte : cartographie des connaissances Problématique Résultat de la visualisation et évaluation
3
Contexte Projet GEM-BIO / Collaboration Institut Pasteur :
Analyse de puces à ADN / Plasmodium Falciparum Rappel : ADN ARNm Protéine Données d’expression : On mesure la quantité d’ARN transcrite dans la cellule à un instant donné (expression du gène) Puces à ADN : technique permettant une analyse haut-débit (densité > gènes sur 1 cm²). Plasmodium Falciparum ≈ 5300 gènes
4
Cartographie des connaissances
5
Cartographie des connaissances
K. Map
6
Cartographie des connaissances
Intégrer des données hétérogènes : Biologiques, Bibliographiques, Ontologiques Les visualiser Un modèle de graphe (typé, valué) : souple et extensible.
7
Approches existantes Fréquemment, les biologistes emploient un (bi)clustering hiérarchique visualisé sous forme de dendrogrammes.
8
Problématique Associer un élément à plusieurs classes :
Un gène (généralement chez les bactéries) peut être associés à plusieurs fonctions ( groupes) (épissage alternatif, polyvalence d’une protéine, fonction différentes dans différents milieux). Laisser l’expert décider face à une ambiguïté : les approches courantes imposent l’appartenance à une classe et une seule. Regroupement flou : un gène est associé à un (ou plusieurs) groupe(s) avec un degré d’appartenance.
9
Problématique Comparer des regroupements :
Evaluer cette approche = comparer le regroupement flou avec celui produit par Bozdech sur ses propres données d’expression. [Bozdech et al., 2003] 1 mesure par heure pendant 48h dont nous avons sélectionné ≈ 370 gènes Représenter l’expression d’un génome dans le temps en fonction de plusieurs conditions expérimentales. Décomposer l’espace multidimensionnel et d’analyser séparément chaque partition de l’espace
10
Besoin d’une vision ensembliste
Problématique Besoin d’une vision ensembliste Diagrammes d’Euler
11
Visualisation Regroupements (carte des connaissances)
Modèle physique (forces) : robuste, souple, dymamique Implémentation : Java, librairie Prefuse. Fonctionnalités : vue d’ensemble, zoom/pan, distorsions logiques, infobulles, menus contextuels, etc. Données d’expression (temporelles) Coordonnées parallèles synchronisées à la carte : aspect temporel, possibilité de lire entre les lignes (expression + variation de l’expression). Implémentation : librairie Parvis Fonctionnalités : zoom, filtrage et brushing (degré d’appartenance, angle, etc.)
14
Evaluation Le biologiste n’est pas familiarisé avec ce type de visualisation Si cette visualisation est souple, dynamique et adaptable, le biologiste doit le comprendre pour bien la maîtriser; ceci demande un apprentissage. L’utilisateur recherche systématiquement une sémantique biologique dans les 2D Besoin de traçabilité Le biologiste a été plus exigent avec l’outil qu’avec les outils les plus classiques. La vue d’ensemble est très appréciée, l’apprentissage des interactions est rapide. Si l’évaluation mise en œuvre n’a pas été dans le contexte d’une expérimentation biologique complète, l’environnement permet rapidement de croiser des informations, et a permis rapidement de mettre en évidence rapidement des anomalies d’annotations dans différentes bases.
15
Merci Cartographie des connaissances biologiques
Une application à l’analyse de données d’expression de puces ADN Fabien Jalabert, Michel Crampes, Sylvie Ranwez, Vincent Derozier Centre de Recherche LGI2P – Ecole des Mines d’Alès Parc Scientifique Georges Besse, F – Nîmes Cedex 1
16
Problématique
17
Architecture générale
Saisie de mots-clés, données expérimentales, etc. Données hétérogènes PubMed UMLS GO EntrezGene etc. Analyses lexicale et statistique pour l'extraction des termes candidats et leur mise en relation Données pré-filtrées Filtrage pour le domaine étudié Extraction d'une sous-carte adaptée au contexte applicatif Interaction Environnement de visualisation Données filtrées mises en forme Carte personnalisée
18
Contexte Puces ADN Spotting des sondes sur le support
Mise en présence d’un échantillon marqué au fluorochrome Hybridation des gènes exprimés avec les sondes qui leur sont spécifiques Rinçage Mise en œuvre de la fluorescence scannée
19
Regroupement automatique
Contexte Puces ADN Analyse d’image Prétraitements (normalisation, etc.) Regroupement automatique Analyse par l’expert : croisement avec les connaissances du domaine
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.