Champs de Markov cachés pour la classification de gènes..

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Champs de Markov cachés pour la classification de gènes.. …en combinant des données individuelles et de paires Matthieu VIGNES & Florence FORBES (INRIA Rhône-Alpes – Equipe Mistis) {matthieu.vignes,florence.forbes}[AT]inrialpes.fr http://mistis.inrialpes.fr/people/vignes/ RIA’s mars 2006

Introduction Contexte Travaux antétieurs Intégrer différents types de données issues de bases de données pour la classification d’entités biologiques Travaux antétieurs Classification hiérarchique (Eisen et al 1998), k-means (Tavazoie et al, 1999), SVM (Brown et al, 2000), SOM (Tamayo et al, 1999), bi-clustering (Tanay et al, 2004), méthodes à noyaux (Vert et al, 2003), etc. Aussi modèles de mélange : Yeung et al, 2001 Limitation majeure de toutes ces approches : données individuelles et de paires ne sont pas incorporées dans un modèle statistique unique

Modèle de champ de Markov caché xi donnée individuelle associée à l’objet i zi étiquette de l’objet i L’objet i interagit avec ses voisins via un Champ de Markov :

Modèle de champ de Markov caché Prise en compte des voisinages au travers de la fonction d’énergie H

Modèle de champ de Markov caché Prise en compte des voisinages au travers de la fonction d’énergie H Difficultés: calcul de W(D) et de probabilités conditionnelles nécessaires mais impossibles explicitement  approximations de type champ moyen nécessaires (Celeux et al 2003)

Construction du système de voisinage 2 enzymes sont voisines si elles catalysent 2 réactions ayant au moins 1 composé en commun comme réactif ou produit 2 gènes sont voisins s’ils sont associés à ces 2 enzymes On traduit un enchaînement métabolique potentiel élargi. Limitation de la base de données...

Expériences sur données simulées 5 jeux de 1536 objets en dimension 20 répartis dans 6 classes.

Expériences sur données simulées EM (haut) comparé à l’algorithme en champ simulé (bas)

Expériences sur données simulées En Champ simulé, une classe «poubelle» peut apparaître…

Expériences sur données issues de la levure Données d’expression publiques (Chu et al, 1998) Base de données LIGAND de KEGG pour la définition des voisinages 635 gènes en dimension 10 : 6 classes (BIC)

Expériences sur données issues de la levure Problème majeur de la validation (Handl et al, 2005) (1) On regarde si on retrouve des voies métaboliques

Expériences sur données issues de la levure (2) On s’intéresse à la distribution de propriétés qui joueront le rôle de critère biologique Exemple des termes GO (p-valeurs : Benjamini et al, 2003)

Conclusion Prise en compte simultanée de plusieurs types de données individuelles et de paires Bon comportement du modèle et bons résultats sur données simulées et réelles Perspectives : écrire le programme pour des données manquantes, modélisation de classes empiétantes (Battle et al, 2004).

Merci de votre attention!! Conclusion Prise en compte simultanée de plusieurs types de données individuelles et de paires Bon comportement du modèle et bons résultats sur données simulées et réelles Perspectives : écrire le programme pour des données manquantes, modélisation de classes empiétantes (Battle et al, 2004). Merci de votre attention!!