Champs de Markov cachés pour la classification de gènes..

Name: Champs de Markov cachés pour la classification de gènes..
Uploaded: 2017-12-18T15:48:39+00:00
Duration: PTM3S59
Channel: Émile Antoine
Description: Champs de Markov cachés pour la classification de gènes..

Champs de Markov cachés pour la classification de gènes..
…en combinant des données individuelles et de paires Matthieu VIGNES & Florence FORBES (INRIA Rhône-Alpes – Equipe Mistis) {matthieu.vignes,florence.forbes}[AT]inrialpes.fr RIA’s mars 2006

Introduction Contexte Travaux antétieurs
Intégrer différents types de données issues de bases de données pour la classification d’entités biologiques Travaux antétieurs Classification hiérarchique (Eisen et al 1998), k-means (Tavazoie et al, 1999), SVM (Brown et al, 2000), SOM (Tamayo et al, 1999), bi-clustering (Tanay et al, 2004), méthodes à noyaux (Vert et al, 2003), etc. Aussi modèles de mélange : Yeung et al, 2001 Limitation majeure de toutes ces approches : données individuelles et de paires ne sont pas incorporées dans un modèle statistique unique

Modèle de champ de Markov caché
xi donnée individuelle associée à l’objet i zi étiquette de l’objet i L’objet i interagit avec ses voisins via un Champ de Markov :

Prise en compte des voisinages au travers de la fonction d’énergie H

Prise en compte des voisinages au travers de la fonction d’énergie H Difficultés: calcul de W(D) et de probabilités conditionnelles nécessaires mais impossibles explicitement  approximations de type champ moyen nécessaires (Celeux et al 2003)

Construction du système de voisinage
2 enzymes sont voisines si elles catalysent 2 réactions ayant au moins 1 composé en commun comme réactif ou produit 2 gènes sont voisins s’ils sont associés à ces 2 enzymes On traduit un enchaînement métabolique potentiel élargi. Limitation de la base de données...

Expériences sur données simulées
5 jeux de 1536 objets en dimension 20 répartis dans 6 classes.

EM (haut) comparé à l’algorithme en champ simulé (bas)

En Champ simulé, une classe «poubelle» peut apparaître…

Expériences sur données issues de la levure
Données d’expression publiques (Chu et al, 1998) Base de données LIGAND de KEGG pour la définition des voisinages 635 gènes en dimension 10 : 6 classes (BIC)

Problème majeur de la validation (Handl et al, 2005) (1) On regarde si on retrouve des voies métaboliques

(2) On s’intéresse à la distribution de propriétés qui joueront le rôle de critère biologique Exemple des termes GO (p-valeurs : Benjamini et al, 2003)

Conclusion Prise en compte simultanée de plusieurs types de données individuelles et de paires Bon comportement du modèle et bons résultats sur données simulées et réelles Perspectives : écrire le programme pour des données manquantes, modélisation de classes empiétantes (Battle et al, 2004).

Merci de votre attention!!
Conclusion Prise en compte simultanée de plusieurs types de données individuelles et de paires Bon comportement du modèle et bons résultats sur données simulées et réelles Perspectives : écrire le programme pour des données manquantes, modélisation de classes empiétantes (Battle et al, 2004). Merci de votre attention!!

Champs de Markov cachés pour la classification de gènes..

Présentations similaires

Présentation au sujet: "Champs de Markov cachés pour la classification de gènes.."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Champs de Markov cachés pour la classification de gènes..

Présentations similaires

Présentation au sujet: "Champs de Markov cachés pour la classification de gènes.."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back