La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,

Présentations similaires


Présentation au sujet: "Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,"— Transcription de la présentation:

1 Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002, Evry

2 Plan Les biopuces Intérêts Données produites Analyse des données de biopuces Techniques non supervisées classiques Les DFs sur des données de biopuces Relaxation de la satisfaction des DFs Un nouveau problème dinférence Adaptation dun cadre conçu pour les DFs Premiers résultats expérimentaux Conclusion et perspectives

3 Notions de biologie Génome : ensemble de tous les gènes humains Présent dans toute cellule humaine Transcriptome : sous ensemble de gènes actifs dans une cellule, i.e. les gènes qui sont transcrits en ARN messager (ARNm) dans une cellule Expression dun gène = transcription du gène en ARNm Protéome : sous ensemble de protéines dans une cellule, i.e. de ARNm qui sont traduits en protéines

4 Quest quune biopuce ? Dispositif pour mesurer le transcriptome dune cellule Donne les gènes qui sexpriment dans un type cellulaire donné Intérêts des biopuces Permet de mesurer le transcriptome de différents types de cellule Permet de trouver des différences dans le profile dexpression e.g. trouver des gènes sur ou sous exprimés dans des cellules tumorales vs cellules normales

5

6 Exemple : 8 gènes, 6 expériences YHR051WYKL181WYHR124WYHL020CYGR072WYGR145WYGR218WYGL041C Exp Exp Exp Exp Exp Exp

7 Les données issues des biopuces Tableaux à 2 dimensions : gènes x expériences Beaucoup de gènes (jusquà ) Peu dexpérience (quelques centaines) Valeurs réelles uniquement Données bruitées, comportant des valeurs nulles, peu fiables

8 Analyse des données de biopuces Peut être vu comme un problème de découverte de connaissance dans les données Quelles techniques de fouille de données utiliser ? Techniques supervisées E.g. prédire le comportement dun gène avec un arbre de décision Techniques non supervisées E.g. regroupement, règles dassociation Ce que souhaite les biologistes ? Très ouverts Les implications entre gènes frappent leur bon sens, e.g. : Si G1 et G3 sont sur exprimés alors G2 lest aussi

9 Les problèmes posés pour déterminer des implications Si implication = règles dassociation Discrétisation des données Transformation des données dans {0,1} Le nombre de gènes augmentent Si implication = dépendances fonctionnelles Pas besoin de discrétiser Hélas, chaque gène est une clé

10 Idée de base Considérer les DFs comme une connaissance sur les données Au même titre que les règles dassociation … Prendre en compte les caractéristiques des données de biopuces Relaxer la définition de la satisfaction dune DF => e-DF Adapter un cadre dinférence au problème de fouille de données sous jacent

11 Relaxer la définition de la satisfaction dune DF Rappel : On relaxe légalité, on obtient les e-DFs

12 Exemples avec un seuil à 0.05 G0G1G2G3G4G5G6G7 Exp Exp Exp Exp Exp Exp et beaucoup dautres …

13 G 1 détermine G 7 Exp1 Exp2 Exp3 Exp4 Exp5 Exp6 Entre lexpérience 3 et 6, le niveau dexpression de G1 et G7 est le même. Ailleurs, les couples ne vérifient pas la condition

14 G 3, G 4 déterminent G 5 Exp1 Exp2 Exp3 Exp4 Exp5 Exp6 Entre lexpérience 2 et 5, le niveau dexpression de G3, G4 et G5 est le même. Entre lexpérience 1 et 3, G4 ne varie pas alors que G5 varie Entre lexpérience 3 et 6, G3 ne varie pas alors que G5 varie

15 Une nouvelle tâche dinférence « Etant donnés une relation à valeurs réelles r et un seuil e, déterminer les DFs e-satisfaites dans r » Peut on utiliser les techniques développées pour linférence des DFs ?

16 Opérateur de fermeture Soient G un ensemble fini de gènes et r une relation On définit. r + une application sur P(G) comme :. r + est un opérateur de fermeture sur P(G) pour r Bonne nouvelle

17 Opérateur de fermeture, fermés et implications Équivalence entre un système de fermeture et des implications Des algorithmes existent pour passer de lun à lautre Les ensembles en accord sont inclus dans les fermés Il suffit de calculer ces fermés particuliers puis dutiliser une technique dinférence classique les ensembles en accord

18 Comment calculer une représentation des fermés ? Pour deux tuples t 1 et t 2, on peut calculer le fermé correspondant, i.e. lensemble des gènes qui varient dans la limite du seuil e Pour une relation r, on calcule p(p-1)/2 fermés

19 Exemple avec un seuil à 0.05 G0G1G2G3G4G5G6G Agree = { {} {G3} {G4} {G6} {G2,G7} {G3,G4,G5} {G4,G7} {G0} {G1,G3,G7} {G0,G4} } Exemple pour G7 e-DF exclues : {G3,G4,G5} {G6} {G0,G4} e-DF : {G7} {G5,G6} {G4,G6} {G3,G6} {G2} {G1} {G0,G6} {G0,G5} {G0,G3}

20 Couverture canonique Des ensembles en accord, déduire la plus petite famille génératrice GEN (inf-irréductible) Pour un gène G donné Déterminer les éléments de GEN qui ne contiennent pas G Calculer lensemble des parties gauches minimales qui détermine G Exponentiel en le nombre de gènes

21 Premiers résultats expérimentaux Test sur des données issues du Web Données de la levure Sélection de 180 gènes, 50 expériences Beaucoup de règles de la forme Beaucoup de clés Validation en cours, pas encore de résultats concrets Partenaire : LOM, Laboratoire du centre anti- cancéreux de Clermont-Ferrand Etape difficile liée en partie au domaine traitée

22 Conclusion et Perspectives Premier bilan A partir dune nouvelle application Nouvelle mesure de linteraction des gènes Évite la discrétisation des données Définition dun nouveau problème de fouille Justification et mise en œuvre dune technique dinférence Difficile dinterpréter simplement la K extraite Travail en cours Validation avec des experts Autres définitions de la satisfaction dune DF pour mieux prendre en compte les besoins des biologistes Classement des règles extraites


Télécharger ppt "Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002,"

Présentations similaires


Annonces Google