La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fouille de données et santé Octobre 2010 Sandra Bringay :

Présentations similaires


Présentation au sujet: "Fouille de données et santé Octobre 2010 Sandra Bringay :"— Transcription de la présentation:

1 Sandra Bringay : bringay@lirmm.fr
Fouille de données et santé Octobre 2010 Sandra Bringay : Good morning, my name is Sandra Bringay and I come from the University of Montpellier in France I will present you the work realised in collaboration with the laboratory of biology called MMDN Molecular mechanism in neurodegenrative dementia This work is entitled “GeneMining: Identification, Visualization, and Interpretation of Brain Ageing Signatures”.

2 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

3 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

4 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Projet LAMAL Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

5 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

6 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Cohortes PAQUID Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

7 Fouille de données et santé
Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Gene Mining Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

8 Fouille de données de santé
Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Détecter des Comportements anormaux Analyser des comportements Fouille de données Prédire des comportements Pour conclure, en santé on dispose de grandes quantités de données électroniques et les professionnels de santé sont en attente de solutions pour exploiter ces données et améliorer leurs pratiques cliniques et organisationnelles. Ces données sont particulières., hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs) Il va falloir adapter les techniques de fouille de données à ces données pour retrouver des connaissances utiles dans ces grandes bases de données Par exemple pour # Analyser les comportements des patients et des professionnels de santé # Prédire des comportements comme le résultat ce traitements ou d’une politique de santé # Détecter des comportements anormaux de médecins # Rechercher des critères d’aides à la décision par exemple pour choisir un traitement ( Rechercher des critères d’aide à la décision

9 Fouille de données issues de puces à ADN

10 Puces à ADN Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? …. Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

11 Puces à ADN Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). A ≡ T T ≡ A G ≡ C C ≡ G Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface Expression (couleur)  mesure de la quantité d’ADN dénaturé qui se reforme A T C G 1 probe  1 gène

12 On this image, you have an example of the data obtained with several microarrays.
Each line corresponds to a gene. Gènes 12 12

13 Gènes Puces Each column corresponds to a microarray.
Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Gènes Puces 13 13

14 (expression) d’un gène mesuré par une puce
Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Intensité (expression) d’un gène mesuré par une puce Gènes Puces 14 14

15 Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets
Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Intensité (expression) d’un gène mesuré par une puce Gènes Puces Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets 27/03/2017 15 15

16 Les motifs séquentiels dans ce contexte… Thèse de P. Salle
Motifs séquentiels : séquences fréquentes d’itemsets ordonnés < ( ) ( ) > Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière < (G5 G4) (G6) > 2 collaborations : MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.

17 Maladie d’Alzheimer : problème majeur de la société moderne
Cancer is a major concern for the modern society. It is a leading cause of death, in particular Breast cancer, which is the 2nd most common type of cancer and the 5th most common cause of cancer death As deaths from breast cancer worldwide are projected to continue rising, the problem of discovering the genes involved in their development have been intensively addressed by the biomedical community. There is several types of breath cancer and identifyng types of cancer is a key issue in order to adapt the cares to category of cancer Maladie d’Alzheimer : problème majeur de la société moderne Maladie d’Alzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050) Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17 17

18 Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004)
Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs. Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

19 Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

20 Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

21 Données biologiques massives
Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances Moreover, when biologists analyse their results of DNA microarrays analysis, they often use online biological knowledge databases and bibliographical resources such as KEGG, GO, PubMed Most of their manipulations to access these resources are done manually and are time consuming 21 21

22 Données biologiques massives
Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances Moreover, when biologists analyse their results of DNA microarrays analysis, they often use online biological knowledge databases and bibliographical resources such as KEGG, GO, PubMed Most of their manipulations to access these resources are done manually and are time consuming  Challenge : exploiter toutes ces données en terme de signification biologique 22 22

23 Processus général (Bringay, MIE’2009)
Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Nouvelles connaissances biologiques Techniques d’ interprétation I will know describe our process. The first step consists in applying data mining techniques to the microarray data => As the result we obtain sequential patterns I will describe after. Given the amount of patterns returned, we also add an interface that eases the discovery process => by allowing experts to identify smaller sets of meaningful patterns from more general sets of patterns We integrate in our tool existing knowledge bases (GO, KEGG) as well as bibliographic databases (PubMed), to assist the biologists in interpreting the selected patterns. I will know describe in detail each part of this process. 23 23

24 Processus général Fouille de données Motifs séquentiels
Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge In previous work, we have proposed an algorithm to extract sequential patterns from microarray data. I will just give you an intuition of its principle 24 24

25 Recherche de motifs séquentiels (Salle, AIME 2009)
On this new table, you have another representation of the data obtained with microarrays. For each microarray, the genes have been ordered according to their expression. Our algorithm allows to extract the frequent sequences from these table. You have an example of such a sequential patterns in the right hand corner. This sequence means that the gene G2 has an expression lower than the genes G1 and G5 which expressions are close and lower than G3. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25 25

26 Recherche de motifs séquentiels (Salle, AIME 2009)
For each sequence, we calculate the support, the percentage of microarrays that verify the sequence. In our example, the 3 first microarrays among the 4 verify the sequence. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Support = 3/4 26 26

27 Recherche de motifs séquentiels (Salle, AIME 2009)
For each sequence, we calculate the support, the percentage of microarrays that verify the sequence. In our example, the 3 first microarrays among the 4 verify the sequence. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Support = 3/4 Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains) 27 27

28 Trop nombreux (entre 100 et 185,240) Difficile à interpréter
27/03/2017 28

29 Processus général Fouille de données Motifs séquentiels
Clustering et visualisation Motifs séquentiels sélectionnés Technique d’ interprétation New knowledge So, we have worked this year on clustering and visualisation method to help them. 29 29

30 Comment comparer les motifs (Saneifar et al., AusDM’08)
S75%=<(G1)(G2 G3)> S’75%=< (G2 G3) (G1)> Mesure de similarité Gènes communs et non communs Ordre des gènes Support The first question was how to compare the patterns. If compare the two patterns in the yellow box, they are composed of the same genes with the same support. However, the order of the genes is different. So we work on a similarity measure, which takes into account all these aspects We have also worked on a hierarchical clustering method to classify them. You have an image of the result of our tool on this slide. 30 30

31 Clustering simple (k-means)
Collaboration avec PIKKO We have worked with the PIKKO society this summer to produce the tool of this image, The idea is to group similar patterns in cluster and to visualise the distance between the clusters and the distance between the sequence in a cluster as resented on this image Of course, the user can zoom move and filter the patterns according to several criteria. This display enables the experts to navigate among the patterns and to select relevant patterns You can see a video of this tool at this address and I will be pleased to show you a demo during the coffy break. 31 31

32 Clustering simple (k-means)
Collaboration avec PIKKO We have worked with the PIKKO society this summer to produce the tool of this image, The idea is to group similar patterns in cluster and to visualise the distance between the clusters and the distance between the sequence in a cluster as resented on this image Of course, the user can zoom move and filter the patterns according to several criteria. This display enables the experts to navigate among the patterns and to select relevant patterns You can see a video of this tool at this address and I will be pleased to show you a demo during the coffy break. 32 32

33 Clustering hiérarchique (Nin Guerero et al., CSBM’09)
Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) Un résumé The first question was how to compare the patterns. If compare the two patterns in the yellow box, they are composed of the same genes with the same support. However, the order of the genes is different. So we work on a similarity measure, which takes into account all these aspects We have also worked on a hierarchical clustering method to classify them. You have an image of the result of our tool on this slide. 33 33

34 Clustering hiérarchique
Collaboration avec PIKKO 34

35 Clustering hiérarchique
Un résumé 35

36 Clustering hiérarchique
Malade Sain 36

37 Et les connaissances disponibles en ligne ?
27/03/2017 37

38 Processus général Fouille de données Motifs séquentiels
Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge We have focus in this last step on the discovery of relevant documents in Pubmed literature. 38 38

39 Séquences populaires et innovantes
Interprétation des motifs via les documents (Bringay et al., MedInfo’10) S75%,25%=<(G1)(G2 G3)> Textes Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes For a pattern selected by the expert, we have looked for texts in PubMed associated with 1, 2 or n genes of the pattern. As the number of documents was too limited, this process was reiterated with synonyms of these genes found in GO. This provided two types of analysis to the experts: validation (identification of patterns which contain genes related in the texts) research of innovations (identification of patterns which contain genes that are not linked in the text or in recent texts). In our first experiments based on two genes (operator AND) with its synonyms (operator OR), 73% of PubMed queries return less than 15 documents. Then experts can manually analyse these publications. 39

40 Visualisation de documents
Collaboration avec PIKKO 40

41 Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique 27/03/2017 41

42 S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>
Un motif pertinent S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer The biological experts involved in our project have used our tool. They have observed the sequence: S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Interestingly, those proteins might be involved in signalling or metabolism, Some of them interfere with Alzheimer's disease cellular events. Let’s now talk about the other knowledge available online? 42 42

43 Conclusion et perspectives
De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies Un outil pour rendre ces données manipulables Perspectives nombreuses :-)) D’autres types de motifs Amélioration des visualisations existantes D’autres types de visualisation ….

44 Mesurer les écarts fréquents de gènes
Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

45 Des motifs séquentiels vers…
Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> If the sequential patterns are interesting for biologists because they higthlight new relation between the expression of the genes, they are not sufficient. In particular, they are not easily understandable and actionable by experts because they are not interpretable in a linguistic manner without the definition of a crisp partition of the values. 45

46 Des motifs séquentiels vers…
Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> 100 200 300 400 <(G1 G5) (G3)> Let’s me take and example The sequential patterns as the pattern in the green box only enable us to capture the notion of “more expressed” But this pattern could correspond to 3 cases of genes expression As you can see, in the yellow case the gap is very important but it could be also very small as in the purple case For biologists these 3 cases do not have the same meaning and thus sequential patterns are not sufficient <(G1 G5) (G3)> <(G1 G5) (G3)> 46

47 <(G1 G5)(very over expressed 0,8) (G3)>
…Motifs à écarts flous (bringay et al., Fuzzyeee’09) Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way That is the reason why we propose to extract Fuzzy ordered patterns, based on fuzzy gaps, which express the importance of the gap between the genes or the groups of genes On this slide you have an example of such a pattern, which means that the gene G3 is far much expressed compared to the genes G1 and G5, which are expressed in a similar way. With Fuzzy ordered patterns we explain the differences between the itemset. 47

48 Recherche des motifs à écarts flous
Puce Séquence de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> < (G1 G5) (G3) > The first step consists in computing the difference between all the itemsets which is the absolute value of the difference between the intensity of the first gene of it2 and the last gene of it1 If we consider the two microarray of this table, and the two itemsets (G3) and (G1 G5), we calculate the 2 differences: 1 for the first microarray and 7,4 for the second microarray. 48

49 Recherche des motifs à écarts flous
Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8 Puces Séquences de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> The first step consists in computing the difference between all the itemsets which is the absolute value of the difference between the intensity of the first gene of it2 and the last gene of it1 If we consider the two microarray of this table, and the two itemsets (G3) and (G1 G5), we calculate the 2 differences: 1 for the first microarray and 7,4 for the second microarray. 49

50 Recherche des motifs à écarts flous
Trapezoidal partition 0,5 We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 50

51 Recherche des motifs à écarts flous
Trapezoidal partition 0,5 We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 δM1 =1 51

52 Recherche des motifs à écarts flous
We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 δM2=7.8 52

53 Recherche des motifs à écarts flous
Degré d’une séquence à écart flou : FSFG(M) = (d1, …,dn-1) T-norm appliquée à tous les degrés des écarts de la séquence F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1 Puces Séquences de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> (moyennement sur-exprimé; 0,5) <(G2)(G1 G5)(G4)(G3)> (très sur exprimé ;1) Now, we can associate to each sequence a Fuzzy gap degree, computed thanks to a T-norm applied to all the degrees of the gap of the sequence. In our example, composed of 2 itemsets, we find 0.5 for microarray 1 and 1 for microarray 2. 53

54 (very over expressed ;1)
Recherche des motifs à écarts flous Support d’une séquence à écart flou Pourcentage de puces vérifiant le motif à écarts flous Freq(G3)very(G1 G5) = 1/2 = 0,5 Microarray Gene expression sequence M1 (0,5) M2 (1) <(G2)(G1 G5)(G3)(G4)> (avg over expressed; 1) <(G2)(G1 G5)(G4)(G3)> (very over expressed ;1) Finally, we can associate a support to the sequence. This support corresponds to the percentage of microarrays verifying the Fuzzy ordered patterns. In our example, composed of 2 sequences, we find 0.75 54

55 Conclusions et perspectives
Motifs plus compréhensibles et manipulables par les experts Simple à calculer (post-traitement) Utiliser les propriétés des contraintes liées au flou pour améliorer les performances de notre algorithme Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer

56 Aider les médecins à typer
Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

57 Typer les tumeurs à partir des motifs TER de M. Fabregues

58 Schéma général Motifs séquentiels Construction du classifieur Base
d’apprentissage 90% Construction du classifieur Evaluation du classifieur Jeu de test 10% Séquences de données

59 Schéma général Motifs séquentiels Base d’apprentissage 90%
Construction du classifieur Extraction des motifs Motifs Tris des motifs Classifieur Evaluation du classifieur Jeu de test 10% Séquences classées Classifieur Attribution d’une classe Validation Séquences de données

60 Schéma général Répétition pour validation croisée Motifs séquentiels
Base d’apprentissage 90% Construction du classifieur Extraction des motifs Motifs Tris des motifs Classifieur Evaluation du classifieur Jeu de test 10% Séquences classées Classifieur Attribution d’une classe Validation Séquences de données Répétition pour validation croisée

61 Données → 108 patients → 3 types de tumeur → 76 gènes
Mickaël Fabrègue – TER 2010

62 Modèle Extraction des motifs
Pour chaque motif, calcul du support pour chaque type de tumeurs m1 → discriminant et représentatif du type de tumeur 2 Motifs associés à leur support Matériel utilisé pour la classification Beaucoup trop de motifs

63 Tris basés sur les supports
Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

64 Tris basés sur les supports
Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports Motif prioritaire : 1

65 Attribution d’un groupe à une séquence
Pour chaque séquence, on teste l’inclusion des motifs

66 Evaluation Séquences correctement attribuées Rappel =
Séquences appartenant à la tumeur Séquences correctement attribuées Précision = Séquences attribuées

67 Ecart entre le plus fort et le plus faible des supports
Résultat Ecart entre le plus fort et le plus faible des supports

68 Conclusion et perspectives
Améliorer la classification Diminuer le nombre de gènes puces Exhonit de diagnostique Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement

69 Conclusions Fouiller les données de santé, très prometteur
Nombre d’applications Nombre de données disponibles Intérêt des utilisateurs

70 Thank you for your attention http://www. lirmm. fr/tatoo/spip. php
3/27/2017


Télécharger ppt "Fouille de données et santé Octobre 2010 Sandra Bringay :"

Présentations similaires


Annonces Google