La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Sandra Bringay : Fouille de données et santé Octobre 2010.

Présentations similaires


Présentation au sujet: "Sandra Bringay : Fouille de données et santé Octobre 2010."— Transcription de la présentation:

1 Sandra Bringay : Fouille de données et santé Octobre 2010

2 2 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002)

3 3 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002)

4 4 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002) Projet LAMAL

5 5 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002)

6 6 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002) Cohortes PAQUID

7 7 Patient, Réseau de soins, Autres établissements de soins, etc. de soins, etc. Professionnels de santé Connaissancesnominatives DossierPatient Mission de soins Mission DossierPatient Mission de gestion Médico-économique Médico-économique CodagePMSI(CCAM) Autorités Médicales Connaissances Non nominatives Mission de recherche recherche Protocoles, GBP Connaissances non nominatives collectivement validées Professionnels de santé Données cliniques Non nominatives RésultatsdétudesÉpidémiologiquesDonnées non nominatives (Charlet, 2002) Gene Mining

8 8 Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Fouille de données Analyser des comportements Prédire des comportements Détecter des Comportements anormaux Rechercher des critères daide à la décision

9 Fouille de données issues de puces à ADN

10 10 Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules Utilisées par les biologistes pour acquérir de grandes quantités de données sur lexpression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? …. Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

11 11 Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). A T T A G C C G Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface ATCC…GA 1 probe 1 gène Expression (couleur) mesure de la quantité dADN dénaturé qui se reforme

12 12 Gènes

13 13 Gènes Puces

14 14 Intensité (expression) dun gène mesuré par une puce Gènes Puces

15 15 11/03/ Gènes Puces Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets Intensité (expression) dun gène mesuré par une puce

16 16 Motifs séquentiels : séquences fréquentes ditemsets ordonnés Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière 2 collaborations : MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.

17 17 Maladie dAlzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050) Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie MMDN : travaillent sur lAD et sur le vieillissement à partir dun modèle animal, Microcebus murinus Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17 Maladie dAlzheimer : problème majeur de la société moderne

18 18 Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. Objectif : déterminer un ensemble de bio- marqueurs suffisants pour typer ces tumeurs. Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

19 19 1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN 2. Mesurer les écarts fréquents de gènes 3. Aider les médecins à typer les tumeurs du sein

20 20 1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN 2. Mesurer les écarts fréquents de gènes 3. Aider les médecins à typer les tumeurs du sein

21 21 Technologies puces à ADN Nouvelles connaissances Bases de connaissances et bases bibliographiques disponibles en ligne Données biologiques massives

22 22 Technologies puces à ADN Nouvelles connaissances Bases de connaissances et bases bibliographiques disponibles en ligne Données biologiques massives Challenge : exploiter toutes ces données en terme de signification biologique

23 23 Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Techniques d interprétation Techniques d interprétation Nouvelles connaissances biologiques Processus général (Bringay, MIE2009)

24 24 Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d interprétation Techniques d interprétation Processus général

25 25 Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25 PucesSéquences de gènes M1 M2 M3 M4 Recherche de motifs séquentiels (Salle, AIME 2009)

26 26 Recherche de motifs séquentiels (Salle, AIME 2009) Support = 3/4 PucesSéquences de gènes M1 M2 M3 M4

27 27 Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains) Recherche de motifs séquentiels (Salle, AIME 2009) Support = 3/4 PucesSéquences de gènes M1 M2 M3 M4

28 28 11/03/ Trop nombreux (entre 100 et 185,240) Difficile à interpréter Trop nombreux (entre 100 et 185,240) Difficile à interpréter

29 29 Fouille de données Motifs séquentiels Clustering et visualisation Motifs séquentiels sélectionnés Technique d interprétation Technique d interprétation New knowledge Processus général

30 30 Mesure de similarité Gènes communs et non communs Ordre des gènes Support 30 S75%= Comment comparer les motifs (Saneifar et al., AusDM08)

31 31 Collaboration avec PIKKO Collaboration avec PIKKO Clustering simple (k-means)

32 32 Clustering simple (k-means) Collaboration avec PIKKO Collaboration avec PIKKO

33 33 Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) 33 Un résumé Clustering hiérarchique (Nin Guerero et al., CSBM09)

34 34 Collaboration avec PIKKO Collaboration avec PIKKO Clustering hiérarchique

35 35 Un résumé Clustering hiérarchique

36 36 Malade Sain Clustering hiérarchique

37 37 11/03/ Et les connaissances disponibles en ligne ?

38 38 Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d interprétation Techniques d interprétation New knowledge Processus général

39 39 Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes S75%,25%= Textes Interprétation des motifs via les documents (Bringay et al., MedInfo10)

40 40 Collaboration avec PIKKO Collaboration avec PIKKO Visualisation de documents

41 41 11/03/ Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique

42 42 Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie dAlzheimer 42 S 75 = Un motif pertinent

43 43 De nouvelles connaissances pour les biologistes qui leur permettent détudier limpact de lexpression des gènes sur les maladies Un outil pour rendre ces données manipulables Perspectives nombreuses :-)) Dautres types de motifs Amélioration des visualisations existantes Dautres types de visualisation ….

44 44 1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN 2. Mesurer les écarts fréquents de gènes 3. Aider les médecins à typer les tumeurs du sein

45 45 Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables dune manière linguistique sans la définition dune partition stricte des valeurs dexpression des gènes Des motifs séquentiels vers…

46 Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables dune manière linguistique sans la définition dune partition stricte des valeurs dexpression des gènes Des motifs séquentiels vers…

47 47 Motifs à écarts flous : basés sur des écarts flous qui expriment limportance de lécart entre des gènes ou des groupes de gènes G3 is far much expressed compared to G1 and G5, which are expressed in a similar way Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables dune manière linguistique sans la définition dune partition stricte des valeurs dexpression des gènes …Motifs à écarts flous (bringay et al., Fuzzyeee09)

48 48 PuceSéquence de gènes M1 M Recherche des motifs à écarts flous

49 49 PucesSéquences de gènes M1 M Différence dItemset δ(it2; it1): la valeur absolue de la différence entre lintensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι =1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8 Recherche des motifs à écarts flous

50 50 Trapezoidal partition 0,5 Recherche des motifs à écarts flous

51 51 δM1 =1 Trapezoidal partition 0,5 Recherche des motifs à écarts flous

52 52 δM2=7.8 Recherche des motifs à écarts flous

53 53 PucesSéquences de gènes M1 M (moyennement sur-exprimé; 0,5) (très sur exprimé ;1) Degré dune séquence à écart flou : F SFG (M) = (d1, …,dn-1) T-norm appliquée à tous les degrés des écarts de la séquence F (G3)(G1 G5) (M1) = 0,5 F (G3)(G1 G5) (M2) = 1 Recherche des motifs à écarts flous

54 54 MicroarrayGene expression sequence M1 (0,5) M2 (1) (avg over expressed; 1) (very over expressed ;1) Support dune séquence à écart flou Pourcentage de puces vérifiant le motif à écarts flous Freq (G3)very(G1 G5) = 1/2 = 0,5 Recherche des motifs à écarts flous

55 55 Motifs plus compréhensibles et manipulables par les experts Simple à calculer (post-traitement) Utiliser les propriétés des contraintes liées au flou pour améliorer les performances de notre algorithme Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer

56 56 1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN 2. Mesurer les écarts fréquents de gènes 3. Aider les médecins à typer les tumeurs du sein

57 57

58 58 Base dapprentissage 90% Construction du classifieur Evaluation du classifieur Jeu de test 10% Séquences de données Motifs séquentiels Schéma général

59 59 Base dapprentissage 90% Construction du classifieur Evaluation du classifieur Jeu de test 10% Séquences de données Motifs séquentiels Schéma général Extraction des motifs Tris des motifs Motifs Classifieur Attribution dune classe Séquences classées Validation

60 60 Base dapprentissage 90% Construction du classifieur Evaluation du classifieur Jeu de test 10% Séquences de données Motifs séquentiels Schéma général Extraction des motifs Tris des motifs Motifs Classifieur Attribution dune classe Séquences classées Validation Répétition pour validation croisée

61 61 Mickaël Fabrègue – TER patients 3 types de tumeur 76 gènes Données

62 62 Extraction des motifs Pour chaque motif, calcul du support pour chaque type de tumeurs m1 discriminant et représentatif du type de tumeur 2 Motifs associés à leur support Matériel utilisé pour la classification Beaucoup trop de motifs

63 63 Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports Tris basés sur les supports

64 64 Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports Motif prioritaire : 1 Tris basés sur les supports

65 65 Pour chaque séquence, on teste linclusion des motifs Attribution dun groupe à une séquence

66 66 Rappel = Séquences correctement attribuées Séquences appartenant à la tumeur Evaluation Précision = Séquences correctement attribuées Séquences attribuées

67 67 Ecart entre le plus fort et le plus faible des supports Résultat

68 68 Conclusion et perspectives Améliorer la classification Diminuer le nombre de gènes puces Exhonit de diagnostique Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement

69 69 Fouiller les données de santé, très prometteur Nombre dapplications Nombre de données disponibles Intérêt des utilisateurs

70 3/11/201470


Télécharger ppt "Sandra Bringay : Fouille de données et santé Octobre 2010."

Présentations similaires


Annonces Google