Fouille de données et santé Octobre 2010 Sandra Bringay :

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
11 Bienvenue Entrez le nom du groupe ou projet ici mardi, 17 novembre 2009.
7 juin 2012 DGAL.
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
1 Tournée Capital Souffle - du 03 octobre au 13 novembre Analyse des questionnaires recueillis sur les stands lors des actions régionales Capital.
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Epidémiologie des cancers digestifs en France
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Titre : Implémentation des éléments finis sous Matlab
Les quartiers Villeray – La Petite-Patrie et les voisinages
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Evaluation des risques toxiques
LES NOMBRES PREMIERS ET COMPOSÉS
Matériel dont vous aller avoir besoin pour cette séance
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Calculs et écritures fractionnaires
RACINES CARREES Définition Développer avec la distributivité Produit 1
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 10 pt 15 pt 20 pt 25 pt 5 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Les fonctions.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Aire d’une figure par encadrement
Écart moyen et écart type
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Annexe Résultats provinciaux comparés à la moyenne canadienne
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Transcription de la présentation:

Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010 Sandra Bringay : bringay@lirmm.fr Good morning, my name is Sandra Bringay and I come from the University of Montpellier in France I will present you the work realised in collaboration with the laboratory of biology called MMDN Molecular mechanism in neurodegenrative dementia This work is entitled “GeneMining: Identification, Visualization, and Interpretation of Brain Ageing Signatures”.

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Projet LAMAL Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Cohortes PAQUID Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données et santé Protocoles, GBP Connaissances non nominatives collectivement validées (Charlet, 2002) Dossier Patient Dossier Patient Professionnels de santé Patient, Réseau de soins, Autres établissements de soins, etc. Gene Mining Mission de soins Connaissances nominatives Mission de recherche Professionnels de santé Résultats d’études Épidémiologiques Données non nominatives Codage PMSI (CCAM) Mission de gestion Médico-économique Données cliniques Non nominatives Connaissances Non nominatives Autorités Médicales

Fouille de données de santé Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs Détecter des Comportements anormaux Analyser des comportements Fouille de données Prédire des comportements Pour conclure, en santé on dispose de grandes quantités de données électroniques et les professionnels de santé sont en attente de solutions pour exploiter ces données et améliorer leurs pratiques cliniques et organisationnelles. Ces données sont particulières., hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs) Il va falloir adapter les techniques de fouille de données à ces données pour retrouver des connaissances utiles dans ces grandes bases de données Par exemple pour # Analyser les comportements des patients et des professionnels de santé # Prédire des comportements comme le résultat ce traitements ou d’une politique de santé # Détecter des comportements anormaux de médecins # Rechercher des critères d’aides à la décision par exemple pour choisir un traitement ( Rechercher des critères d’aide à la décision

Fouille de données issues de puces à ADN

Puces à ADN Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? …. Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

Puces à ADN Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation). A ≡ T T ≡ A G ≡ C C ≡ G Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface Expression (couleur)  mesure de la quantité d’ADN dénaturé qui se reforme A T C … G 1 probe  1 gène

On this image, you have an example of the data obtained with several microarrays. Each line corresponds to a gene. Gènes 12 12

Gènes Puces Each column corresponds to a microarray. Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Gènes Puces 13 13

(expression) d’un gène mesuré par une puce Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Intensité (expression) d’un gène mesuré par une puce Gènes Puces 14 14

Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets Each microarray measures the intensity, the expression of a gene, which corresponds to the numerical values in the cells of this table Intensité (expression) d’un gène mesuré par une puce Gènes Puces Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets 27/03/2017 15 15

Les motifs séquentiels dans ce contexte… Thèse de P. Salle Motifs séquentiels : séquences fréquentes d’itemsets ordonnés < ( ) ( ) > Rechercher des motifs séquentiels pour mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière < (G5 G4) (G6) > 2 collaborations : MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.

Maladie d’Alzheimer : problème majeur de la société moderne Cancer is a major concern for the modern society. It is a leading cause of death, in particular Breast cancer, which is the 2nd most common type of cancer and the 5th most common cause of cancer death As deaths from breast cancer worldwide are projected to continue rising, the problem of discovering the genes involved in their development have been intensively addressed by the biomedical community. There is several types of breath cancer and identifyng types of cancer is a key issue in order to adapt the cares to category of cancer Maladie d’Alzheimer : problème majeur de la société moderne Maladie d’Alzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050) Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer) 17 17

Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004) Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps. IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades. Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs. Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances Moreover, when biologists analyse their results of DNA microarrays analysis, they often use online biological knowledge databases and bibliographical resources such as KEGG, GO, PubMed Most of their manipulations to access these resources are done manually and are time consuming 21 21

Données biologiques massives Bases de connaissances et bases bibliographiques disponibles en ligne Technologies puces à ADN Nouvelles connaissances Moreover, when biologists analyse their results of DNA microarrays analysis, they often use online biological knowledge databases and bibliographical resources such as KEGG, GO, PubMed Most of their manipulations to access these resources are done manually and are time consuming  Challenge : exploiter toutes ces données en terme de signification biologique 22 22

Processus général (Bringay, MIE’2009) Fouille de données Motifs séquentiels Clustering et visualisation Sélection de motifs séquentiels Nouvelles connaissances biologiques Techniques d’ interprétation I will know describe our process. The first step consists in applying data mining techniques to the microarray data => As the result we obtain sequential patterns I will describe after. Given the amount of patterns returned, we also add an interface that eases the discovery process => by allowing experts to identify smaller sets of meaningful patterns from more general sets of patterns We integrate in our tool existing knowledge bases (GO, KEGG) as well as bibliographic databases (PubMed), to assist the biologists in interpreting the selected patterns. I will know describe in detail each part of this process. 23 23

Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge In previous work, we have proposed an algorithm to extract sequential patterns from microarray data. I will just give you an intuition of its principle 24 24

Recherche de motifs séquentiels (Salle, AIME 2009) On this new table, you have another representation of the data obtained with microarrays. For each microarray, the genes have been ordered according to their expression. Our algorithm allows to extract the frequent sequences from these table. You have an example of such a sequential patterns in the right hand corner. This sequence means that the gene G2 has an expression lower than the genes G1 and G5 which expressions are close and lower than G3. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3 25 25

Recherche de motifs séquentiels (Salle, AIME 2009) For each sequence, we calculate the support, the percentage of microarrays that verify the sequence. In our example, the 3 first microarrays among the 4 verify the sequence. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Support = 3/4 26 26

Recherche de motifs séquentiels (Salle, AIME 2009) For each sequence, we calculate the support, the percentage of microarrays that verify the sequence. In our example, the 3 first microarrays among the 4 verify the sequence. Recherche de motifs séquentiels (Salle, AIME 2009) Puces Séquences de gènes M1 M2 M3 M4 <(G2)(G1 G5)(G3)(G4)> <(G2)(G1 G5)(G4)(G3)> <(G2)(G4)(G1 G5)(G3) > <(G2)(G3)(G1 G5)(G4)> <(G2)(G1 G5)(G3)> Support = 3/4 Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains) 27 27

Trop nombreux (entre 100 et 185,240) Difficile à interpréter 27/03/2017 28

Processus général Fouille de données Motifs séquentiels Clustering et visualisation Motifs séquentiels sélectionnés Technique d’ interprétation New knowledge So, we have worked this year on clustering and visualisation method to help them. 29 29

Comment comparer les motifs (Saneifar et al., AusDM’08) S75%=<(G1)(G2 G3)> S’75%=< (G2 G3) (G1)> Mesure de similarité Gènes communs et non communs Ordre des gènes Support The first question was how to compare the patterns. If compare the two patterns in the yellow box, they are composed of the same genes with the same support. However, the order of the genes is different. So we work on a similarity measure, which takes into account all these aspects We have also worked on a hierarchical clustering method to classify them. You have an image of the result of our tool on this slide. 30 30

Clustering simple (k-means) Collaboration avec PIKKO We have worked with the PIKKO society this summer to produce the tool of this image, The idea is to group similar patterns in cluster and to visualise the distance between the clusters and the distance between the sequence in a cluster as resented on this image Of course, the user can zoom move and filter the patterns according to several criteria. This display enables the experts to navigate among the patterns and to select relevant patterns You can see a video of this tool at this address and I will be pleased to show you a demo during the coffy break. 31 31

Clustering simple (k-means) Collaboration avec PIKKO We have worked with the PIKKO society this summer to produce the tool of this image, The idea is to group similar patterns in cluster and to visualise the distance between the clusters and the distance between the sequence in a cluster as resented on this image Of course, the user can zoom move and filter the patterns according to several criteria. This display enables the experts to navigate among the patterns and to select relevant patterns You can see a video of this tool at this address and I will be pleased to show you a demo during the coffy break. 32 32

Clustering hiérarchique (Nin Guerero et al., CSBM’09) Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d) Un résumé The first question was how to compare the patterns. If compare the two patterns in the yellow box, they are composed of the same genes with the same support. However, the order of the genes is different. So we work on a similarity measure, which takes into account all these aspects We have also worked on a hierarchical clustering method to classify them. You have an image of the result of our tool on this slide. 33 33

Clustering hiérarchique Collaboration avec PIKKO 34

Clustering hiérarchique Un résumé 35

Clustering hiérarchique Malade Sain 36

Et les connaissances disponibles en ligne ? 27/03/2017 37

Processus général Fouille de données Motifs séquentiels Clustering et visualization Motifs séquentiels sélectionnés Techniques d’ interprétation New knowledge We have focus in this last step on the discovery of relevant documents in Pubmed literature. 38 38

Séquences populaires et innovantes Interprétation des motifs via les documents (Bringay et al., MedInfo’10) S75%,25%=<(G1)(G2 G3)> Textes Recherche de documents associés avec les gènes des motifs Objectifs: validation + recherche de nouveautés Séquences populaires et innovantes For a pattern selected by the expert, we have looked for texts in PubMed associated with 1, 2 or n genes of the pattern. As the number of documents was too limited, this process was reiterated with synonyms of these genes found in GO. This provided two types of analysis to the experts: validation (identification of patterns which contain genes related in the texts) research of innovations (identification of patterns which contain genes that are not linked in the text or in recent texts). In our first experiments based on two genes (operator AND) with its synonyms (operator OR), 73% of PubMed queries return less than 15 documents. Then experts can manually analyse these publications. 39

Visualisation de documents Collaboration avec PIKKO 40

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un signification biologique 27/03/2017 41

S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Un motif pertinent S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Protéines impliquées dans les mécanismes de signalisation et du métabolisme Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer The biological experts involved in our project have used our tool. They have observed the sequence: S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)> Interestingly, those proteins might be involved in signalling or metabolism, Some of them interfere with Alzheimer's disease cellular events.   Let’s now talk about the other knowledge available online? 42 42

Conclusion et perspectives De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies Un outil pour rendre ces données manipulables Perspectives nombreuses :-)) D’autres types de motifs Amélioration des visualisations existantes D’autres types de visualisation ….

Mesurer les écarts fréquents de gènes Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

Des motifs séquentiels vers… Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> If the sequential patterns are interesting for biologists because they higthlight new relation between the expression of the genes, they are not sufficient. In particular, they are not easily understandable and actionable by experts because they are not interpretable in a linguistic manner without the definition of a crisp partition of the values. 45

Des motifs séquentiels vers… Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> 100 200 300 400 <(G1 G5) (G3)> 97 360 Let’s me take and example The sequential patterns as the pattern in the green box only enable us to capture the notion of “more expressed” But this pattern could correspond to 3 cases of genes expression As you can see, in the yellow case the gap is very important but it could be also very small as in the purple case For biologists these 3 cases do not have the same meaning and thus sequential patterns are not sufficient <(G1 G5) (G3)> 97 190 <(G1 G5) (G3)> 97 105 46

<(G1 G5)(very over expressed 0,8) (G3)> …Motifs à écarts flous (bringay et al., Fuzzyeee’09) Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la définition d’une partition stricte des valeurs d’expression des gènes <(G1 G5)(G3)> Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes <(G1 G5)(very over expressed 0,8) (G3)> G3 is far much expressed compared to G1 and G5, which are expressed in a similar way That is the reason why we propose to extract Fuzzy ordered patterns, based on fuzzy gaps, which express the importance of the gap between the genes or the groups of genes On this slide you have an example of such a pattern, which means that the gene G3 is far much expressed compared to the genes G1 and G5, which are expressed in a similar way. With Fuzzy ordered patterns we explain the differences between the itemset. 47

Recherche des motifs à écarts flous Puce Séquence de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 < (G1 G5) (G3) > The first step consists in computing the difference between all the itemsets which is the absolute value of the difference between the intensity of the first gene of it2 and the last gene of it1 If we consider the two microarray of this table, and the two itemsets (G3) and (G1 G5), we calculate the 2 differences: 1 for the first microarray and 7,4 for the second microarray. 48

Recherche des motifs à écarts flous Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1 Exemple: M1: δ((G3); (G1 G5)) = Ι5-4Ι=1 M2: δ((G3); (G1 G5)) = Ι12-4.2Ι=7,8 Puces Séquences de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 The first step consists in computing the difference between all the itemsets which is the absolute value of the difference between the intensity of the first gene of it2 and the last gene of it1 If we consider the two microarray of this table, and the two itemsets (G3) and (G1 G5), we calculate the 2 differences: 1 for the first microarray and 7,4 for the second microarray. 49

Recherche des motifs à écarts flous Trapezoidal partition 0,5 We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 50

Recherche des motifs à écarts flous Trapezoidal partition 0,5 We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 δM1 =1 51

Recherche des motifs à écarts flous We can now use the trapezoidal partition to find the category of the gap and the associated membership degree. For the first microarray, we find the category averagely over expressed and the degree 0.5 For the second microarray, we find the category very over expressed and the degree 1 δM2=7.8 52

Recherche des motifs à écarts flous Degré d’une séquence à écart flou : FSFG(M) = (d1, …,dn-1) T-norm appliquée à tous les degrés des écarts de la séquence F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1 Puces Séquences de gènes M1 M2 <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 (moyennement sur-exprimé; 0,5) <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 (très sur exprimé ;1) Now, we can associate to each sequence a Fuzzy gap degree, computed thanks to a T-norm applied to all the degrees of the gap of the sequence. In our example, composed of 2 itemsets, we find 0.5 for microarray 1 and 1 for microarray 2. 53

(very over expressed ;1) Recherche des motifs à écarts flous Support d’une séquence à écart flou Pourcentage de puces vérifiant le motif à écarts flous Freq(G3)very(G1 G5) = 1/2 = 0,5 Microarray Gene expression sequence M1 (0,5) M2 (1) <(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7 (avg over expressed; 1) <(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12 (very over expressed ;1) Finally, we can associate a support to the sequence. This support corresponds to the percentage of microarrays verifying the Fuzzy ordered patterns. In our example, composed of 2 sequences, we find 0.75   54

Conclusions et perspectives Motifs plus compréhensibles et manipulables par les experts Simple à calculer (post-traitement) Utiliser les propriétés des contraintes liées au flou pour améliorer les performances de notre algorithme Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer

Aider les médecins à typer Plan Aider les biologistes à découvrir des nouveautés dans les puces à ADN Mesurer les écarts fréquents de gènes Aider les médecins à typer les tumeurs du sein

Typer les tumeurs à partir des motifs TER de M. Fabregues

Schéma général Motifs séquentiels Construction du classifieur Base d’apprentissage 90% Construction du classifieur Evaluation du classifieur Jeu de test 10% Séquences de données

Schéma général Motifs séquentiels Base d’apprentissage 90% Construction du classifieur Extraction des motifs Motifs Tris des motifs Classifieur Evaluation du classifieur Jeu de test 10% Séquences classées Classifieur Attribution d’une classe Validation Séquences de données

Schéma général Répétition pour validation croisée Motifs séquentiels Base d’apprentissage 90% Construction du classifieur Extraction des motifs Motifs Tris des motifs Classifieur Evaluation du classifieur Jeu de test 10% Séquences classées Classifieur Attribution d’une classe Validation Séquences de données Répétition pour validation croisée

Données → 108 patients → 3 types de tumeur → 76 gènes Mickaël Fabrègue – TER 2010

Modèle Extraction des motifs Pour chaque motif, calcul du support pour chaque type de tumeurs m1 → discriminant et représentatif du type de tumeur 2 Motifs associés à leur support Matériel utilisé pour la classification Beaucoup trop de motifs

Tris basés sur les supports Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

Tris basés sur les supports Les supports les plus forts Ecart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports Motif prioritaire : 1

Attribution d’un groupe à une séquence Pour chaque séquence, on teste l’inclusion des motifs

Evaluation Séquences correctement attribuées Rappel = Séquences appartenant à la tumeur Séquences correctement attribuées Précision = Séquences attribuées

Ecart entre le plus fort et le plus faible des supports Résultat Ecart entre le plus fort et le plus faible des supports

Conclusion et perspectives Améliorer la classification Diminuer le nombre de gènes puces Exhonit de diagnostique Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement

Conclusions Fouiller les données de santé, très prometteur Nombre d’applications Nombre de données disponibles Intérêt des utilisateurs

Thank you for your attention http://www. lirmm. fr/tatoo/spip. php 3/27/2017