Exploration des données SAGE humaines

Slides:



Advertisements
Présentations similaires
F. Ducray (1), A. Idbaih (1,2), A. Reyniès (3), S. Lair (2), J
Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction Déterminer l'image d'un nombre par une fonction.
Algorithmes et structures de données avancées Cours 7
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Data Mining.
Regroupement (clustering)
EVALUATION DE LEXPERIMENTATION DU C2i niveau 2 « Métiers de la Santé » Nguyen Jean-Michel, Université Nantes 1.
Regroupement (clustering)
De linformation à la gestion des connaissances Introduction J. LINK-PEZET Dess SIAD Janvier 2001.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Extraction des connaissances dans les bases de données
Mise en œuvre d’une démarche d’investigation en BTS MAI
OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Ontologie, Méta-données, Sémiotiques
LES JEUX Sérieux dans l’enseignement de management
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
E 1 LES JEUX Sérieux dans lenseignement de management 1 Les jeux sérieux -Séminaire du 25 janvier 2012.
Continuité des apprentissages Ecole-Collège mars 2008 J Borréani IA-IPR mathématiques.
Continuité des apprentissages Ecole-CollègePavilly Novembre 2007.
Règles significatives
Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand
"Recherche de scénarios redoutés à partir d'un modèle réseau de Petri"
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
L’éducation confrontée aux questions de santé : le Cancer
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Concevoir un système dinformation hospitalier évolutif, ouvert et adapté grâce à un processus de conception orienté modèle Benjamin Chevallereau Alain.
Christelle Scharff IFI Juin 2004
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Eléments d ’algèbre relationnelle
INTRODUCTION Objectif:
Les séquences en mathématique Un choix à faire pour la 4e secondaire!
Ginette Berteau, professeure, École de travail social, UQAM
UML F. Laperruque INRA – SAGA CATI SICPA.
Champs de Markov cachés pour la classification de gènes..
Comprendre la variation dans les données: Notions de base
SADAPTER AUX CHANGEMENTS CLIMATIQUES : SITUATION ET BESOINS DU SECTEUR AGRICOLE Préparé pour le Comité sénatorial de lagriculture et des forêts Par Mike.
MODELE RELATIONNEL concept mathématique de relation
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Rappels de logique des prédicats du 1er ordre
Cartographie des connaissances biologiques
SITRANS – Système d’information Transcriptome pour la plate-forme de la Genopole Rhône-Alpes Daniel CRISAN
Fonction partie entière
Modélisation géométrique de base
Vers une génération automatique du mapping de sources biomédicales
Chapter 8A Semantic Web Primer 1 Chapitre 8 - Conclusions et perspectives Grigoris Antoniou Frank van Harmelen.
Chapitre 3 :Algèbre de Boole
L’interculturel Interculturalité, stéréotypes et clichés.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Requêtes homme-agent sur le fonctionnement Etudiantes: Anne DARME & Céline GIRARD Encadrant: Nicolas SABOURET Rapporteur: Vincent CORRUBLE Responsable:
La perception Par Caroline Bouchard Professeure en éducation
1 JEUX DE TESTS la méthode générale modèle de données critères fonctionnels d’extractions jeux de données jeux de données avant tests sélection exécution.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Dominique LAURENT Patrick SEGUELA
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Organisation pédagogique
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
Mais d’abord rappelez-vous!!
Licence « Creative Commons » (CC-BY-NC-SA) Catherine Thomas, Projet BourbaKeM, élément n°7, 2015 Projet BourbaKeM Elément n° 7: La codification des connaissances.
Ecole Nationale Supérieure des Officiers Sapeurs-Pompiers
DEXiFruits for sustainability Rediriger vers manipulation longue.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Transcription de la présentation:

Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS) O. Gandrillon (CGMC) Thèse financée par la Ligue contre le cancer.

Question biologique Etude des cancers Objectif : comprendre pourquoi certains groupes de gènes sont exprimés par certaines tumeurs Etude de l’expression des gènes par la technique SAGE

La technique SAGE Méthode pour explorer le transcriptome Avantages : données « quantitatives » =>comparaison entre expériences possibles (à l’inverse des puces) Ensemble des ARNm   ADN    ARNm  Protéines 2 1 Ensemble des tags = Librairie SAGE Situation biologique

Données SAGE humaines Données issues du Cancer Genome Anatomy Project : aujourd’hui 260 librairies disponibles gratuitement sur Sage Genie (majoritairement Hs) Données de décembre 2002 : 180 librairies humaines. Données hétérogènes (cellules de tissus ou en culture, beaucoup de tissus différents, cellules tumorales ou normales…) Beaucoup d’infos manquantes…

Exploration de ces données A la main : travail de titan Méthode différentielle : limitée Méthode globale : => Matrice d’expression tag1 tag2 … tagn Lib1 Lib2 Libm tag1 tag2 … tagn Lib1 tag1 tag2 … tagn Lib1 Lib2

member of the RAS gene superfamily Notre objectif Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

Exploration des données : techniques inductives Grandes quantités de données => besoin d’outils permettant d’extraire des connaissances de ces données Schéma classique : Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

Prétraitement des données (1/3) Données SAGE humaines : sélection des librairies de plus de 20 000 tags séquencés (Becquet et al) 90 librairies

Prétraitement des données (2/3) Sélection des tags: Non ambigus (1 seul identifiant Unigene) Dont la quantité est d’au moins 2 dans une librairie 2 matrices d’expression humaines: 74x822 : données de Juin 2001, sélection du transcriptome minimal (Velculescu) 90x27679 : données décembre 2002

Prétraitement des données (3/3) Les biologistes décident de coder des propriétés d’expression => matrices booléennes Nous nous intéressons aux gènes surexprimés => discrétisation de la matrice d’expression on considère la valeur d ’expression de chaque gène dans toutes les situations biologiques on affecte 1 chaque fois que le gène est surexprimé A ce jour, 3 techniques pour coder la surexpression d ’un gène La discrétisation est une étape OUVERTE.

Exploration des données : techniques inductives Schéma classique : 2 types de motifs extraits : Règles d’association logiques Concepts Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

Extraction de règles d’association (1/6) Règles d’association : X => Y Si Gene A et Gene B surexprimés => Gene C et Gene D surexprimés aussi Support(AB=>CD) = Supp(ABCD) Confiance (AB=>CD) = Supp(ABCD)/Supp(AB) Règles logiques : confiance =1 Cas concret : Si support minimal = 50% 7 ensembles fréquents : A, B, D, AB, AD, BD, ADB 3 règles logiques et fréquentes : B=>A D=>A BD=>A A B C D 1 2 3

Extraction de règles d’association (2/6) Extraction sur la matrice 74x822 (Becquet et al, 2002) Utilisation de l’algorithme Min-Ex : basé sur l’extraction des ensembles libres à partir libres, on extrait des règles dont le membre gauche est minimal

Extraction de règles d’association (3/6) Deux grands traits sont présents : gènes ribosomaux gènes mitochondriaux A l’intérieur d’un jeu de règles homogène Ré-identification d’un gène mal identifié Proposition de la fonction d’une EST Possibilité d’associer des cellules

member of the RAS gene superfamily Extraction de règles d’association (4/6) Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

Extraction de règles d’association (5/6) Extraction sur la matrice 90x27679 : l’algorithme atteint ses limites Matrix Discrétisation Densité Nombre d’ensembles libres Nombre d’ensembles fermés 74x822 ENE 82,8 % Intractable Milieu 12,2 % 13 580 544 80 068 Max-25% max 3,8 % 35934 1386 5% max 4,8 % 72640 1808 90x27679 34,5 % 2,2 % 4,7 %

Extraction de règles d’association (6/6) Solution envisagée (GREYC) : Transposition de la matrice Extraction sur les situations biologiques Passage par la connexion de Galois pour extraire des concepts Le contexte permet l’extraction des concepts à l’aide de nos extracteurs (Ac-miner ; Mv-miner)

La notion de concept (1/4) Un concept est un groupe reliant deux ensembles : un ensemble de gènes un ensemble de librairies Exemple : 4 gènes surexprimés dans 4 librairies.

La notion de concept (2/4) Connexion de Galois: Formalisme mathématique qui rend compte des relations décrites par la matrice binaire Soit L = ensemble des librairies , T = ensemble des tags 2 fonctions : f : L → T g : T → L

La notion de concept (3/4) Ensemble fermé : Soit l un ensemble de librairies et t un ensemble de tags. l est fermé ssi gof(l) = g(f(l)) = l. t est fermé ssi fog(t) = f(g(t)) = t. Concept = paire (l,t) tel que : f(l)=t et g(t) = l Où l et t sont des fermés t.q. gof (l) = l.

La notion de concept (4/4) B C D E L1 1 L2 L3 L4 Concrètement : f et g : f({L1}) = {B,C,E} f({L1,L3,L4}) = {B,C} g({A}) = {L4} g({B,C}) = {L1,L3,L4} Fermés : g(f({L1})) = g({B,C,E}) = {L1} g(f({L1,L3}) = g({B,C}) = {L1,L3,L4} Concepts de cette matrice : ({L1}, {B,C,E}) ; ({L3}, {B,C,D}) ; ({L4}, {A,B,C}) ; ({L2,L3}, {D}) ; ({L1,L3,L4}, {B,C}) ;

Extraction de concepts (1/2) A partir des ensembles libres on peut calculer l’ensemble des fermés. Notre stratégie : pour calculer l’ensemble des concepts, on calcule tous les libres sur la matrice transposée on calcule alors leur fermeture on en déduit les concepts

Extraction de concepts (2/2) Matrix Discrétisation Densité Nombre d’ensembles libres Nombre d’ensembles fermés 90x27679 Milieu 4,8 % Intractable t 90x27679 324 565 196 130 Max-25% max 2,2 % 21603 9150 5% max 4,7 % 54762 31766 Conclusion : On règle un verrou technologique … … et on obtient une nouvelle information biologiquement intéressante : le lien entre des groupes de gènes et des situations biologiques qui les surexpriment (Rioult et al, KDID’03)

Exploration des données : techniques inductives Schéma classique : 2 post traitements : Sélection des concepts d’intérêt Outil de visualisation Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

PostTraitement (1/3) Nécessité d’interroger une collection de concepts 1er outil : sélection de concepts d’intérêt 4 critères : Homogénéité des librairies (ex : carcinoma) Présence d’un ensemble de gènes d’intérêt Nombre de librairies dans le concept Nombre de tags dans le concept Possibilité de les combiner (conjonction)

Nombre minimal de librairies PostTraitement (2/3) L’outil de sélection permet de diminuer drastiquement le nombre de concepts à analyser Mot clé Nombre minimal de librairies Nombre minimal de tags Nombre de concepts - 1 681 2 330 3 64 4 Brain 160 106 20

PostTraitement (3/3) 2ème outil : outil de visualisation des concepts (Ruggero Pensa et Céline Robardet) Classification hiérarchique des concepts Piste extrêmement prometteuse car classification d’interactions entre les objets que l’on étudie

Interprétation biologique (1/3) Faire du sens : Gene Ontology (GO) vocabulaire décrivant les gènes termes GO classés dans 3 catégories : Processus biologique Localisation subcellulaire Fonction moléculaire Ontologie structurée : graphe diacyclique

Interprétation biologique (2/3) outil web Fatigo En entrée : une liste de gènes En sortie : la proportion de gènes pour chaque terme de GO de notre liste qui le partage => vision globale des processus biologiques à partir d’un ensemble de gènes d’intérêt

Interprétation biologique (3/3)

Perspectives (1/2) Prétraitement Utilisation des concepts Evaluation de la discrétisation sur les motifs extraits Utilisation de nouvelles discrétisations sur données SAGE Utilisation d’Identitag pour identifier les tags Utilisation des concepts Développer des méthodes de post-traitement Affiner celles existantes (disjonction, …)

Perspectives (2/2) Et les règles ? A partir de concepts d’intérêt, extraire les règles sur une matrice réduite Extraction de règles δ-fortes Utilisation des mesures d’intérêt Coupler notre méthode d’extraction avec d’autres méthodes (clustering, analyse statistiques, etc.) Test d’un scénario complet d’extraction de concepts intéressants Utiliser ces outils sur des données SAGE de poulet

Remerciements CGMC LIRIS Prisma GREYC BECQUET Céline BRESSON Corinne DERRINGTON Edmund DAMIOLA Francesca DAZY Sébastien FAURE Claudine GANDRILLON Olivier GIRAUD Sandrine KEIME Céline ROBARDET Céline LIRIS BESSON Jérémy BOULICAUT Jean-François JEUDY Baptiste PENSA Ruggero Prisma ROBARDET Céline GREYC CREMILLIEUX Bruno RIOULT François

Merci de votre attention 

Prétraitement des données (4/4) Données binaires 0 1 0 1 Prétraitement des données (4/4) 2 2 max moins x% Max Max Max – – – 25% 25% 25% Max Max Max Librairie 1 1 1 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 Milieu Données Continues Librairie 1 1 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 2 2 5% les plus exprim 5% les plus exprim 5% les plus exprim x% des valeurs les plus hautes é é é s s s Librairie 1 1 1 1 10 10 10 10 20 20 20 20 30 30 30 30 40 40 40 40 50 50 50 50 60 60 60 60 70 70 70 70 Niveau d’expression du gène

Gènes particuliers… (1/2) Gènes Growth factor

Gènes particuliers… (2/2) Gènes liés au cerveau