La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS)

Présentations similaires


Présentation au sujet: "Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS)"— Transcription de la présentation:

1 Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS) O. Gandrillon (CGMC) Thèse financée par la Ligue contre le cancer.

2 Question biologique Etude des cancers Objectif : comprendre pourquoi certains groupes de gènes sont exprimés par certaines tumeurs Etude de lexpression des gènes par la technique SAGE

3 Méthode pour explorer le transcriptome Avantages : données « quantitatives » =>comparaison entre expériences possibles (à linverse des puces) La technique SAGE ADN ARNm Protéines Ensemble des ARNm Ensemble des tags = Librairie SAGE Situation biologique

4 Données SAGE humaines Données issues du Cancer Genome Anatomy Project : aujourdhui 260 librairies disponibles gratuitement sur Sage Genie (majoritairement Hs) Données de décembre 2002 : 180 librairies humaines. Données hétérogènes (cellules de tissus ou en culture, beaucoup de tissus différents, cellules tumorales ou normales…) Beaucoup dinfos manquantes…

5 Exploration de ces données A la main : travail de titan Méthode différentielle : limitée Méthode globale : => Matrice dexpression tag 1 tag 2 …tag n Lib1 tag 1 tag 2 …tag n Lib1 Lib2 tag 1 tag 2 …tag n Lib1 Lib2 … Lib m

6 Notre objectif Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

7 Exploration des données : techniques inductives Grandes quantités de données => besoin doutils permettant dextraire des connaissances de ces données Schéma classique : Données SAGE Prétraitement Extr. motifs Post traitement ExpertConnaissances Discrétisation- Sélection - Comparaison

8 Prétraitement des données (1/3) Données SAGE humaines : sélection des librairies de plus de tags séquencés (Becquet et al) 90 librairies

9 Prétraitement des données (2/3) Sélection des tags: –Non ambigus (1 seul identifiant Unigene) –Dont la quantité est dau moins 2 dans une librairie 2 matrices dexpression humaines: –74x822 : données de Juin 2001, sélection du transcriptome minimal (Velculescu) –90x27679 : données décembre 2002

10 Prétraitement des données (3/3) Les biologistes décident de coder des propriétés dexpression => matrices booléennes Nous nous intéressons aux gènes surexprimés => discrétisation de la matrice dexpression on considère la valeur d expression de chaque gène dans toutes les situations biologiques on affecte 1 chaque fois que le gène est surexprimé A ce jour, 3 techniques pour coder la surexpression d un gène La discrétisation est une étape OUVERTE.

11 Exploration des données : techniques inductives Schéma classique : 2 types de motifs extraits : Règles dassociation logiques Concepts Données SAGE Prétraitement Extr. motifs Post traitement ExpertConnaissances Discrétisation- Sélection - Comparaison

12 Extraction de règles dassociation (1/6) Règles dassociation : X => Y Si Gene A et Gene B surexprimés => Gene C et Gene D surexprimés aussi Support(AB=>CD) = Supp(ABCD) Confiance (AB=>CD) = Supp(ABCD)/Supp(AB) Règles logiques : confiance =1 Cas concret : –Si support minimal = 50% 7 ensembles fréquents : A, B, D, AB, AD, BD, ADB 3 règles logiques et fréquentes : B=>A D=>A BD=>A ABCD

13 Extraction de règles dassociation (2/6) Extraction sur la matrice 74x822 (Becquet et al, 2002) Utilisation de lalgorithme Min-Ex : basé sur lextraction des ensembles libres à partir libres, on extrait des règles dont le membre gauche est minimal

14 Deux grands traits sont présents : gènes ribosomaux gènes mitochondriaux A lintérieur dun jeu de règles homogène Ré-identification dun gène mal identifié Proposition de la fonction dune EST Possibilité dassocier des cellules Extraction de règles dassociation (3/6)

15 Extraction de règles dassociation (4/6) Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

16 Extraction de règles dassociation (5/6) MatrixDiscrétisationDensité Nombre densembles libres Nombre densembles fermés 74x822ENE82,8 %Intractable 74x822Milieu12,2 % x822Max-25% max3,8 % x8225% max4,8 % x27679ENE34,5 %Intractable 90x27679Milieu4,8 %Intractable 90x27679Max-25% max2,2 %Intractable 90x276795% max4,7 %Intractable Extraction sur la matrice 90x27679 : lalgorithme atteint ses limites

17 Extraction de règles dassociation (6/6) Solution envisagée (GREYC) : Transposition de la matrice Extraction sur les situations biologiques Passage par la connexion de Galois pour extraire des concepts Le contexte permet lextraction des concepts à laide de nos extracteurs (Ac- miner ; Mv-miner)

18 La notion de concept (1/4) Un concept est un groupe reliant deux ensembles : –un ensemble de gènes –un ensemble de librairies –Exemple : 4 gènes surexprimés dans 4 librairies.

19 La notion de concept (2/4) Connexion de Galois: Formalisme mathématique qui rend compte des relations décrites par la matrice binaire Soit L = ensemble des librairies, T = ensemble des tags 2 fonctions : f : L T g : T L

20 La notion de concept (3/4) Ensemble fermé : Soit l un ensemble de librairies et t un ensemble de tags. l est fermé ssi g o f(l) = g(f(l)) = l. t est fermé ssi f o g(t) = f(g(t)) = t. Concept = paire (l,t) tel que : –f(l)=t et g(t) = l –Où l et t sont des fermés t.q. g o f (l) = l.

21 La notion de concept (4/4) Concrètement : f et g : f({L1}) = {B,C,E} f({L1,L3,L4}) = {B,C} g({A}) = {L4} g({B,C}) = {L1,L3,L4} Fermés : g(f({L1})) = g({B,C,E}) = {L1} g(f({L1,L3}) = g({B,C}) = {L1,L3,L4} ABCDE L L L L Concepts de cette matrice : ({L1}, {B,C,E}) ; ({L3}, {B,C,D}) ; ({L4}, {A,B,C}) ; ({L2,L3}, {D}) ; ({L1,L3,L4}, {B,C}) ;

22 Extraction de concepts (1/2) A partir des ensembles libres on peut calculer lensemble des fermés. Notre stratégie : –pour calculer lensemble des concepts, on calcule tous les libres sur la matrice transposée –on calcule alors leur fermeture –on en déduit les concepts

23 Extraction de concepts (2/2) MatrixDiscrétisationDensitéNombre densembles libres Nombre densembles fermés 90x27679Milieu4,8 %Intractable t 90x27679Milieu4,8 % x27679Max-25% max2,2 %Intractable t 90x27679Max-25% max2,2 % x276795% max4,7 %Intractable t 90x276795% max4,7 % Conclusion : On règle un verrou technologique … … et on obtient une nouvelle information biologiquement intéressante : le lien entre des groupes de gènes et des situations biologiques qui les surexpriment (Rioult et al, KDID03)

24 Exploration des données : techniques inductives Schéma classique : 2 post traitements : Sélection des concepts dintérêt Outil de visualisation Données SAGE Prétraitement Extr. motifs Post traitement ExpertConnaissances Discrétisation- Sélection - Comparaison

25 PostTraitement (1/3) Nécessité dinterroger une collection de concepts 1er outil : sélection de concepts dintérêt 4 critères : –Homogénéité des librairies (ex : carcinoma) –Présence dun ensemble de gènes dintérêt –Nombre de librairies dans le concept –Nombre de tags dans le concept Possibilité de les combiner (conjonction)

26 PostTraitement (2/3) Loutil de sélection permet de diminuer drastiquement le nombre de concepts à analyser Mot clé Nombre minimal de librairies Nombre minimal de tags Nombre de concepts Brain11160 Brain22106 Brain3320 Brain440

27 PostTraitement (3/3) 2ème outil : outil de visualisation des concepts (Ruggero Pensa et Céline Robardet) Classification hiérarchique des concepts Piste extrêmement prometteuse car classification dinteractions entre les objets que lon étudie

28 Interprétation biologique (1/3) Faire du sens : Gene Ontology (GO) vocabulaire décrivant les gènes termes GO classés dans 3 catégories : –Processus biologique –Localisation subcellulaire –Fonction moléculaire Ontologie structurée : graphe diacyclique

29 Interprétation biologique (2/3) outil web Fatigo En entrée : une liste de gènes En sortie : la proportion de gènes pour chaque terme de GO de notre liste qui le partage => vision globale des processus biologiques à partir dun ensemble de gènes dintérêt

30 Interprétation biologique (3/3)

31 Perspectives (1/2) Prétraitement Evaluation de la discrétisation sur les motifs extraits Utilisation de nouvelles discrétisations sur données SAGE Utilisation dIdentitag pour identifier les tags Utilisation des concepts Développer des méthodes de post-traitement Affiner celles existantes (disjonction, …)

32 Perspectives (2/2) Et les règles ? A partir de concepts dintérêt, extraire les règles sur une matrice réduite Extraction de règles δ-fortes Utilisation des mesures dintérêt Coupler notre méthode dextraction avec dautres méthodes (clustering, analyse statistiques, etc.) Test dun scénario complet dextraction de concepts intéressants Utiliser ces outils sur des données SAGE de poulet

33 Remerciements CGMC BECQUET Céline BRESSON Corinne DERRINGTON Edmund DAMIOLA Francesca DAZY Sébastien FAURE Claudine GANDRILLON Olivier GIRAUD Sandrine KEIME Céline ROBARDET Céline LIRIS BESSON Jérémy BOULICAUT Jean- François JEUDY Baptiste PENSA Ruggero Prisma ROBARDET Céline GREYC CREMILLIEUX Bruno RIOULT François

34 Merci de votre attention

35 Prétraitement des données (4/4) Max–25%Max –25%Max Max–25%Max Librairie Milieu % les plus exprimés % les plus exprimés % les plus exprimés x% des valeurs les plus hautes Niveau dexpression du gène Données Continues Librairie 1 Niveau dexpression du gène Librairie 1 Niveau dexpression du gène max moins x% Données binaires 0 1

36 Gènes particuliers… (1/2) Gènes Growth factor

37 Gènes particuliers… (2/2) Gènes liés au cerveau


Télécharger ppt "Exploration des données SAGE humaines AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS)"

Présentations similaires


Annonces Google