La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Exploration des données SAGE humaines

Présentations similaires


Présentation au sujet: "Exploration des données SAGE humaines"— Transcription de la présentation:

1 Exploration des données SAGE humaines
AD Dico Challenge 3/11/2003 Sylvain Blachon (Doctorant EDIIS CGMC/LIRIS) Sous la co tutelle de : J.F. Boulicaut (LIRIS) O. Gandrillon (CGMC) Thèse financée par la Ligue contre le cancer.

2 Question biologique Etude des cancers
Objectif : comprendre pourquoi certains groupes de gènes sont exprimés par certaines tumeurs Etude de l’expression des gènes par la technique SAGE

3 La technique SAGE Méthode pour explorer le transcriptome
Avantages : données « quantitatives » =>comparaison entre expériences possibles (à l’inverse des puces) Ensemble des ARNm ADN ARNm Protéines 2 1 Ensemble des tags = Librairie SAGE Situation biologique

4 Données SAGE humaines Données issues du Cancer Genome Anatomy Project : aujourd’hui 260 librairies disponibles gratuitement sur Sage Genie (majoritairement Hs) Données de décembre 2002 : 180 librairies humaines. Données hétérogènes (cellules de tissus ou en culture, beaucoup de tissus différents, cellules tumorales ou normales…) Beaucoup d’infos manquantes…

5 Exploration de ces données
A la main : travail de titan Méthode différentielle : limitée Méthode globale : => Matrice d’expression tag1 tag2 tagn Lib1 Lib2 Libm tag1 tag2 tagn Lib1 tag1 tag2 tagn Lib1 Lib2

6 member of the RAS gene superfamily
Notre objectif Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

7 Exploration des données : techniques inductives
Grandes quantités de données => besoin d’outils permettant d’extraire des connaissances de ces données Schéma classique : Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

8 Prétraitement des données (1/3)
Données SAGE humaines : sélection des librairies de plus de tags séquencés (Becquet et al) 90 librairies

9 Prétraitement des données (2/3)
Sélection des tags: Non ambigus (1 seul identifiant Unigene) Dont la quantité est d’au moins 2 dans une librairie 2 matrices d’expression humaines: 74x822 : données de Juin 2001, sélection du transcriptome minimal (Velculescu) 90x27679 : données décembre 2002

10 Prétraitement des données (3/3)
Les biologistes décident de coder des propriétés d’expression => matrices booléennes Nous nous intéressons aux gènes surexprimés => discrétisation de la matrice d’expression on considère la valeur d ’expression de chaque gène dans toutes les situations biologiques on affecte 1 chaque fois que le gène est surexprimé A ce jour, 3 techniques pour coder la surexpression d ’un gène La discrétisation est une étape OUVERTE.

11 Exploration des données : techniques inductives
Schéma classique : 2 types de motifs extraits : Règles d’association logiques Concepts Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

12 Extraction de règles d’association (1/6)
Règles d’association : X => Y Si Gene A et Gene B surexprimés => Gene C et Gene D surexprimés aussi Support(AB=>CD) = Supp(ABCD) Confiance (AB=>CD) = Supp(ABCD)/Supp(AB) Règles logiques : confiance =1 Cas concret : Si support minimal = 50% 7 ensembles fréquents : A, B, D, AB, AD, BD, ADB 3 règles logiques et fréquentes : B=>A D=>A BD=>A A B C D 1 2 3

13 Extraction de règles d’association (2/6)
Extraction sur la matrice 74x822 (Becquet et al, 2002) Utilisation de l’algorithme Min-Ex : basé sur l’extraction des ensembles libres à partir libres, on extrait des règles dont le membre gauche est minimal

14 Extraction de règles d’association (3/6)
Deux grands traits sont présents : gènes ribosomaux gènes mitochondriaux A l’intérieur d’un jeu de règles homogène Ré-identification d’un gène mal identifié Proposition de la fonction d’une EST Possibilité d’associer des cellules

15 member of the RAS gene superfamily
Extraction de règles d’association (4/6) Extraction de règles biologiquement stimulantes : G protein-coupled receptor and KH type splicing regulatory protein KSRP => KIAA0340 gene (true in 8 different cell types). G-protein-coupled receptor related to chemokine receptors splicing factor member of the RAS gene superfamily

16 Extraction de règles d’association (5/6)
Extraction sur la matrice 90x27679 : l’algorithme atteint ses limites Matrix Discrétisation Densité Nombre d’ensembles libres Nombre d’ensembles fermés 74x822 ENE 82,8 % Intractable Milieu 12,2 % 80 068 Max-25% max 3,8 % 35934 1386 5% max 4,8 % 72640 1808 90x27679 34,5 % 2,2 % 4,7 %

17 Extraction de règles d’association (6/6)
Solution envisagée (GREYC) : Transposition de la matrice Extraction sur les situations biologiques Passage par la connexion de Galois pour extraire des concepts Le contexte permet l’extraction des concepts à l’aide de nos extracteurs (Ac-miner ; Mv-miner)

18 La notion de concept (1/4)
Un concept est un groupe reliant deux ensembles : un ensemble de gènes un ensemble de librairies Exemple : 4 gènes surexprimés dans 4 librairies.

19 La notion de concept (2/4)
Connexion de Galois: Formalisme mathématique qui rend compte des relations décrites par la matrice binaire Soit L = ensemble des librairies , T = ensemble des tags 2 fonctions : f : L → T g : T → L

20 La notion de concept (3/4)
Ensemble fermé : Soit l un ensemble de librairies et t un ensemble de tags. l est fermé ssi gof(l) = g(f(l)) = l. t est fermé ssi fog(t) = f(g(t)) = t. Concept = paire (l,t) tel que : f(l)=t et g(t) = l Où l et t sont des fermés t.q. gof (l) = l.

21 La notion de concept (4/4)
B C D E L1 1 L2 L3 L4 Concrètement : f et g : f({L1}) = {B,C,E} f({L1,L3,L4}) = {B,C} g({A}) = {L4} g({B,C}) = {L1,L3,L4} Fermés : g(f({L1})) = g({B,C,E}) = {L1} g(f({L1,L3}) = g({B,C}) = {L1,L3,L4} Concepts de cette matrice : ({L1}, {B,C,E}) ; ({L3}, {B,C,D}) ; ({L4}, {A,B,C}) ; ({L2,L3}, {D}) ; ({L1,L3,L4}, {B,C}) ;

22 Extraction de concepts (1/2)
A partir des ensembles libres on peut calculer l’ensemble des fermés. Notre stratégie : pour calculer l’ensemble des concepts, on calcule tous les libres sur la matrice transposée on calcule alors leur fermeture on en déduit les concepts

23 Extraction de concepts (2/2)
Matrix Discrétisation Densité Nombre d’ensembles libres Nombre d’ensembles fermés 90x27679 Milieu 4,8 % Intractable t 90x27679 Max-25% max 2,2 % 21603 9150 5% max 4,7 % 54762 31766 Conclusion : On règle un verrou technologique … … et on obtient une nouvelle information biologiquement intéressante : le lien entre des groupes de gènes et des situations biologiques qui les surexpriment (Rioult et al, KDID’03)

24 Exploration des données : techniques inductives
Schéma classique : 2 post traitements : Sélection des concepts d’intérêt Outil de visualisation Données SAGE Prétraitement Extr. motifs Post traitement Expert Connaissances Discrétisation - Sélection - Comparaison

25 PostTraitement (1/3) Nécessité d’interroger une collection de concepts
1er outil : sélection de concepts d’intérêt 4 critères : Homogénéité des librairies (ex : carcinoma) Présence d’un ensemble de gènes d’intérêt Nombre de librairies dans le concept Nombre de tags dans le concept Possibilité de les combiner (conjonction)

26 Nombre minimal de librairies
PostTraitement (2/3) L’outil de sélection permet de diminuer drastiquement le nombre de concepts à analyser Mot clé Nombre minimal de librairies Nombre minimal de tags Nombre de concepts - 1 681 2 330 3 64 4 Brain 160 106 20

27 PostTraitement (3/3) 2ème outil : outil de visualisation des concepts (Ruggero Pensa et Céline Robardet) Classification hiérarchique des concepts Piste extrêmement prometteuse car classification d’interactions entre les objets que l’on étudie

28 Interprétation biologique (1/3)
Faire du sens : Gene Ontology (GO) vocabulaire décrivant les gènes termes GO classés dans 3 catégories : Processus biologique Localisation subcellulaire Fonction moléculaire Ontologie structurée : graphe diacyclique

29 Interprétation biologique (2/3)
outil web Fatigo En entrée : une liste de gènes En sortie : la proportion de gènes pour chaque terme de GO de notre liste qui le partage => vision globale des processus biologiques à partir d’un ensemble de gènes d’intérêt

30 Interprétation biologique (3/3)

31 Perspectives (1/2) Prétraitement Utilisation des concepts
Evaluation de la discrétisation sur les motifs extraits Utilisation de nouvelles discrétisations sur données SAGE Utilisation d’Identitag pour identifier les tags Utilisation des concepts Développer des méthodes de post-traitement Affiner celles existantes (disjonction, …)

32 Perspectives (2/2) Et les règles ?
A partir de concepts d’intérêt, extraire les règles sur une matrice réduite Extraction de règles δ-fortes Utilisation des mesures d’intérêt Coupler notre méthode d’extraction avec d’autres méthodes (clustering, analyse statistiques, etc.) Test d’un scénario complet d’extraction de concepts intéressants Utiliser ces outils sur des données SAGE de poulet

33 Remerciements CGMC LIRIS Prisma GREYC BECQUET Céline BRESSON Corinne
DERRINGTON Edmund DAMIOLA Francesca DAZY Sébastien FAURE Claudine GANDRILLON Olivier GIRAUD Sandrine KEIME Céline ROBARDET Céline LIRIS BESSON Jérémy BOULICAUT Jean-François JEUDY Baptiste PENSA Ruggero Prisma ROBARDET Céline GREYC CREMILLIEUX Bruno RIOULT François

34 Merci de votre attention 

35 Prétraitement des données (4/4)
Données binaires Prétraitement des données (4/4) 2 2 max moins x% Max Max Max 25% 25% 25% Max Max Max Librairie 1 1 1 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 Milieu Données Continues Librairie 1 1 10 10 20 20 30 30 40 40 50 50 60 60 70 70 Niveau d’expression du gène 2 2 2 5% les plus exprim 5% les plus exprim 5% les plus exprim x% des valeurs les plus hautes é é é s s s Librairie 1 1 1 1 10 10 10 10 20 20 20 20 30 30 30 30 40 40 40 40 50 50 50 50 60 60 60 60 70 70 70 70 Niveau d’expression du gène

36 Gènes particuliers… (1/2)
Gènes Growth factor

37 Gènes particuliers… (2/2)
Gènes liés au cerveau


Télécharger ppt "Exploration des données SAGE humaines"

Présentations similaires


Annonces Google