8 Avril, 2005 Zhu, Xiao Agglomération (Clustering) hiérarchique – Application dans l’analyse de l’expression génique
Information via Microarray Comment interpréter un profil d’expression? Question: Quels sont les gènes de fonctions similaires?
Le Clustering Hiérarchique 1.Établir N clusters pour les N éléments 2.(a) Retrouver deux éléments de similarité maximale (moindre distance) et (b) fusionner ces deux élément pour former un seul cluster 3.Calculer la distance entre le nouveau cluster et le reste Simple Linkage : Complete Linkage : Average Linkage : 4.Répéter 2-3 jusqu’à ce que tous les éléments sont joints sous un seul cluster Regroupement hiérarchique des éléments similaires
Le Clustering Hiérarchique 1.Établir N clusters pour les N éléments Exemple de villes Italiennes BAFIMINARMTO BA FI MI NA RM TO
Le Clustering Hiérarchique 2.(a) Retrouver deux éléments de similarité maximale (b) Fusionner Exemple de villes Italiennes BAFIMINARMTO BA FI MI NA RM TO
Le Clustering Hiérarchique 3.Calculer la distance entre le nouveau cluster, ici MI/TO, et le reste Exemple de villes Italiennes BAFIMI/TONARM BA FI MI/TO NA RM D(MI/TO,NA) = min ((MI,NA), (TO,NA)) = min (754, 869) D(MI/TO,RM) = min ((MI,RM), (TO,RM)) = min (564, 669)
Le Clustering Hiérarchique Après 4 itérations Exemple de villes Italiennes BA/FI/NA/RMMI/TO BA/FI/NA/RM0295 MI/TO-0 BA NA RM FI MI TO
Retour sur le microarray Eisen et al. (1998) PNAS 95: Expression de 8600 gènes humains pour l’étude de croissance cellulaire Question: Quelles sont les gènes de fonctions similaires (Eisen et al.) –Construire une matrice de similarité (distance) –Chercher et fusionner une paire de gènes les plus similaires –Mettre à jour la table de PD (average linkage) –Répéter n-1 fois 0 24hrs
Microarray Eisen et al. (1998) PNAS 95: Construire une matrice de similarité (matrice de distances) contenant tout les gènes –Score de similarité pour les N échatillons avec Z i = intensité (en log) du gène Z sous condition i 0 i
Microarray Eisen et al. (1998) PNAS 95: Dendrogramme regroupant tous les gènes sous forme d’arbre Les gènes clustérisé plus tôt dans l’algorithme sont placés plus proches Regroupement des gènes ayant un profil d’expression similaire sous différentes conditions Corrélation entre la régulation et la fonction Yeast Analysis Control
Performance Eisen et al. (1998) PNAS 95: Mémoire –PD: O(n 2 /2) = O(n 2 ) Calculs –Recherche de minimum: O(n 2 +∑(n-i)) = O(n 2 ) –Calcul de distances: O(n 2 +∑(n-i)) = O(n 2 ) –Total: O(n 2 )
Lecture Supplémentaire Comprehensive Identification of Cell Cycle–regulated Genes of the Yeast Saccharomyces cerevisiae by Microarray Hybridization Paul T. Spellman, Gavin Sherlock, Michael Q. Zhang, Vishwanath R. Iyer, Kirk Anders, Michael B. Eisen, Patrick O. Brown, David Botstein, and Bruce Futcher Mol Biol Cell December; 9(12): 3273–3297. The Transcriptional Program in the Response of Human Fibroblasts to Serum Vishwanath R. Iyer, Michael B. Eisen, Douglas T. Ross, Greg Schuler, Troy Moore, Jeffrey C. F. Lee, Jeffrey M. Trent, Louis M. Staudt, James Hudson Jr., Mark S. Boguski, Deval Lashkari, Dari Shalon, David Botstein, Patrick O. Brown * Science, Vol 283, Issue 5398, 83-87, 1 January 1999