Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining Sergiu Chelcea, Brigitte Trousse Projet AxIS INRIA Sophia Antipolis {Sergiu.Chelcea, Brigitte.Trousse}@inria.fr
Objectifs Analyser l’impact de l’organisation scientifique de l’INRIA sur le comportement des internautes Classification des rubriques visitées (équipes de recherche) utilisant la CAH classique et la 2-3 CAH introduite par P. Bertrand en 2002
Propriétés 2-3 CAH Généralise la CAH Construit une structure plus riche que la CAH CAH 2-3 CAH Algorithme avec la même complexité que la CAH : O(n2 log n)
Application de la 2-3 CAH au Web Mining Pour classer les rubriques visitées : navigations = vecteurs binaires sur le rubriques visitées Calcul de la matrice de dissimilarités sur les rubriques : Indice de Jaccard : N1 N2 N3 ... R1 R2 R3 . 1
Première analyse 1/2 L’impact de la structure globale des site Web sur les navigations : application de la 2-3 CAH sur les rubriques visitées dans les navigations sur les deux serveurs La distribution des équipes de recherche (ER) dans la classification obtenue
Première analyse 2/2 (singletons pas représentes)
Deuxième analyse 1/2 L’impact de l’organisation scientifique sur les navigations : Classification des ER basée sur les rubriques visitées du serveur INRIA principal L’évolution de la distribution des ER de la theme 3 (COG) : Comparaison entre deux périodes : 1 – 15 Janvier 2003 27 Mai – 10 Juin 2004
Deuxième analyse 2/2 - Thème 3 - Per1 - ancienne Thème 3 - Per2
Troisième analyse Comparaison entre la CAH classique et la 2-3 CAH (Thème 3): CAH : 15 classes crées 2-3 CAH : 22 classes crées
Conclusions L’organisation scientifique des équipes de recherche de l`INRIA a un grand impact sur les navigations La structure globale du site Web influence aussi les navigations