Techniques du Data Mining Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab
Exemple de technique du DM 2
Plan 3. Exemple 1. Du k-means au k-modes 2. Présentation de la méthode k-modes 3. Exemple
Du k-means au k-modes
K-means Faiblesse N’est pas applicable en présence d’attributs dont les valeurs ne sont pas numériques moyenne=?
Comment faire pour les données catégoriques? Question Comment faire pour les données catégoriques?
Utiliser la méthode k-modes! Réponse Utiliser la méthode k-modes!
Comparaison entre K-means & k-modes
Présentation de la méthode k-modes
Caractéristiques du K-modes Résoudre le problème des données catégoriques de la méthode k-means, Faire le clustering des bases de données catégoriques,
K-modes: algorithme L’algorithme k-modes est en 4 étapes : Choisir k modes parmi les objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci tel que d(O,Modei) est minimal Mettre à jour le mode de chaque cluster Aller à l’étape (2) jusqu’à stabilisation des objets
K-modes: distance L’algorithme k-modes utilise le matching simple comme mesure de dissimilarité. On a deux objets X1 et Y1 ayant des valeurs catégoriques: X1=(x11, x12,…,x1m) et Y1=(y11, y12,…,y1m)
K-modes: distance On a m attributs Le matching simple est défini:
K-modes: distance On a deux cas extrêmes: d=0 : si tous les attributs sont similaires d=m : si tous les attributs sont dissimilaires.
K-modes: la mise à jour des modes Méthode à base des fréquences: La valeur qui se répète le plus souvent est gardée En cas d’égalité de nombre d’occurrence: choix aléatoire.
Caractéristiques du K-modes Avantages: Traite les ensembles d'apprentissage catégoriques, Simple, rapide, Converge après quelques itérations. Inconvénients: Fait face au problème de la non-unicité du mode du cluster, Le choix des k modes initiaux est aléatoire.
Exemple
Exemple On va traiter le problème de la prédiction de la météo: Chaque objet est relatif au temps d’une journée. Les caractéristiques principales du temps sont: La température, le vent et la pluie. Les attributs: température, vent et pluie.
Exemple Objets Température Vent Pluie O1 Elevée Fort Non O2 Basse Faible O3 Oui O4 Etablir le clustering de ces objets sachant que k=2.
Exemple On va choisir 2 modes aléatoirement. Soient: Mode1 pour C1 = O1 et Mode2 pour C2 =O2. 2) On calcule les distances en utilisant le matching simple: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1
Exemple d(O1, mode2)=1+1+0=2 d(O2, mode2)=0+0+0=0 d(O3, mode2)=0+1+1=2 On remarque que les distances entre mode1 et O3 et mode2 et O3 sont égaux. De même pour mode1 et O4 et mode2 et O4. Donc on affecte O3 et O4 aux clusters 1 et 2 au hasard.
Exemple Cluster1 O2 O3 O1 O4 Cluster2
Exemple 3) On met à jour les modes: Pour cluster1: {Elevée, Fort, Non} et {Elevée, Faible, Non} donc le nouveau mode1 ={Elevée, Fort, Non} Pour cluster2: {Basse, Faible, Non} et {Basse, Fort, Oui} donc le nouveau mode1 ={Basse, Faible, Oui}
Exemple Stabilité 4) On recalcule la distance entre modes et objets: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1 d(O1, mode2)=1+1+1=3 d(O2, mode2)=0+0+1=1 d(O3, mode2)=0+1+0=1 d(O4, mode2)=1+0+1=2 Stabilité
Exemple Cluster1 O2 O3 O1 O4 Cluster2