Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Techniques du Data Mining
Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab
2
Exemple de technique du DM 2
3
Plan 3. Exemple 1. Du k-means au k-modes
2. Présentation de la méthode k-modes 3. Exemple
4
Du k-means au k-modes
5
K-means Faiblesse N’est pas applicable en présence d’attributs dont les valeurs ne sont pas numériques moyenne=?
6
Comment faire pour les données catégoriques?
Question Comment faire pour les données catégoriques?
7
Utiliser la méthode k-modes!
Réponse Utiliser la méthode k-modes!
8
Comparaison entre K-means & k-modes
9
Présentation de la méthode k-modes
10
Caractéristiques du K-modes
Résoudre le problème des données catégoriques de la méthode k-means, Faire le clustering des bases de données catégoriques,
11
K-modes: algorithme L’algorithme k-modes est en 4 étapes :
Choisir k modes parmi les objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci tel que d(O,Modei) est minimal Mettre à jour le mode de chaque cluster Aller à l’étape (2) jusqu’à stabilisation des objets
12
K-modes: distance L’algorithme k-modes utilise le matching simple comme mesure de dissimilarité. On a deux objets X1 et Y1 ayant des valeurs catégoriques: X1=(x11, x12,…,x1m) et Y1=(y11, y12,…,y1m)
13
K-modes: distance On a m attributs Le matching simple est défini:
14
K-modes: distance On a deux cas extrêmes:
d=0 : si tous les attributs sont similaires d=m : si tous les attributs sont dissimilaires.
15
K-modes: la mise à jour des modes
Méthode à base des fréquences: La valeur qui se répète le plus souvent est gardée En cas d’égalité de nombre d’occurrence: choix aléatoire.
16
Caractéristiques du K-modes
Avantages: Traite les ensembles d'apprentissage catégoriques, Simple, rapide, Converge après quelques itérations. Inconvénients: Fait face au problème de la non-unicité du mode du cluster, Le choix des k modes initiaux est aléatoire.
17
Exemple
18
Exemple On va traiter le problème de la prédiction de la météo:
Chaque objet est relatif au temps d’une journée. Les caractéristiques principales du temps sont: La température, le vent et la pluie. Les attributs: température, vent et pluie.
19
Exemple Objets Température Vent Pluie O1 Elevée Fort Non O2 Basse
Faible O3 Oui O4 Etablir le clustering de ces objets sachant que k=2.
20
Exemple On va choisir 2 modes aléatoirement.
Soient: Mode1 pour C1 = O1 et Mode2 pour C2 =O2. 2) On calcule les distances en utilisant le matching simple: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1
21
Exemple d(O1, mode2)=1+1+0=2 d(O2, mode2)=0+0+0=0 d(O3, mode2)=0+1+1=2
On remarque que les distances entre mode1 et O3 et mode2 et O3 sont égaux. De même pour mode1 et O4 et mode2 et O4. Donc on affecte O3 et O4 aux clusters 1 et 2 au hasard.
22
Exemple Cluster1 O2 O3 O1 O4 Cluster2
23
Exemple 3) On met à jour les modes:
Pour cluster1: {Elevée, Fort, Non} et {Elevée, Faible, Non} donc le nouveau mode1 ={Elevée, Fort, Non} Pour cluster2: {Basse, Faible, Non} et {Basse, Fort, Oui} donc le nouveau mode1 ={Basse, Faible, Oui}
24
Exemple Stabilité 4) On recalcule la distance entre modes et objets:
d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1 d(O1, mode2)=1+1+1=3 d(O2, mode2)=0+0+1=1 d(O3, mode2)=0+1+0=1 d(O4, mode2)=1+0+1=2 Stabilité
25
Exemple Cluster1 O2 O3 O1 O4 Cluster2
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.