La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Techniques du Data Mining

Présentations similaires


Présentation au sujet: "Techniques du Data Mining"— Transcription de la présentation:

1 Techniques du Data Mining
Année universitaire 2017/2018 Techniques du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab

2 Exemple de technique du DM 2

3 Plan 3. Exemple 1. Du k-means au k-modes
2. Présentation de la méthode k-modes 3. Exemple

4 Du k-means au k-modes

5 K-means Faiblesse N’est pas applicable en présence d’attributs dont les valeurs ne sont pas numériques moyenne=?

6 Comment faire pour les données catégoriques?
Question Comment faire pour les données catégoriques?

7 Utiliser la méthode k-modes!
Réponse Utiliser la méthode k-modes!

8 Comparaison entre K-means & k-modes

9 Présentation de la méthode k-modes

10 Caractéristiques du K-modes
Résoudre le problème des données catégoriques de la méthode k-means, Faire le clustering des bases de données catégoriques,

11 K-modes: algorithme L’algorithme k-modes est en 4 étapes :
Choisir k modes parmi les objets formant ainsi k clusters (Ré)affecter chaque objet O au cluster Ci tel que d(O,Modei) est minimal Mettre à jour le mode de chaque cluster Aller à l’étape (2) jusqu’à stabilisation des objets

12 K-modes: distance L’algorithme k-modes utilise le matching simple comme mesure de dissimilarité. On a deux objets X1 et Y1 ayant des valeurs catégoriques: X1=(x11, x12,…,x1m) et Y1=(y11, y12,…,y1m)

13 K-modes: distance On a m attributs Le matching simple est défini:

14 K-modes: distance On a deux cas extrêmes:
d=0 : si tous les attributs sont similaires d=m : si tous les attributs sont dissimilaires.

15 K-modes: la mise à jour des modes
Méthode à base des fréquences: La valeur qui se répète le plus souvent est gardée En cas d’égalité de nombre d’occurrence: choix aléatoire.

16 Caractéristiques du K-modes
Avantages: Traite les ensembles d'apprentissage catégoriques, Simple, rapide, Converge après quelques itérations. Inconvénients: Fait face au problème de la non-unicité du mode du cluster, Le choix des k modes initiaux est aléatoire.

17 Exemple

18 Exemple On va traiter le problème de la prédiction de la météo:
Chaque objet est relatif au temps d’une journée. Les caractéristiques principales du temps sont: La température, le vent et la pluie. Les attributs: température, vent et pluie.

19 Exemple Objets Température Vent Pluie O1 Elevée Fort Non O2 Basse
Faible O3 Oui O4 Etablir le clustering de ces objets sachant que k=2.

20 Exemple On va choisir 2 modes aléatoirement.
Soient: Mode1 pour C1 = O1 et Mode2 pour C2 =O2. 2) On calcule les distances en utilisant le matching simple: d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1

21 Exemple d(O1, mode2)=1+1+0=2 d(O2, mode2)=0+0+0=0 d(O3, mode2)=0+1+1=2
On remarque que les distances entre mode1 et O3 et mode2 et O3 sont égaux. De même pour mode1 et O4 et mode2 et O4. Donc on affecte O3 et O4 aux clusters 1 et 2 au hasard.

22 Exemple Cluster1 O2 O3 O1 O4 Cluster2

23 Exemple 3) On met à jour les modes:
Pour cluster1: {Elevée, Fort, Non} et {Elevée, Faible, Non} donc le nouveau mode1 ={Elevée, Fort, Non} Pour cluster2: {Basse, Faible, Non} et {Basse, Fort, Oui} donc le nouveau mode1 ={Basse, Faible, Oui}

24 Exemple Stabilité 4) On recalcule la distance entre modes et objets:
d(O1, mode1)=0+0+0=0 d(O2, mode1)=1+1+0=2 d(O3, mode1)=1+0+1=2 d(O4, mode1)=0+1+0=1 d(O1, mode2)=1+1+1=3 d(O2, mode2)=0+0+1=1 d(O3, mode2)=0+1+0=1 d(O4, mode2)=1+0+1=2 Stabilité

25 Exemple Cluster1 O2 O3 O1 O4 Cluster2


Télécharger ppt "Techniques du Data Mining"

Présentations similaires


Annonces Google