La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)

Présentations similaires


Présentation au sujet: "Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)"— Transcription de la présentation:

1 Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)
Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2) (1)Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2)Research Group for intelligent machines (REGIM - ENIS) FDC - Lille 17 Janvier 2006

2 Contexte Dans le domaine médical -> RBC Objectif :
Algorithme standards Kppv (k plus proche voisins) . Les bases de + en + grande (Entrepôt de données) Temps d’exécution de l’algorithme Kppv de + en + long Objectif : diminuer le temps nécessaire pour la classification d’un nouveau cas

3 Plan de la présentation
Data Mining (techniques) Le raisonnement à base de cas Approche proposée Évaluation des performances Conclusion et perspectives

4 Généralité sur le Data Mining
Techniques Raisonnement à base de cas Les arbres de décision Data Mining Les réseaux de neurones Les algorithmes génétiques Autres …

5 Raisonnement à base de cas
-Technique qui provient des travaux en sciences cognitive (1980) -La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes. Principe : Utilisation des expériences passées pour résoudre de nouveaux problèmes. -L’ensemble des expériences forme une base de cas.

6 Raisonnement à base de cas
K plus proches voisins (Kppv) -Algorithme de recherche des cas les plus proches similaires à un nouveau cas -Convertir les enregistrements en des points et calculer les distances entre ces points. A a un plus proche voisin B, B a de nombreux voisins proches autres que A

7 Raisonnement à base de cas
Kppv -La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base Classification très coûteuse en temps Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

8 La méthode ‘’Category_Based Search’’ (Iwayama,1995)
Les améliorations du Kppv La méthode ‘’Category_Based Search’’ (Iwayama,1995) -Représenter tous les cas d’une classe par un cas unique. Exemple: les moyennes des données associées à une classe

9 -Pas de comparaison de tous les cas avec le nouveau cas
Gain de temps

10 La méthode: ‘’Cluster Based search’’ (Salton,1983)
-Utilisation d’un algorithme de classification non supervisé Distinction automatique d’un représentant pour chaque classe -Comparaison du nouveau cas seulement avec les représentant générés -pas de comparaison du nouveau cas avec tous les cas Gain de temps

11 Approche proposée Réduction des bases de données
Recherche du plus proches voisins Affectation des poids: -Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants » Pondérer la similarité globale entre deux cas

12 Approche proposée Processus de classification proposé

13 Valeurs des attributs de fort poids du nouveau cas
Approche proposée Réduction des bases de données -Construction de la requête : Select all From heart where(type de douleur=4) and (electro=0) Valeurs des attributs de fort poids du nouveau cas

14 Approche proposée Réduction des bases de données
Poids 8 10 9 7 1 4 Attr age sexe type de douleur tension sérum sucre électro fréquence angine dépression pente nombre navire Résultat Les cas 60 4 0,1 0,21 2 0,132 0,2 4,2 0,7 54 1 0,24 0,126 8,2 0,29 0,116 0,3 2,2 52 0,26 0,161 68 3 0,27 0,15 6,2 42 0,32 0,125 0,6 47 0,28 0,118 Base de données ‘’Anomalie cardiaque’’

15 Approche proposée Réduction des bases de données ?
-Affectation des mêmes poids pour les attributs du nouveau cas Poids 8 10 9 7 1 4 Attr age sexe type de douleur tension sérum sucre électro fréquenc angine dépression pente nombre navire Résultat  cas 44 4 0,1 0,32 0,112 6,1 ? Analyse des données et distinction des attributs de poids fort: Nom attribut poids Type de douleur 10 Résultat d’électro-cardiogra.

16 Approche proposée Réduction des bases de données
-Exécution de la requête -Génération d’une base de données réduite: 40 enregistrements au lieu de 270 Réduction de 85,19% du nombre d’enregistrements

17 Approche proposée Recherche du plus proche voisins
-Algorithme standard Kppv (toute la base) et après réduction Même résultat: Poids 8 10 9 7 1 4 Attr age sexe type de douleur tension sérum sucre électro fréquenc angine dépression pente nombre navire  cas 44 0,1 0,32 0,112 6,1 Résultat 0,6

18 Évaluation des performances
Influence du contenue de la base de données -La base de données ‘Breast’ poids attr code Les cas 242970 183936  10 Épaisseur en mm Taille en mm 1 5 7 3  9  8  4  0  1 forme Adhesion Taille S N Noyaux Chromatin Nucleoli Mitoses Class 2 1 Bénin 7 5 8 3 4 Malin -Le nouveau cas à classer poids  10  9  8  4  0  1 attr code épaisseur Taille forme Adhésion Taille S N Noyaux Chromatin Nucleoli Mitoses Class Le cas 4 3 2 1 ?

19 Évaluation des performances
Influence du contenue de la base de données Select all From Breast where (‘forme’=2)

20 Évaluation des performances
Influence des poids des attributs Poids 10 Poids 10 Poids 10 Poids 10 Attr age sexe type de douleur tension sérum sucre électro fréquence angine dépression pente nombre navire Résultat Les cas 60 4 0,1 0,21 2 0,132 0,2 4,2 0,7 54 1 0,24 0,126 8,2 0,29 0,116 0,3 2,2 52 0,26 0,161 68 3 0,27 0,15 6,2 42 0,32 0,125 0,6 47 0,28 0,118 Le résultat d’exécution de la requête est une table vide

21 Évaluation des performances
Influence de la taille de base de cas Configurations Bases de Données Cancer Cœur Véhicule Hépatite Nbr Tot Attr 10 12 17 19 Nbr Attr P Fort 2 1 4 6 Nbr Enreg 699 270 846 155 Temps de réduction 12s 10s 19s 27s

22 Étude comparative entre les deux approches:
Évaluation des performances Étude comparative entre les deux approches: Approche standard: Configurations Bases de Données Cancer Cœur Véhicule Hépatite Nbr Tot Attr 10 12 17 19 Nbr Attr P Fort 2 4 6 Nbr Enreg 699 270 846 155 Temps de class. par K ppv classique 571s 220s 691s 126s Approche proposée: Configurations Bases de Données Cancer Cœur Véhicule Hépatite Nbr Tot Attr 10 12 17 19 Nbr Attr P Fort 2 4 6 Nbr Enreg 61 40 112 65 Temps de classement par K ppv 52s 33s 92s 54s Nbr Enreg 61 40 Temps de classement par K ppv 52s 33s Nbr Enreg 61 Temps de classement par K ppv 52s Nbr Enreg 61 40 112 Temps de classement par K ppv 52s 33s 92s

23 Temps approche proposée Pourcentage de réduction
Évaluation des performances Comparaison du temps: Temps Bases de données Approche standards Cancer 571 Cœur 220 Véhicule 691 Hépatite 126 Temps de réduction Temps d’exécution 12 52 10 33 19 92 27 54 Temps approche proposée 64 43 107 71 Pourcentage de réduction 88% 80% 84% 43%

24 Conclusion et perspectives
Approche basée sur la réduction des bases de données selon les poids accordés aux attributs.  Performances satisfaisantes en terme de qualité et de temps d’exécution. Perspectives : Comparaison avec le Category_Based Search ET le Cluster Based search Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs). Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

25 Merci de votre attention.


Télécharger ppt "Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)"

Présentations similaires


Annonces Google