La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1)

Présentations similaires


Présentation au sujet: "Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1)"— Transcription de la présentation:

1 Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1) Faculté des Sciences de Sfax - Dept dInformatique et des Com. (2) Research Group for intelligent machines (REGIM - ENIS) FDC - Lille 17 Janvier 2006

2 2 Contexte Dans le domaine médical -> RBC Algorithme standards Kppv (k plus proche voisins). Les bases de + en + grande (Entrepôt de données) Temps dexécution de lalgorithme Kppv de + en + long Objectif : diminuer le temps nécessaire pour la classification dun nouveau cas

3 3 Plan de la présentation Data Mining (techniques) Le raisonnement à base de cas Approche proposée Évaluation des performances Conclusion et perspectives

4 4 Généralité sur le Data Mining Techniques Data Mining Raisonnement à base de cas Les arbres de décision Les réseaux de neurones Les algorithmes génétiques Autres …

5 5 Raisonnement à base de cas -Technique qui provient des travaux en sciences cognitive (1980) -La similarité entre les descriptions de problèmes est une indication de lutilité des solutions antécédentes. Principe : -Utilisation des expériences passées pour résoudre de nouveaux problèmes. -Lensemble des expériences forme une base de cas.

6 6 Raisonnement à base de cas K plus proches voisins (Kppv) -Algorithme de recherche des cas les plus proches similaires à un nouveau cas -Convertir les enregistrements en des points et calculer les distances entre ces points. A a un plus proche voisin B, B a de nombreux voisins proches autres que A

7 7 Raisonnement à base de cas Kppv -La classification dun nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base Classification très coûteuse en temps Plus la taille de la base est importante plus le temps dexécution (par Kppv) est long

8 8 Les améliorations du Kppv -Représenter tous les cas dune classe par un cas unique. Exemple: les moyennes des données associées à une classe La méthode Category_Based Search (Iwayama,1995)

9 9 -Pas de comparaison de tous les cas avec le nouveau cas Gain de temps

10 10 -Utilisation dun algorithme de classification non supervisé Distinction automatique dun représentant pour chaque classe -Comparaison du nouveau cas seulement avec les représentant générés -pas de comparaison du nouveau cas avec tous les cas Gain de temps La méthode: Cluster Based search (Salton,1983)

11 11 Approche proposée Réduction des bases de données Recherche du plus proches voisins Affectation des poids: Pondérer la similarité globale entre deux cas -Des valeurs affectées par un expert aux attributs de la base de données : Degrés dimportance aux attributs les plus «importants »

12 12 Approche proposée Processus de classification proposé

13 13 Approche proposée Réduction des bases de données -Construction de la requête : Select all From heart where(type de douleur=4) and (electro=0) Valeurs des attributs de fort poids du nouveau cas

14 14 Attr agesexe type de douleurtensionsérumsucre électr ofréquenceanginedépressionpente nombre navireRésultat Les cas 60040,10,21020,1320,10,24,20,20, ,10,24000,1260,10,28,20,10, ,10,29020,1160,10,32,20,20, ,10,26000,1610,10 0, ,20,27120,150,1 6,200, ,10,32000,1250,1 8,200, ,10,28020,1180,1 0,20,10,3 Poids Approche proposée Réduction des bases de données Base de données Anomalie cardiaque

15 15 Approche proposée Réduction des bases de données -Affectation des mêmes poids pour les attributs du nouveau cas Analyse des données et distinction des attributs de poids fort: Nom attributpoids Type de douleur10 Résultat délectro-cardiogra.10 Poids Attragesexe type de douleurtensionsérumsucreélectrofréquencanginedépressionpente nombre navireRésultat cas 44040,10, ,1120,10 6,1 0,1 ?

16 16 Approche proposée Réduction des bases de données -Exécution de la requête -Génération dune base de données réduite: 40 enregistrements au lieu de 270 Réduction de 85,19% du nombre denregistrements

17 17 Approche proposée Recherche du plus proche voisins Même résultat: -Algorithme standard Kppv (toute la base) et après réduction Résultat 0,6 Poids Attragesexe type de douleurtensionsérumsucreélectrofréquencanginedépressionpente nombre navire cas 44040,10, ,1120,10 6,1 0,1

18 18 Évaluation des performances Influence du contenue de la base de données -La base de données Breast -Le nouveau cas à classer poids attr codeépaisseurTailleformeAdhésionTaille SN NoyauxChromatinNucleoli MitosesClass Le cas ? 10 Épaisseur en mm Taille en mm poids attr code Les cas formeAdhesionTaille SN NoyauxChromatinNucleoli MitosesClass Bénin Malin

19 19 Évaluation des performances Influence du contenue de la base de données Select all From Breast where (forme=2)

20 20 Évaluation des performances Influence des poids des attributs Le résultat dexécution de la requête est une table vide Poids 10 Attragesexe type de douleurtensionsérumsucre électr ofréquenceanginedépressionpente nombre navireRésultat Les cas 60040,10,21020,1320,10,24,20,20, ,10,24000,1260,10,28,20,10, ,10,29020,1160,10,32,20,20, ,10,26000,1610,10 0, ,20,27120,150,1 6,200, ,10,32000,1250,1 8,200, ,10,28020,1180,1 0,20,10,3 Poids10 Poids10 Poids10

21 21 Évaluation des performances Influence de la taille de base de cas Configurations Bases de Données CancerCœurVéhiculeHépatite Nbr Tot Attr Nbr Attr P Fort2146 Nbr Enreg Temps de réduction12s10s19s27s

22 22 Évaluation des performances Étude comparative entre les deux approches: Approche standard: Approche proposée: Temps de class. par K ppv classique571s220s691s126s Configurations Bases de Données CancerCœurVéhiculeHépatite Nbr Tot Attr Nbr Attr P Fort2246 Nbr Enreg Nbr Enreg61 Temps de classement par K ppv52s Nbr Enreg6140 Temps de classement par K ppv52s33s Nbr Enreg Temps de classement par K ppv52s33s92s Nbr Enreg Temps de classement par K ppv52s33s92s54s Configurations Bases de Données CancerCœurVéhiculeHépatite Nbr Tot Attr Nbr Attr P Fort2246

23 23 Évaluation des performances Comparaison du temps: Temps Bases de données Approche standards Cancer571 Cœur220 Véhicule691 Hépatite126 Temps approche proposée Temps de réduction Temps dexécution Pourcentage de réduction 88% 80% 84% 43%

24 24 Conclusion et perspectives Approche basée sur la réduction des bases de données selon les poids accordés aux attributs. Performances satisfaisantes en terme de qualité et de temps dexécution. Perspectives : Comparaison avec le Category_Based Search ET le Cluster Based search Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs). Nouvelle méthode de réduction des bases de données de valeurs de poids dattributs égaux.

25 25 Merci de votre attention.


Télécharger ppt "Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1)"

Présentations similaires


Annonces Google