La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Ansaf SALLEB - Décembre 20041 La Classification

Présentations similaires


Présentation au sujet: "Ansaf SALLEB - Décembre 20041 La Classification"— Transcription de la présentation:

1 Ansaf SALLEB - Décembre La Classification

2 Ansaf SALLEB - Décembre Fouille de données (Data mining) « Extraction de connaissances implicites non connues à lavance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996

3 Ansaf SALLEB - Décembre Fouille de données: pourquoi ? Données II y en a beaucoup trop !

4 Ansaf SALLEB - Décembre Fouille de données: approches STAT BD RN VISU ASA AD Fouille de Données

5 Ansaf SALLEB - Décembre Fouille de données : types de données Tables (BD relationnelles) Texte Multimédia Spatiales Temporelles (time series) Web …

6 Ansaf SALLEB - Décembre Fouille de données : tâches Description Associations Classification Détection danomalies …

7 Ansaf SALLEB - Décembre La classification : un exemple Problème : Un client demande à son banquier un crédit Le banquier souhaite savoir à lavance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client ! Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.

8 Ansaf SALLEB - Décembre Classer Construction dun modèle à partir dexemples (historique des clients) dont les classes sont connues à lavance (solvable, non solvable) Prédire Utiliser le modèle pour classer le client La classification : un exemple

9 Ansaf SALLEB - Décembre La classification Supervisée : on connaît les classes Grp 1 Grp 2 Grp 3 Cl 1 Cl 2 Cl 3 Cl 2 Cl 1 Cl 3 Non supervisée : on ne connaît pas les classes

10 Ansaf SALLEB - Décembre La classification Supervisée : on connaît les classes Bayésienne Réseaux neuronaux Arbres de décision (Apprentissage) … Non supervisée : on ne connaît pas les classes K-moyennes, nuées dynamiques, CLARANS,... Classification Ascendante Hiérarchique (Analyse des données)

11 Ansaf SALLEB - Décembre Classification: arbre de décision Entrée: BD = Exemples classés décrits par des attributs Sortie: Arbre classifiant les exemples en classes Approche: Organiser les exemples en arbre, les feuilles sont les classes Méthodes: Cart, C4.5...

12 Ansaf SALLEB - Décembre Exemple de données météorologiques Attribut de classes Attributs prédictifs 14 Exemples

13 Ansaf SALLEB - Décembre Exemple de données météorologiques Temps{ensoleillé, couvert, pluvieux}3 Température {chaud, modéré, frais}3 Humidité {élevée, normale}2 Vent {VRAI, FAUX} 2 nombre dexemples possibles: 3*3*2*2 = exemples sont présents dans la BD

14 Ansaf SALLEB - Décembre Arbre de décision Nouvelle journée

15 Ansaf SALLEB - Décembre Deux étapes: 1. Construction du modèle sur les exemples dapprentissage (training set) 2. Évaluation du modèle sur des exemples test (test set) Arbre de décision

16 Ansaf SALLEB - Décembre Au départ, la racine contient tous les exemples 2. Si tous le exemples sont de même classe, cest une feuille sinon trouver le meilleur attribut 3. Diviser les exemples 4. Recommencer pour chacun des nouveaux nœuds Construction du modèle

17 Ansaf SALLEB - Décembre un nœud-> une quantité dinformation qui représente le degré de mélange des classes quantité dinformation -> mélange quantité dinformation = MAX si les exemples sont équitablement répartis quantité dinformation = MIN si le nœud est pur (que des exemples de même classe) Construction du modèle

18 Ansaf SALLEB - Décembre Construction du modèle Temps oui(9), non(5) oui(2) non(3) oui(4) oui(3) non(2) Info(9,5) 5/14 * Info(2,3) 4/14 * Info(4,0) 5/14 * Info(3,2) EnsoleilléCouvertPluvieux

19 Ansaf SALLEB - Décembre Construction du modèle 4/14 * Info(3,1) Température oui(9), non(5) oui(2) non(2) oui(4) non(2) oui(3) non(1) Info(9,5) 4/14 * Info(2,2) 6/14 * Info(4,2) ChaudeModéréeFraîche

20 Ansaf SALLEB - Décembre Construction du modèle Humidité oui(9), non(5) oui(3) non(4) oui(6) non(1) Info(9,5) 7/14 * Info(3,4) 7/14 * Info(6,1) ÉlevéeNormale

21 Ansaf SALLEB - Décembre Construction du modèle vent oui(9), non(5) oui(6) non(2) oui(3) non(3) Info(9,5) 8/14 * Info(6,2) 6/14 * Info(3,3) FAUXVRAI

22 Ansaf SALLEB - Décembre Gain dinformation(outlook) = info(9,5)-5/14 info(2,3)- 4/14 info(4,0)- 5/14 info(3,2) Construction du modèle

23 Ansaf SALLEB - Décembre Fonction info qui vérifie ces propriétés, entropie, gini,... Fonction Entropie info(m 1,m 2 ) = Entropie(p 1,p 2 ) = -p 1 log 2 (p 1 )-p 2 log 2 (p 2 ) où p 1 =m 1 /(m 1 +m 2 ) p 2 =m 2 /(m 1 +m 2 ) pi proportion dexemples dans la classe Ci Construction du modèle

24 Ansaf SALLEB - Décembre processus récursif, le raisonnement fait à la racine est analogue à tout autre sommet critères darrêt: contrainte sur nombre dexemples dans un nœud; on fixe un seuil dentropie en dessous duquel on refuse déclater un sommet; Arrivée à un nœud pur. Construction du modèle

25 Ansaf SALLEB - Décembre Construction du modèle Temps Info(2,3) Ensoleillé... Température Chaude Fraîche Modérée non Oui nonoui 2/5 * Info(0,2) 2/5 * Info(1,1) 1/5 * Info(1,0)

26 Ansaf SALLEB - Décembre Construction du modèle Temps Info(2,3) Ensoleillé... humidité Élevée Normale non(3)oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)

27 Ansaf SALLEB - Décembre Arbre de décision

28 Ansaf SALLEB - Décembre Attributs numériques sont discrétisés Discrétisation? Ordonner les k valeurs de lattribut numérique X j Déterminer le point x j qui conduit à la meilleure bi-partition sur la population considérée à un nœud de larbre Ce point est à déterminer parmi les k-1 « milieu d intervalle » possibles définissant k-1 discrétisations possibles on teste chaque discrétisation possible par rapport au Gain dinformation, on garde la meilleure. Construction du modèle: attributs numériques

29 Ansaf SALLEB - Décembre Construction du modèle: attributs numériques

30 Ansaf SALLEB - Décembre Temps Info(2,3) Ensoleillé... Humidité ? ? Info(9,5) Construction du modèle: attributs numériques

31 Ansaf SALLEB - Décembre ,587,5 92,5 Attribut à discrétiser: Humidité nœud avec Info(2,3) oui non Construction du modèle: attributs numériques Humidité

32 Ansaf SALLEB - Décembre Temps Info(2,3) Ensoleillé... Humidité >75 <=75 non(3)oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0) Construction du modèle: attributs numériques

33 Ansaf SALLEB - Décembre Évaluation du modèle Partitionner la BD en deux ensembles: un ensemble dapprentissage training set (2/3 de BD) un ensemble test test set (1/3) Validation croisée cross validation: diviser BD en K parties apprentissage et test en k étapes A chaque étape: utiliser k-1 parties pour apprentissage et 1 partie pour le test précision estimée par le nombre total de classifications correctes

34 Ansaf SALLEB - Décembre Évaluation du modèle 10 instances correctement classées 71,42% 4 instances incorrectement classées 28,58%

35 Ansaf SALLEB - Décembre Arbres de décision : conclusion + Facilement interprétables + Construction rapide des arbres + Pouvoir prédictif comparable aux autres méthodes - Choix d'un attribut n'est jamais remis en question - Un partitionnement dépend tjrs du précédent - Univarié: ne sintéresse quà une seule variable à un nœud

36 Ansaf SALLEB - Décembre Analyse des données : un petit mot P variables N individus Xij Nuage de n points dans un espace de dimension p

37 Ansaf SALLEB - Décembre Analyse des données : un petit mot Visualisation dans le meilleur espace réduit Méthodes factorielles (ACP, AFC, AFCM) Regroupement dans tout l'espace Méthodes de classification (CAH, Aggrégation autour des centres mobiles,... ) Inspiré de Lebart et al.

38 Ansaf SALLEB - Décembre On ne connaît pas les classes des individus Une méthode simple et efficace sur de petits volumes de données Se base sur une distance entre individus (similarité, dissimilarité) Agrége progressivement les individus deux à deux selon leur ressemblance Produit un Dendrogramme (arbre hiérarchique) Classification Ascendante Hiérarchique

39 Ansaf SALLEB - Décembre Classification Ascendante Hiérarchique Agglomération progressive des 5 points (Lebart et al.) Étape 1Étape 2Étape 3 Étape 4 Étape 5

40 Ansaf SALLEB - Décembre Exemple d'Application à SACADEAU

41 Ansaf SALLEB - Décembre Ce qu'on voudrait faire... 1)Regrouper les climats par groupes CAH Outil XLStat 2)Trouver des règles de classification des climats selon les groupes trouvés C4.5 Outil Weka

42 Ansaf SALLEB - Décembre ) CAH (SI_2,Nb_Pics10) G5 G4 G3 G2 G1

43 Ansaf SALLEB - Décembre ) CAH (SI_2,Nb_Pics10)

44 Ansaf SALLEB - Décembre ) Arbre de décision (toutes var) Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 >6 <= 6 C5 (5) C3 (5) Somme_Si_2 >28 <= 28 C1 (7) C2 (8) Nb_Pics_10

45 Ansaf SALLEB - Décembre Si Somme_SI_2 <= 45: Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6) Si Somme_SI_2 > 28: 2 (7) Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4) 2) Arbre de décision -> règles

46 Ansaf SALLEB - Décembre ) Arbre de décision (toutes var) Somme_Si_2 C3 (3) >45 <= 45 >3 <= 3 >6 <= 6 C5 (5) C1 (8) >5 <= 5 C2 (6) C4 (6) Nb_Pics_10 1) CAH (SI_2,Nb_Pics10,Cumul_pluie)

47 Ansaf SALLEB - Décembre ) Arbre de décision <= 28 C1 (7) Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 >6<= 6 C5 (5) C3 (5) Somme_Si_2 >28 C2 (8) Nb_Pics_10 Somme_Si_2 C3 (3) >45 <= 45 Nb_Pics_10 >3 <= 3 >6<= 6 C5 (5) C1 (8) Nb_Pics_10 >5 <= 5 C2 (6) C4 (6) Arbre après CAH sur (SI_2,Nb_Pics10) Arbre après CAH sur (SI_2,Nb_Pics10,Cumul_pluie)

48 Ansaf SALLEB - Décembre Conclusion et Perspectives Variables temporelles sur des périodes... lesquelles ? Séries temporelles... sujet de recherche Intérêt d'une classification de climats, problème du volume de données

49 Ansaf SALLEB - Décembre Bibliographie (1)J. Han et M. Kamber « Data Mining: Concepts and Techniques » Morgan Kaufmann (2)L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle » Dunod (3)A. Cornuéjols et L. Miclet « Apprentissage artificiel; Concepts et Algorithmes » Eyrolles (4)J.R. Quinlan « Induction of Decision Trees » Machine Learning Kluwer Academic Publisher, pages (5)XLStat Analyse de données et statistique avec MS Excel - Addinsoft (6)Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License)


Télécharger ppt "Ansaf SALLEB - Décembre 20041 La Classification"

Présentations similaires


Annonces Google