Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
La Classification
2
Fouille de données (Data mining)
« Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996
3
Fouille de données: pourquoi ?
II y en a beaucoup trop ! Données
4
Fouille de données: approches
STAT BD RN VISU ASA AD Fouille de Données
5
Fouille de données : types de données
Tables (BD relationnelles) Texte Multimédia Spatiales Temporelles (time series) Web …
6
Fouille de données : tâches
Description Associations Classification Détection d’anomalies …
7
La classification : un exemple
Problème : Un client demande à son banquier un crédit Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client ! Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.
8
La classification : un exemple
Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable) Prédire Utiliser le modèle pour classer le client
9
La classification Supervisée : on connaît les classes
Non supervisée : on ne connaît pas les classes Grp1 Grp2 Grp3
10
La classification Supervisée : on connaît les classes
Bayésienne Réseaux neuronaux Arbres de décision (Apprentissage) … Non supervisée : on ne connaît pas les classes K-moyennes, nuées dynamiques, CLARANS,... Classification Ascendante Hiérarchique (Analyse des données)
11
Classification: arbre de décision
Entrée: BD = Exemples classés décrits par des attributs Sortie: Arbre classifiant les exemples en classes Approche: Organiser les exemples en arbre, les feuilles sont les classes Méthodes: Cart, C
12
Exemple de données météorologiques
Attribut de classes Attributs prédictifs 14 Exemples
13
Exemple de données météorologiques
Temps{ensoleillé, couvert, pluvieux}3 Température {chaud, modéré, frais}3 Humidité {élevée, normale}2 Vent {VRAI, FAUX} 2 nombre d’exemples possibles: 3*3*2*2 = 36 14 exemples sont présents dans la BD
14
Arbre de décision Nouvelle journée
15
1. Construction du modèle sur les exemples
Arbre de décision Deux étapes: 1. Construction du modèle sur les exemples d’apprentissage (training set) 2. Évaluation du modèle sur des exemples test(test set)
16
Construction du modèle
1. Au départ, la racine contient tous les exemples 2. Si tous le exemples sont de même classe, c’est une feuille sinon trouver le meilleur attribut 3. Diviser les exemples 4. Recommencer pour chacun des nouveaux nœuds
17
Construction du modèle
un nœud-> une quantité d’information qui représente le degré de mélange des classes quantité d’information -> mélange quantité d’information = MAX si les exemples sont équitablement répartis quantité d’information = MIN si le nœud est pur (que des exemples de même classe)
18
Construction du modèle
Temps oui(9), non(5) oui(2) non(3) oui(4) oui(3) non(2) Info(9,5) 5/14 * Info(2,3) 4/14 * Info(4,0) 5/14 * Info(3,2) Ensoleillé Couvert Pluvieux
19
Construction du modèle
Température oui(9), non(5) oui(2) non(2) oui(4) non(2) oui(3) non(1) Info(9,5) 4/14 * Info(2,2) 6/14 * Info(4,2) Chaude Modérée Fraîche 4/14 * Info(3,1)
20
Construction du modèle
Humidité oui(9), non(5) oui(3) non(4) oui(6) non(1) Info(9,5) 7/14 * Info(3,4) 7/14 * Info(6,1) Élevée Normale
21
Construction du modèle
vent oui(9), non(5) oui(6) non(2) oui(3) non(3) Info(9,5) 8/14 * Info(6,2) 6/14 * Info(3,3) FAUX VRAI
22
Construction du modèle
Gain d’information(outlook) = info(9,5)-5/14 info(2,3)- 4/14 info(4,0)- 5/14 info(3,2)
23
Construction du modèle
Fonction info qui vérifie ces propriétés, entropie, gini,... Fonction Entropie info(m1,m2) = Entropie(p1,p2) = -p1log2(p1)-p2log2(p2) où p1=m1/(m1+m2) p2=m2/(m1+m2) pi proportion d’exemples dans la classe Ci
24
Construction du modèle
processus récursif, le raisonnement fait à la racine est analogue à tout autre sommet critères d’arrêt: contrainte sur nombre d’exemples dans un nœud; on fixe un seuil d’entropie en dessous duquel on refuse d’éclater un sommet; Arrivée à un nœud pur.
25
Construction du modèle
Temps Info(2,3) Ensoleillé ... Température Chaude Fraîche Modérée non non Oui non oui 2/5 * Info(0,2) 2/5 * Info(1,1) 1/5 * Info(1,0)
26
Construction du modèle
Temps Info(2,3) Ensoleillé ... humidité Élevée Normale non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)
27
Arbre de décision
28
Construction du modèle: attributs numériques
Attributs numériques sont discrétisés Discrétisation? Ordonner les k valeurs de l’attribut numérique Xj Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.
29
Construction du modèle: attributs numériques
30
Construction du modèle: attributs numériques
Info(9,5) Temps Ensoleillé ... ... Info(2,3) Humidité ? ?
31
Construction du modèle: attributs numériques
77,5 87, ,5 Attribut à discrétiser: Humidité nœud avec Info(2,3) 75 oui non Humidité
32
Construction du modèle: attributs numériques
Temps Info(2,3) Ensoleillé ... Humidité >75 <=75 non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)
33
Évaluation du modèle Partitionner la BD en deux ensembles:
un ensemble d’apprentissage training set (2/3 de BD) un ensemble test test set (1/3) Validation croisée cross validation: diviser BD en K parties apprentissage et test en k étapes A chaque étape: utiliser k-1 parties pour apprentissage et 1 partie pour le test précision estimée par le nombre total de classifications correctes
34
Évaluation du modèle 10 instances correctement classées 71,42%
4 instances incorrectement classées 28,58%
35
Arbres de décision : conclusion
+ Facilement interprétables + Construction rapide des arbres + Pouvoir prédictif comparable aux autres méthodes - Choix d'un attribut n'est jamais remis en question - Un partitionnement dépend tjrs du précédent - Univarié: ne s’intéresse qu’à une seule variable à un nœud
36
Analyse des données : un petit mot
P variables N individus Xij Nuage de n points dans un espace de dimension p
37
Analyse des données : un petit mot
Inspiré de Lebart et al. Visualisation dans le meilleur espace réduit Méthodes factorielles (ACP, AFC, AFCM) Regroupement dans tout l'espace Méthodes de classification (CAH, Aggrégation autour des centres mobiles,... )
38
Classification Ascendante Hiérarchique
On ne connaît pas les classes des individus Une méthode simple et efficace sur de petits volumes de données Se base sur une distance entre individus (similarité, dissimilarité) Agrége progressivement les individus deux à deux selon leur ressemblance Produit un Dendrogramme (arbre hiérarchique)
39
Classification Ascendante Hiérarchique
Étape 1 Étape 2 Étape 3 Étape 4 Étape 5 Agglomération progressive des 5 points (Lebart et al.)
40
Exemple d'Application à SACADEAU
41
Ce qu'on voudrait faire... Regrouper les climats par groupes CAH
Outil XLStat Trouver des règles de classification des climats selon les groupes trouvés C4.5 Outil Weka
42
1) CAH (SI_2,Nb_Pics10) G5 G4 G3 G2 G1
43
1) CAH (SI_2,Nb_Pics10)
44
2) Arbre de décision (toutes var)
Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 C5 (5) C3 (5) >28 <= 28 C1 (7) C2 (8)
45
2) Arbre de décision -> règles
Si Somme_SI_2 <= 45: Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6) Si Somme_SI_2 > 28: 2 (7) Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)
46
2) Arbre de décision (toutes var)
1) CAH (SI_2,Nb_Pics10,Cumul_pluie) 2) Arbre de décision (toutes var) Somme_Si_2 C3 (3) >45 <= 45 >3 <= 3 >6 <= 6 C5 (5) C1 (8) >5 <= 5 C2 (6) C4 (6) Nb_Pics_10
47
(SI_2,Nb_Pics10,Cumul_pluie)
2) Arbre de décision Somme_Si_2 C3 (3) >45 <= 45 Nb_Pics_10 >3 <= 3 >6 <= 6 C5 (5) C1 (8) >5 <= 5 C2 (6) C4 (6) <= 28 C1 (7) Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 C5 (5) C3 (5) >28 C2 (8) Arbre après CAH sur (SI_2,Nb_Pics10) Arbre après CAH sur (SI_2,Nb_Pics10,Cumul_pluie)
48
Conclusion et Perspectives
Variables temporelles sur des périodes... lesquelles ? Séries temporelles... sujet de recherche Intérêt d'une classification de climats, problème du volume de données
49
Bibliographie J. Han et M. Kamber « Data Mining: Concepts and Techniques » Morgan Kaufmann L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle » Dunod A. Cornuéjols et L. Miclet « Apprentissage artificiel; Concepts et Algorithmes » Eyrolles J.R. Quinlan « Induction of Decision Trees » Machine Learning Kluwer Academic Publisher, pages XLStat Analyse de données et statistique avec MS Excel - Addinsoft Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.