La Classification Ansaf.Salleb@irisa.fr.

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

La Classification Ansaf.Salleb@irisa.fr

Fouille de données (Data mining) « Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996

Fouille de données: pourquoi ? II y en a beaucoup trop ! Données

Fouille de données: approches STAT BD RN VISU ASA AD Fouille de Données

Fouille de données : types de données Tables (BD relationnelles) Texte Multimédia Spatiales Temporelles (time series) Web …

Fouille de données : tâches Description Associations Classification Détection d’anomalies …

La classification : un exemple Problème : Un client demande à son banquier un crédit Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client ! Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.

La classification : un exemple Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable) Prédire Utiliser le modèle pour classer le client

La classification Supervisée : on connaît les classes Non supervisée : on ne connaît pas les classes Grp1 Grp2 Grp3

La classification Supervisée : on connaît les classes Bayésienne Réseaux neuronaux Arbres de décision (Apprentissage) … Non supervisée : on ne connaît pas les classes K-moyennes, nuées dynamiques, CLARANS,... Classification Ascendante Hiérarchique (Analyse des données)

Classification: arbre de décision Entrée: BD = Exemples classés décrits par des attributs Sortie: Arbre classifiant les exemples en classes Approche: Organiser les exemples en arbre, les feuilles sont les classes Méthodes: Cart, C4.5 ...

Exemple de données météorologiques Attribut de classes Attributs prédictifs 14 Exemples

Exemple de données météorologiques Temps{ensoleillé, couvert, pluvieux}3 Température {chaud, modéré, frais}3 Humidité {élevée, normale}2 Vent {VRAI, FAUX} 2 nombre d’exemples possibles: 3*3*2*2 = 36 14 exemples sont présents dans la BD

Arbre de décision Nouvelle journée

1. Construction du modèle sur les exemples Arbre de décision Deux étapes: 1. Construction du modèle sur les exemples d’apprentissage (training set) 2. Évaluation du modèle sur des exemples test(test set)

Construction du modèle 1. Au départ, la racine contient tous les exemples 2. Si tous le exemples sont de même classe, c’est une feuille sinon trouver le meilleur attribut 3. Diviser les exemples 4. Recommencer pour chacun des nouveaux nœuds

Construction du modèle un nœud-> une quantité d’information qui représente le degré de mélange des classes quantité d’information -> mélange  quantité d’information = MAX si les exemples sont équitablement répartis quantité d’information = MIN si le nœud est pur (que des exemples de même classe)

Construction du modèle Temps oui(9), non(5) oui(2) non(3) oui(4) oui(3) non(2) Info(9,5) 5/14 * Info(2,3) 4/14 * Info(4,0) 5/14 * Info(3,2) Ensoleillé Couvert Pluvieux

Construction du modèle Température oui(9), non(5) oui(2) non(2) oui(4) non(2) oui(3) non(1) Info(9,5) 4/14 * Info(2,2) 6/14 * Info(4,2) Chaude Modérée Fraîche 4/14 * Info(3,1)

Construction du modèle Humidité oui(9), non(5) oui(3) non(4) oui(6) non(1) Info(9,5) 7/14 * Info(3,4) 7/14 * Info(6,1) Élevée Normale

Construction du modèle vent oui(9), non(5) oui(6) non(2) oui(3) non(3) Info(9,5) 8/14 * Info(6,2) 6/14 * Info(3,3) FAUX VRAI

Construction du modèle Gain d’information(outlook) = info(9,5)-5/14 info(2,3)- 4/14 info(4,0)- 5/14 info(3,2)

Construction du modèle Fonction info qui vérifie ces propriétés, entropie, gini,... Fonction Entropie info(m1,m2) = Entropie(p1,p2) = -p1log2(p1)-p2log2(p2) où p1=m1/(m1+m2) p2=m2/(m1+m2) pi proportion d’exemples dans la classe Ci

Construction du modèle processus récursif, le raisonnement fait à la racine est analogue à tout autre sommet critères d’arrêt: contrainte sur nombre d’exemples dans un nœud; on fixe un seuil d’entropie en dessous duquel on refuse d’éclater un sommet; Arrivée à un nœud pur.

Construction du modèle Temps Info(2,3) Ensoleillé ... Température Chaude Fraîche Modérée non non Oui non oui 2/5 * Info(0,2) 2/5 * Info(1,1) 1/5 * Info(1,0)

Construction du modèle Temps Info(2,3) Ensoleillé ... humidité Élevée Normale non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)

Arbre de décision

Construction du modèle: attributs numériques Attributs numériques sont discrétisés Discrétisation? Ordonner les k valeurs de l’attribut numérique Xj Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.

Construction du modèle: attributs numériques

Construction du modèle: attributs numériques Info(9,5) Temps Ensoleillé ... ... Info(2,3) Humidité ? ?

Construction du modèle: attributs numériques 77,5 87,5 92,5 Attribut à discrétiser: Humidité nœud avec Info(2,3) 70 85 90 95 75 oui non Humidité

Construction du modèle: attributs numériques Temps Info(2,3) Ensoleillé ... Humidité >75 <=75 non(3) oui(2) 3/5 * Info(0,3) 2/5 * Info(2,0)

Évaluation du modèle Partitionner la BD en deux ensembles: un ensemble d’apprentissage training set (2/3 de BD) un ensemble test test set (1/3) Validation croisée cross validation: diviser BD en K parties apprentissage et test en k étapes A chaque étape: utiliser k-1 parties pour apprentissage et 1 partie pour le test précision estimée par le nombre total de classifications correctes

Évaluation du modèle 10 instances correctement classées 71,42% 4 instances incorrectement classées 28,58%

Arbres de décision : conclusion + Facilement interprétables + Construction rapide des arbres + Pouvoir prédictif comparable aux autres méthodes - Choix d'un attribut n'est jamais remis en question - Un partitionnement dépend tjrs du précédent - Univarié: ne s’intéresse qu’à une seule variable à un nœud

Analyse des données : un petit mot P variables N individus Xij Nuage de n points dans un espace de dimension p

Analyse des données : un petit mot Inspiré de Lebart et al. Visualisation dans le meilleur espace réduit Méthodes factorielles (ACP, AFC, AFCM) Regroupement dans tout l'espace Méthodes de classification (CAH, Aggrégation autour des centres mobiles,... )

Classification Ascendante Hiérarchique On ne connaît pas les classes des individus Une méthode simple et efficace sur de petits volumes de données Se base sur une distance entre individus (similarité, dissimilarité) Agrége progressivement les individus deux à deux selon leur ressemblance Produit un Dendrogramme (arbre hiérarchique)

Classification Ascendante Hiérarchique Étape 1 Étape 2 Étape 3 Étape 4 Étape 5 Agglomération progressive des 5 points (Lebart et al.)

Exemple d'Application à SACADEAU

Ce qu'on voudrait faire... Regrouper les climats par groupes CAH Outil XLStat Trouver des règles de classification des climats selon les groupes trouvés C4.5 Outil Weka

1) CAH (SI_2,Nb_Pics10) G5 G4 G3 G2 G1

1) CAH (SI_2,Nb_Pics10)

2) Arbre de décision (toutes var) Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 C5 (5) C3 (5) >28 <= 28 C1 (7) C2 (8)

2) Arbre de décision -> règles Si Somme_SI_2 <= 45: Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6) Si Somme_SI_2 > 28: 2 (7) Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)

2) Arbre de décision (toutes var) 1) CAH (SI_2,Nb_Pics10,Cumul_pluie) 2) Arbre de décision (toutes var) Somme_Si_2 C3 (3) >45 <= 45 >3 <= 3 >6 <= 6 C5 (5) C1 (8) >5 <= 5 C2 (6) C4 (6) Nb_Pics_10

(SI_2,Nb_Pics10,Cumul_pluie) 2) Arbre de décision Somme_Si_2 C3 (3) >45 <= 45 Nb_Pics_10 >3 <= 3 >6 <= 6 C5 (5) C1 (8) >5 <= 5 C2 (6) C4 (6) <= 28 C1 (7) Somme_Si_2 C4 (3) >45 <= 45 Nb_Pics_10 >6 <= 6 C5 (5) C3 (5) >28 C2 (8) Arbre après CAH sur (SI_2,Nb_Pics10) Arbre après CAH sur (SI_2,Nb_Pics10,Cumul_pluie)

Conclusion et Perspectives Variables temporelles sur des périodes... lesquelles ? Séries temporelles... sujet de recherche Intérêt d'une classification de climats, problème du volume de données

Bibliographie J. Han et M. Kamber « Data Mining: Concepts and Techniques » Morgan Kaufmann L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle » Dunod A. Cornuéjols et L. Miclet « Apprentissage artificiel; Concepts et Algorithmes » Eyrolles J.R. Quinlan « Induction of Decision Trees » Machine Learning 1986 - Kluwer Academic Publisher, pages 81-106 XLStat Analyse de données et statistique avec MS Excel - Addinsoft http://www.xlstat.com/indexfr.html Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License) http://www.cs.waikato.ac.nz/ml/weka/