Télécharger la présentation
1
Méthodes de segmentation
Michel Tenenhaus
2
Les données Objectif : Numérique Ordinale Réponse : Y Nominale
découpé en 10 classes, puis considéré comme ordinale Prédicteurs : X1,…, Xk Numérique Ordinale Nominale Objectif : Construire un arbre de décision à l’aide des prédicteurs. Les segments terminaux sont aussi purs que possible par rapport à la réponse Y.
3
Les méthodes CHAID : Chi-squared Automatic Interaction Detector
CART : Classification And Decision Tree SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent
4
Exemple : Référendum sur la constitution européenne
7
Élagage avec la règle de un écart-type
Utilisation de CART Élagage avec la règle de un écart-type
9
1. Mesures de liaison entre deux variables X et Y
Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y
10
2. Description d’une étape de CHAID sur un segment
1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.
11
Description d’une étape de CHAID sur un segment
2. Phase de division Pour chaque prédicteur Xj : Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.
12
Description d’une étape de CHAID sur un segment
3. Règle d’arrêt basées sur des critères Segment pur Prédicteurs constants sur le segment Taille du segment Taille des segments descendants Profondeur de l’arbre Valeur de la p-value minimum
13
Étude danoise sur la prospérité (Source : Croux, 2005)
14
Utilisation de CHAID pour Y binaire
Pas de correction de Bonferroni
16
Étude Mali Test de l’efficacité du diffuseur d’iode RHODIFUSE
Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Hypoproductivité
17
Classification des goitres selon l ’OMS
Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.
18
L’expérimentation N’Djiba 17 Sirablo (Témoin) 19 6 15 4 2 Sebabougou
Bamako 5 Woloni 7 37 Niger
19
Les données Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II
X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou X2 = Sexe : 1 = Homme, 2 = Femme X3 = Jour : 0 = 0, 1 = 180, 2 = 360 X4 = Iode : 1 = Absence, 2 = Présence
20
Les données (en effectif)
21
Les données (en fréquence)
Fréquence de répartition des goitres Absence .76 .07 .12 .05 N'Djiba Homme 180 Présence .80 .08 .00 360 .84 .06 .10 Femme .30 .13 .32 .24 .38 .22 .29 .54 .15 .26 Sebabougou .55 .23 .81 .14 .01 .87 .18 .21 .59 .19 .09 .64 .20 .11 1 2 3 4 5 6 VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme Absence .34 .10 .32 .24 11 Woloni Femme 180 Présence .45 .24 .24 .08 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24
22
Évolution des niveaux moyens de goitre
23
Utilisation de CHAID pour Y ordinale Population des hommes
24
Population des femmes
25
École de Management Avancé
26
Utilisation de CHAID pour Y numérique
Avec de correction de Bonferroni
28
Présentation de CART Exemple : Crédit
On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).
29
Mesures de liaison entre X binaire et Y
Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini Entropie quadratique où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :
30
Exemple Segment très impur
31
Diminution de l’impureté = mesure de liaison entre X et Y
Division d’un segment Segment t Effectif = nt Impureté i(t) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Segment tgauche Effectif = ntgauche Impureté i(tgauche) X X1 a X = 1 Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini
32
Diminution de l’impureté = Critère de Gini
Exemple (0) (1) (2) i(0)= i(1)= i(2)= Diminution de l’impureté = Critère de Gini
33
Y nominale : le critère Twoing
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1
34
Y ordinale : le critère Ordered Twoing
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1
35
Y numérique : le critère LSD (Least Square Deviation)
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1
36
Construction de l’arbre maximum TMax
On part de l’échantillon de base t0. Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). Si X est nominale, la dichotomie est quelconque. Si X est ordinale, la dichotomie est {[X i],[X > i]} On itère la procédure sur chaque segment descendant. La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.
37
Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01
- Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1
38
Les règles d’arrêt Les prédicteurs sont constants sur le segment.
Le segment est pur. Profondeur de l’arbre égale au maximum spécifié. Taille du segment < minimum spécifié (ici 20). Taille du sous-segment < minimum spécifié (ici 5). Diminution de l’impureté < minimum spécifié (ici .0001).
39
Risque global Chaque segment terminal est affecté
à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés
40
Tableau de classification et risque global
41
Tableau des gains nt Gain = Nb de réponses cibles dans le segment t
Gain (%) = % de réponses cibles de l’échantillon total dans le segment t Resp (%) = % de réponses cibles dans le segment t - Index (%) =
42
Élagage (Pruning) On construit l’arbre maximum Tmax.
On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet.
43
Mesure de coût-complexité C(T)
44
L’algorithme d’élagage de CART
correspondant à une suite croissante de pénalités de complexité k :
45
Choix de l’arbre à retenir
Par défaut = 1
46
Exemple : Qualité des vins de Bordeaux
Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d’insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)
47
Les données
48
Arbre de taille maximale T1
49
T2 T3 T4 T5
51
Présentation de SIPINA Exemple : Titanic
52
Mesure de liaison entre X et Y nominale
Mesure de l’impureté (entropie, incertitude) d’un segment t : Indice de Gini corrigée Indépendant de la taille du segment Dans CART : Dans SIPINA : Diminue lorsque la taille du segment augmente Le paramètre est fixé automatiquement par SIPINA.
53
Le graphe latticiel de SIPINA
Survie au naufrage du Titanic
54
Mesure de liaison entre X et Y nominale
Mesure de l’incertitude sur une partition S = {t1,…, tK} de l’échantillon de base t0 Mesure de l’incertitude sur une partition induite par X SX = {t1=[X=1],…, tI=[X=I]} de l’échantillon de base t0 Mesure de la force de la liaison entre X et Y : Gain sur l’incertitude
55
Description de l’algorithme SIPINA
Recherche de la partition S1 La partition initiale S0 est formée de l’échantillon de base. Le paramètre est fixé de manière automatique. Recherche de la variable Xj conduisant à la meilleure partition S1, soit maximisant le gain sur l’incertitude
56
Description de l’algorithme SIPINA
Opérations de base pour le passage de la partition Si à Si+1 Éclatement : Un segment t de Si est divisé à l’aide d’un prédicteur X en I segments th = t[X = h]. D’où : Si+1 = Si – {t} + {t1}+…+{tI}. Fusion : On fusionne les deux segments tq et tr de Si. D’où : Si+1 = Si – {tq}{tr } + tqtr . Partition admissible : Si+1 est admissible si Gain sur l’incertitude
57
Exemples des opérations de base sur Titanic
Éclatement : S1 Fusion : S3
58
Exemple sur Titanic Fusion :
59
Description de l’algorithme SIPINA
Passage de la partition Si à Si+1 Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1 maximisant le gain sur l’incertitude I(Si,S'i+1) Si gain > 0, on pose Si+1= S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante. Fusion-éclatement : On construit toutes les partitions obtenues par fusion de deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante. Éclatement : Pour chaque segment de Si, on recherche la meilleure partition admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si est optimale.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.