La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthodes de segmentation

Présentations similaires


Présentation au sujet: "Méthodes de segmentation"— Transcription de la présentation:

1 Méthodes de segmentation
Michel Tenenhaus

2 Les données Objectif : Numérique Ordinale Réponse : Y Nominale
découpé en 10 classes, puis considéré comme ordinale Prédicteurs : X1,…, Xk Numérique Ordinale Nominale Objectif : Construire un arbre de décision à l’aide des prédicteurs. Les segments terminaux sont aussi purs que possible par rapport à la réponse Y.

3 Les méthodes CHAID : Chi-squared Automatic Interaction Detector
CART : Classification And Decision Tree SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent

4 Exemple : Référendum sur la constitution européenne

5

6

7 Élagage avec la règle de un écart-type
Utilisation de CART Élagage avec la règle de un écart-type

8

9 1. Mesures de liaison entre deux variables X et Y
Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y

10 2. Description d’une étape de CHAID sur un segment
1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.

11 Description d’une étape de CHAID sur un segment
2. Phase de division Pour chaque prédicteur Xj : Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.

12 Description d’une étape de CHAID sur un segment
3. Règle d’arrêt basées sur des critères Segment pur Prédicteurs constants sur le segment Taille du segment Taille des segments descendants Profondeur de l’arbre Valeur de la p-value minimum

13 Étude danoise sur la prospérité (Source : Croux, 2005)

14 Utilisation de CHAID pour Y binaire
Pas de correction de Bonferroni

15

16 Étude Mali Test de l’efficacité du diffuseur d’iode RHODIFUSE
Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Hypoproductivité

17 Classification des goitres selon l ’OMS
Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

18 L’expérimentation N’Djiba 17 Sirablo (Témoin) 19 6 15 4 2 Sebabougou
Bamako 5 Woloni 7 37 Niger

19 Les données Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II
X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou X2 = Sexe : 1 = Homme, 2 = Femme X3 = Jour : 0 = 0, 1 = 180, 2 = 360 X4 = Iode : 1 = Absence, 2 = Présence

20 Les données (en effectif)

21 Les données (en fréquence)
Fréquence de répartition des goitres Absence .76 .07 .12 .05 N'Djiba Homme 180 Présence .80 .08 .00 360 .84 .06 .10 Femme .30 .13 .32 .24 .38 .22 .29 .54 .15 .26 Sebabougou .55 .23 .81 .14 .01 .87 .18 .21 .59 .19 .09 .64 .20 .11 1 2 3 4 5 6 VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme Absence .34 .10 .32 .24 11 Woloni Femme 180 Présence .45 .24 .24 .08 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24

22 Évolution des niveaux moyens de goitre

23 Utilisation de CHAID pour Y ordinale Population des hommes

24 Population des femmes

25 École de Management Avancé

26 Utilisation de CHAID pour Y numérique
Avec de correction de Bonferroni

27

28 Présentation de CART Exemple : Crédit
On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).

29 Mesures de liaison entre X binaire et Y
Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini Entropie quadratique où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :

30 Exemple Segment très impur

31 Diminution de l’impureté = mesure de liaison entre X et Y
Division d’un segment Segment t Effectif = nt Impureté i(t) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Segment tgauche Effectif = ntgauche Impureté i(tgauche) X X1  a X = 1 Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini

32 Diminution de l’impureté = Critère de Gini
Exemple (0) (1) (2) i(0)= i(1)= i(2)= Diminution de l’impureté = Critère de Gini

33 Y nominale : le critère Twoing
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

34 Y ordinale : le critère Ordered Twoing
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

35 Y numérique : le critère LSD (Least Square Deviation)
Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

36 Construction de l’arbre maximum TMax
On part de l’échantillon de base t0. Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). Si X est nominale, la dichotomie est quelconque. Si X est ordinale, la dichotomie est {[X  i],[X > i]} On itère la procédure sur chaque segment descendant. La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.

37 Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01
- Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1

38 Les règles d’arrêt Les prédicteurs sont constants sur le segment.
Le segment est pur. Profondeur de l’arbre égale au maximum spécifié. Taille du segment < minimum spécifié (ici 20). Taille du sous-segment < minimum spécifié (ici 5). Diminution de l’impureté < minimum spécifié (ici .0001).

39 Risque global Chaque segment terminal est affecté
à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés

40 Tableau de classification et risque global

41 Tableau des gains nt Gain = Nb de réponses cibles dans le segment t
Gain (%) = % de réponses cibles de l’échantillon total dans le segment t Resp (%) = % de réponses cibles dans le segment t - Index (%) =

42 Élagage (Pruning) On construit l’arbre maximum Tmax.
On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet.

43 Mesure de coût-complexité C(T)

44 L’algorithme d’élagage de CART
correspondant à une suite croissante de pénalités de complexité k :

45 Choix de l’arbre à retenir
Par défaut  = 1

46 Exemple : Qualité des vins de Bordeaux
Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d’insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

47 Les données

48 Arbre de taille maximale T1

49 T2 T3 T4 T5

50

51 Présentation de SIPINA Exemple : Titanic

52 Mesure de liaison entre X et Y nominale
Mesure de l’impureté (entropie, incertitude) d’un segment t : Indice de Gini corrigée Indépendant de la taille du segment Dans CART : Dans SIPINA : Diminue lorsque la taille du segment augmente Le paramètre  est fixé automatiquement par SIPINA.

53 Le graphe latticiel de SIPINA
Survie au naufrage du Titanic

54 Mesure de liaison entre X et Y nominale
Mesure de l’incertitude sur une partition S = {t1,…, tK} de l’échantillon de base t0 Mesure de l’incertitude sur une partition induite par X SX = {t1=[X=1],…, tI=[X=I]} de l’échantillon de base t0 Mesure de la force de la liaison entre X et Y : Gain sur l’incertitude

55 Description de l’algorithme SIPINA
Recherche de la partition S1 La partition initiale S0 est formée de l’échantillon de base. Le paramètre  est fixé de manière automatique. Recherche de la variable Xj conduisant à la meilleure partition S1, soit maximisant le gain sur l’incertitude

56 Description de l’algorithme SIPINA
Opérations de base pour le passage de la partition Si à Si+1 Éclatement : Un segment t de Si est divisé à l’aide d’un prédicteur X en I segments th = t[X = h]. D’où : Si+1 = Si – {t} + {t1}+…+{tI}. Fusion : On fusionne les deux segments tq et tr de Si. D’où : Si+1 = Si – {tq}{tr } + tqtr . Partition admissible : Si+1 est admissible si Gain sur l’incertitude

57 Exemples des opérations de base sur Titanic
Éclatement : S1 Fusion : S3

58 Exemple sur Titanic Fusion :

59 Description de l’algorithme SIPINA
Passage de la partition Si à Si+1 Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1 maximisant le gain sur l’incertitude I(Si,S'i+1) Si gain > 0, on pose Si+1= S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante. Fusion-éclatement : On construit toutes les partitions obtenues par fusion de deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante. Éclatement : Pour chaque segment de Si, on recherche la meilleure partition admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si est optimale.


Télécharger ppt "Méthodes de segmentation"

Présentations similaires


Annonces Google