La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

Présentations similaires


Présentation au sujet: "1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale."— Transcription de la présentation:

1 1 Michel Tenenhaus Méthodes de segmentation

2 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale - Nominale Objectif : Construire un arbre de décision à laide des prédicteurs. Les segments terminaux sont aussi purs que possible par rapport à la réponse Y. découpé en 10 classes, puis considéré comme ordinale

3 3 Les méthodes CHAID : Chi-squared Automatic Interaction Detector CART : Classification And Decision Tree SIPINA : Système Interactif pour les Processus dInterrogation Non-Arborescent

4 4 Exemple : Référendum sur la constitution européenne

5 5

6 6

7 7 Utilisation de CART Élagage avec la règle de un écart-type

8 8

9 9 Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y

10 10 2. Description dune étape de CHAID sur un segment Pour chaque prédicteur X j : - Fusion des modalités i et i de X j telles que les profils Prob(Y/X j =i) et Prob(Y/X j =i) sur le segment sont voisins. - Si X j est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - Doù des nouveaux prédicteurs X j *. 1. Phase de fusion

11 11 Description dune étape de CHAID sur un segment Pour chaque prédicteur X j : -Étude des tableaux croisés X j * Y : Calcul de la p-value du test dindépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur X j * ayant la plus petite p-value et division du segment selon ce prédicteur. 2. Phase de division

12 12 Description dune étape de CHAID sur un segment -Segment pur -Prédicteurs constants sur le segment -Taille du segment -Taille des segments descendants -Profondeur de larbre -Valeur de la p-value minimum 3. Règle darrêt basées sur des critères

13 13 Étude danoise sur la prospérité (Source : Croux, 2005)

14 14 Utilisation de CHAID pour Y binaire Pas de correction de Bonferroni

15 15

16 16 Étude Mali Test de lefficacité du diffuseur diode RHODIFUSE Conséquences biologiques du déficit en iode : Chez lenfant : -Retard mental -Troubles musculaire -Paralysie -Crétinisme Chez ladulte : -Goitre -Adynamie -Crétinisme -Hypoproductivité

17 17 Classification des goitres selon l OMS Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

18 18 Lexpérimentation NDjiba Sebabougou Sirablo (Témoin) Woloni Bamako Niger

19 19 Les données Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II X 1 = Village :1 = Sirablo (Témoin), 2 = Woloni 3 = N Djiba, 4 = Sebabougou X 2 = Sexe :1 = Homme, 2 = Femme X 3 = Jour :0 = 0, 1 = 180, 2 = 360 X 4 = Iode :1 = Absence, 2 = Présence

20 20 Les données (en effectif)

21 21 Les données (en fréquence) Fréquence de répartition des goitres SirabloHomme0Absence SirabloHomme180Absence SirabloHomme360Absence SirabloFemme0Absence SirabloFemme180Absence SirabloFemme360Absence WoloniHomme0Absence WoloniHomme180Présence WoloniHomme360Présence WoloniFemme0Absence WoloniFemme 180 Présence WoloniFemme360Présence N'DjibaHomme VILLAGESEXEJOURIODEGoitre 1Goitre 2Goitre 3Goitre 4

22 22 Évolution des niveaux moyens de goitre

23 23 Utilisation de CHAID pour Y ordinale Population des hommes

24 24 Population des femmes

25 25 École de Management Avancé

26 26 Utilisation de CHAID pour Y numérique Avec de correction de Bonferroni

27 27

28 28 Présentation de CART Exemple : Crédit On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X 1 = Classe dage (young, middle, old) - X 2 = Has AMEX card (yes/no) - X 3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X 4 = Social Class (management, professional, clerical, skilled, unskilled).

29 29 Mesures de liaison entre X binaire et Y Y nominale : le critère Gini Mesure de limpureté dun segment : Indice de Gini où p(j|t) = fréquence de la modalité j de Y sur le segment t Entropie quadratique Résultat :

30 30 Exemple Segment très impur

31 31 Division dun segment Segment t Effectif = n t Impureté i(t) Segment t droit Effectif = n tdroit Impureté i(t droit ) Segment t gauche Effectif = n tgauche Impureté i(t gauche ) X X 1 a X = 1 Diminution de limpureté = mesure de liaison entre X et Y Critère Gini

32 32 Exemple (0) (1)(2) i(0)= i(1)= i(2)= Diminution de limpureté = Critère de Gini

33 33 Y nominale : le critère Twoing Segment t Effectif = n t Segment t droit Effectif = n tdroit Segment t gauche Effectif = n tgauche X X = 0X = 1

34 34 Y ordinale : le critère Ordered Twoing Segment t Effectif = n t Segment t droit Effectif = n tdroit Segment t gauche Effectif = n tgauche X X = 0X = 1

35 35 Y numérique : le critère LSD (Least Square Deviation) Segment t Effectif = n t Segment t droit Effectif = n tdroit Segment t gauche Effectif = n tgauche X X = 0X = 1

36 36 Construction de larbre maximum T Max On part de léchantillon de base t 0. Pour chaque prédicteur X j, on cherche la dichotomie des modalités de X j conduisant à deux segments descendants t g et t d maximisant (t g,t d ). Si X est nominale, la dichotomie est quelconque. Si X est ordinale, la dichotomie est {[X i],[X > i]} On itère la procédure sur chaque segment descendant. La procédure est stoppée en fonction de règles darrête définies par lutilisateur.

37 37 Exemple Crédit Règles darrêt : - Improvement minimum = Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1

38 38 Les règles darrêt Les prédicteurs sont constants sur le segment. Le segment est pur. Profondeur de larbre égale au maximum spécifié. Taille du segment < minimum spécifié (ici 20). Taille du sous-segment < minimum spécifié (ici 5). Diminution de limpureté < minimum spécifié (ici.0001).

39 39 Risque global Chaque segment terminal est affecté à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés

40 40 Tableau de classification et risque global

41 41 Tableau des gains ntnt - Gain = Nb de réponses cibles dans le segment t - Gain (%) = % de réponses cibles de léchantillon total dans le segment t - Resp (%) = % de réponses cibles dans le segment t - Index (%) =

42 42 Élagage (Pruning) On construit larbre maximum T max. On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de larbre complet.

43 43 Mesure de coût-complexité C (T)

44 44 Lalgorithme délagage de CART correspondant à une suite croissante de pénalités de complexité k :

45 45 Choix de larbre à retenir Par défaut = 1

46 46 Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années ( ) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

47 47 Les données

48 48 Arbre de taille maximale T 1

49 49 T2T2 T3T3 T4T4 T5T5

50 50

51 51 Présentation de SIPINA Exemple : Titanic

52 52 Mesure de liaison entre X et Y nominale Mesure de limpureté (entropie, incertitude) dun segment t : Indice de Gini corrigée Dans CART : Indépendant de la taille du segment Dans SIPINA : Diminue lorsque la taille du segment augmente Le paramètre est fixé automatiquement par SIPINA.

53 53 Le graphe latticiel de SIPINA Survie au naufrage du Titanic

54 54 Mesure de liaison entre X et Y nominale Mesure de lincertitude sur une partition S = {t 1,…, t K } de léchantillon de base t 0 Mesure de lincertitude sur une partition induite par X S X = {t 1 =[X=1],…, t I =[X=I]} de léchantillon de base t 0 Mesure de la force de la liaison entre X et Y : Gain sur lincertitude

55 55 Description de lalgorithme SIPINA La partition initiale S 0 est formée de léchantillon de base. Le paramètre est fixé de manière automatique. Recherche de la variable X j conduisant à la meilleure partition S 1, soit maximisant le gain sur lincertitude Recherche de la partition S 1

56 56 Description de lalgorithme SIPINA Éclatement : Un segment t de S i est divisé à laide dun prédicteur X en I segments t h = t [X = h]. Doù : S i+1 = S i – {t} + {t 1 }+…+{t I }. Fusion : On fusionne les deux segments t q et t r de S i. Doù : S i+1 = S i – {t q } {t r } + t q t r. Partition admissible : S i+1 est admissible si Opérations de base pour le passage de la partition S i à S i+1 Gain sur lincertitude

57 57 Exemples des opérations de base sur Titanic Éclatement : Fusion : S1S1 S3S3

58 58 Exemple sur Titanic Fusion :

59 59 Description de lalgorithme SIPINA Fusion : On fusionne les deux segments de S i conduisant à une partition S' i+1 maximisant le gain sur lincertitude I(S i,S' i+1 ). Si gain > 0, on pose S i+1 = S' i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante. Fusion-éclatement : On construit toutes les partitions obtenues par fusion de deux segments de S i. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit S i+1. et on retourne à létape Fusion. Sinon on passe à la phase suivante. Éclatement : Pour chaque segment de S i, on recherche la meilleure partition admissible obtenue par éclatement à laide dun prédicteur. On retient celle qui conduit au meilleur gain sur lincertitude. Si cette meilleure partition admissible existe, elle définit S i+1 et on repart en phase 1. Sinon le processus sarrête et S i est optimale. Passage de la partition S i à S i+1


Télécharger ppt "1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale."

Présentations similaires


Annonces Google