Méthodes de segmentation

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
Réseau ATB du CClin Paris-Nord – résultats 2011 LL, 22/11/ Réseau antibiotiques du CClin Paris-Nord : Résultats 2011 Coordination: Dr François LHÉRITEAU.
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Sirop de Liège « industriel »
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
LA RÉGRESSION MULTIPLE
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Correspondances en Onco-Urologie - Vol. III - n° 3 – juillet-août-septembre VESSIE Daprès James ND et al., N Engl J Med 2012;366:16:
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
COTE DIVOIRE IMAGES DES ATROCITES COMMISES PAR ALASSANE DRAMANE OUATARA, SORO GUILAUMES ET LEURS HOMMES 1.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
La méthodologie………………………………………………………….. p3 Les résultats
Le Concours de Conaissance III Francais I fevrier 2013.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)
Les chiffres & les nombres
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La statistique descriptive
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 10 pt 15 pt 20 pt 25 pt 5 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Les fonctions.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Leçons To attend Assister à 2. To fish.
Formation des commissaires sportifs
Nom:____________ Prénom: ___________
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
3. La structure du marché par couleur
Transcription de la présentation:

Méthodes de segmentation Michel Tenenhaus

Les données Objectif : Numérique Ordinale Réponse : Y Nominale découpé en 10 classes, puis considéré comme ordinale Prédicteurs : X1,…, Xk Numérique Ordinale Nominale Objectif : Construire un arbre de décision à l’aide des prédicteurs. Les segments terminaux sont aussi purs que possible par rapport à la réponse Y.

Les méthodes CHAID : Chi-squared Automatic Interaction Detector CART : Classification And Decision Tree SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent

Exemple : Référendum sur la constitution européenne

Élagage avec la règle de un écart-type Utilisation de CART Élagage avec la règle de un écart-type

1. Mesures de liaison entre deux variables X et Y Présentation de CHAID 1. Mesures de liaison entre deux variables X et Y

2. Description d’une étape de CHAID sur un segment 1. Phase de fusion Pour chaque prédicteur Xj : - Fusion des modalités i et i’ de Xj telles que les profils Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins. - Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner. - D’où des nouveaux prédicteurs Xj*.

Description d’une étape de CHAID sur un segment 2. Phase de division Pour chaque prédicteur Xj : Étude des tableaux croisés Xj*Y : Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni). - Sélection du prédicteur Xj* ayant la plus petite p-value et division du segment selon ce prédicteur.

Description d’une étape de CHAID sur un segment 3. Règle d’arrêt basées sur des critères Segment pur Prédicteurs constants sur le segment Taille du segment Taille des segments descendants Profondeur de l’arbre Valeur de la p-value minimum

Étude danoise sur la prospérité (Source : Croux, 2005)

Utilisation de CHAID pour Y binaire Pas de correction de Bonferroni

Étude Mali Test de l’efficacité du diffuseur d’iode RHODIFUSE Conséquences biologiques du déficit en iode : Chez l’enfant : - Retard mental - Troubles musculaire - Paralysie - Crétinisme Chez l’adulte : - Goitre - Adynamie - Hypoproductivité

Classification des goitres selon l ’OMS Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

L’expérimentation N’Djiba 17 Sirablo (Témoin) 19 6 15 4 2 Sebabougou Bamako 5 Woloni 7 37 Niger

Les données Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni 3 = N ’Djiba, 4 = Sebabougou X2 = Sexe : 1 = Homme, 2 = Femme X3 = Jour : 0 = 0, 1 = 180, 2 = 360 X4 = Iode : 1 = Absence, 2 = Présence

Les données (en effectif)

Les données (en fréquence) Fréquence de répartition des goitres Absence .76 .07 .12 .05 N'Djiba Homme 180 Présence .80 .08 .00 360 .84 .06 .10 Femme .30 .13 .32 .24 .38 .22 .29 .54 .15 .26 Sebabougou .55 .23 .81 .14 .01 .87 .18 .21 .59 .19 .09 .64 .20 .11 1 2 3 4 5 6 VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4 Sirablo Homme Absence .61 .07 .26 .06 Sirablo Homme 180 Absence .39 .20 .30 .10 Sirablo Homme 360 Absence .42 .15 .33 .09 Sirablo Femme Absence .33 .09 .30 .28 Sirablo Femme 180 Absence .23 .14 .31 .32 Sirablo Femme 360 Absence .22 .15 .34 .29 7 Woloni Homme Absence .60 .13 .21 .06 8 Woloni Homme 180 Présence .75 .15 .10 .01 9 Woloni Homme 360 Présence .84 .08 .06 .01 10 Woloni Femme Absence .34 .10 .32 .24 11 Woloni Femme 180 Présence .45 .24 .24 .08 12 Woloni Femme 360 Présence .56 .18 .21 .06 13 N'Djiba Homme 14 15 16 17 18 19 20 21 22 23 24

Évolution des niveaux moyens de goitre

Utilisation de CHAID pour Y ordinale Population des hommes

Population des femmes

École de Management Avancé

Utilisation de CHAID pour Y numérique Avec de correction de Bonferroni

Présentation de CART Exemple : Crédit On observe sur n = 323 personnes : Réponse Y : Credit ranking (good/bad) 4 prédicteurs X : - X1 = Classe d’age (young, middle, old) - X2 = Has AMEX card (yes/no) - X3 = Paid Weekly/Monthly (weekly pay/monthly salary) - X4 = Social Class (management, professional, clerical, skilled, unskilled).

Mesures de liaison entre X binaire et Y Y nominale : le critère Gini Mesure de l’impureté d’un segment : Indice de Gini Entropie quadratique où p(j|t) = fréquence de la modalité j de Y sur le segment t Résultat :

Exemple Segment très impur

Diminution de l’impureté = mesure de liaison entre X et Y Division d’un segment Segment t Effectif = nt Impureté i(t) Segment tdroit Effectif = ntdroit Impureté i(tdroit) Segment tgauche Effectif = ntgauche Impureté i(tgauche) X X1  a X = 1 Diminution de l’impureté = mesure de liaison entre X et Y Critère Gini

Diminution de l’impureté = Critère de Gini Exemple (0) (1) (2) i(0)=.49919198 i(1)=.23106222 i(2)=.26634552 Diminution de l’impureté = Critère de Gini

Y nominale : le critère Twoing Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

Y ordinale : le critère Ordered Twoing Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

Y numérique : le critère LSD (Least Square Deviation) Segment t Effectif = nt Segment tdroit Effectif = ntdroit Segment tgauche Effectif = ntgauche X X = 0 X = 1

Construction de l’arbre maximum TMax On part de l’échantillon de base t0. Pour chaque prédicteur Xj, on cherche la dichotomie des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td). Si X est nominale, la dichotomie est quelconque. Si X est ordinale, la dichotomie est {[X  i],[X > i]} On itère la procédure sur chaque segment descendant. La procédure est stoppée en fonction de règles d’arrête définies par l’utilisateur.

Exemple Crédit Règles d’arrêt : - Improvement minimum = 0.01 - Effectif segment parent minimum = 25 - Effectif segment descendant minimum = 1

Les règles d’arrêt Les prédicteurs sont constants sur le segment. Le segment est pur. Profondeur de l’arbre égale au maximum spécifié. Taille du segment < minimum spécifié (ici 20). Taille du sous-segment < minimum spécifié (ici 5). Diminution de l’impureté < minimum spécifié (ici .0001).

Risque global Chaque segment terminal est affecté à la modalité de Y la plus fréquente dans le segment. Risque = % de mal classés

Tableau de classification et risque global

Tableau des gains nt Gain = Nb de réponses cibles dans le segment t Gain (%) = % de réponses cibles de l’échantillon total dans le segment t Resp (%) = % de réponses cibles dans le segment t - Index (%) =

Élagage (Pruning) On construit l’arbre maximum Tmax. On recherche le plus petit arbre T dont le risque de mauvaise classification est peu supérieur à celui de l’arbre complet.

Mesure de coût-complexité C(T)

L’algorithme d’élagage de CART correspondant à une suite croissante de pénalités de complexité k :

Choix de l’arbre à retenir Par défaut  = 1

Exemple : Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) TEMPERATURE : Somme des températures moyennes journalières SOLEIL : Durée d’insolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

Les données

Arbre de taille maximale T1

T2 T3 T4 T5

Présentation de SIPINA Exemple : Titanic

Mesure de liaison entre X et Y nominale Mesure de l’impureté (entropie, incertitude) d’un segment t : Indice de Gini corrigée Indépendant de la taille du segment Dans CART : Dans SIPINA : Diminue lorsque la taille du segment augmente Le paramètre  est fixé automatiquement par SIPINA.

Le graphe latticiel de SIPINA Survie au naufrage du Titanic

Mesure de liaison entre X et Y nominale Mesure de l’incertitude sur une partition S = {t1,…, tK} de l’échantillon de base t0 Mesure de l’incertitude sur une partition induite par X SX = {t1=[X=1],…, tI=[X=I]} de l’échantillon de base t0 Mesure de la force de la liaison entre X et Y : Gain sur l’incertitude

Description de l’algorithme SIPINA Recherche de la partition S1 La partition initiale S0 est formée de l’échantillon de base. Le paramètre  est fixé de manière automatique. Recherche de la variable Xj conduisant à la meilleure partition S1, soit maximisant le gain sur l’incertitude

Description de l’algorithme SIPINA Opérations de base pour le passage de la partition Si à Si+1 Éclatement : Un segment t de Si est divisé à l’aide d’un prédicteur X en I segments th = t[X = h]. D’où : Si+1 = Si – {t} + {t1}+…+{tI}. Fusion : On fusionne les deux segments tq et tr de Si. D’où : Si+1 = Si – {tq}{tr } + tqtr . Partition admissible : Si+1 est admissible si Gain sur l’incertitude

Exemples des opérations de base sur Titanic Éclatement : S1 Fusion : S3

Exemple sur Titanic Fusion :

Description de l’algorithme SIPINA Passage de la partition Si à Si+1 Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1 maximisant le gain sur l’incertitude I(Si,S'i+1). Si gain > 0, on pose Si+1= S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante. Fusion-éclatement : On construit toutes les partitions obtenues par fusion de deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante. Éclatement : Pour chaque segment de Si, on recherche la meilleure partition admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si est optimale.