Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011.

Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011

Interprétation R empirique S géométrique Méthodes danalyse Analyse multidimensionnelle des données : de quoi sagit-il ?

PAOPAAVIOVIAPOTLECRAIPLP AGRI16711632341866 SAAG1622141124012415 PRIN119669563951341 CSUP8711631112731839 CMOY103568773241130 EMPL111472663461028 OUVR13037652437716 INAC1387117745381220 Consommations annuelles de 8 types de denrées alimentaires pour 8 catégories socio-professionnelles Source : Saporta, 1990 Exemples de données relevant de lanalyse multidimensionnelle

Variables : PAOPain ordinaire PAAAutre pain VIOVin ordinaire VIAAutre vin POTPommes de terre LECLégumes secs RAIRaisin de table PLPPlats préparés Observations : AGRIExploitants agricoles SAAGSalariés agricoles PRINProfessions indépendantes CSUPCadres supérieurs CMOYCadres moyens EMPLEmployés OUVROuvriers INACInactifs

DroitSciencesMédecineIUT Exp. agri.80996558 Patron16813720862 Cadre sup.47040087679 Employé14513313554 Ouvrier166193127129 Tableau de contingence : répartition détudiants en 1975-1976 Cité par Saporta (1990) Exemples de données relevant de lanalyse multidimensionnelle

Questions à réponses fermées : sexe (2 modalités), niveau de revenu (2 modalités), préférence (3 modalités)

Méthodes danalyse de données Fondées sur un modèle linéaire Exploratoires, descriptives, non supervisées Statistiques élémentaires Analyse en composantes principales Méthodes de classification Prédictives, supervisées Variable dépendante quantitative Variable dépendante qualitative Régression linéaire multiple Régression en composantes principales Partial Least Squares Régression Logistique Analyse discriminante Non linéairesNon supervisées Réseau neuromimétique de Kohonen Prédictives Supervisées Variable dépendante quantitative ou qualitative Réseau neuromimétique multicouche

Analyse en composantes principales Données : Elément de cette matrice : x ij n p Variables Individu ou observation

Principaux résultats dune ACP Coordonnées factorielles ou scores n p Variables n p k Valeurs propres k Vecteurs propres (transposés) k Individus

Principe de la méthode Calcul des distances entre individus Recherche des directions de plus grande dispersion du nuage de points : axes factoriels Plus grande dispersion : moindre déformation Meilleur respect des distances entre individus Maximisation de linertie du nuage projeté On procède axe par axe, mais les propriétés restent vraies pour le premier plan factoriel, le premier espace factoriel de dimension 3, etc

M P O c1 c2 Cosinus carrés Qualité : vecteur de lobservation : vecteur de la projection sur le plan factoriel : projection sur laxe 1 : projection sur laxe 2

QLTCoord. 1Cos2CtrCoord. 2Cos2Ctr AGRI 0,8891,350,88422,89-0,260,0050,86 SAAG 0,9131,410,89824,97-0,480,0142,84 PRIN 0,576-0,590,5754,360,060,0010,05 CSUP 0,943-1,750,94238,260,190,0020,44 CMOY 0,940-0,690,7535,94-0,910,18710,43 EMPL 0,858-0,320,4281,31-0,860,4309,29 OUVR 0,3760,360,3611,63-0,200,0150,48 INAC 0,9870,230,0560,642,460,93275,61 100 Contributions des individus

Analyse factorielle des correspondances

DroitSciencesMédecineIUT Exp. agri.80996558 Patron16813720862 Cadre sup.47040087679 Employé14513313554 Ouvrier166193127129 Tableau de contingence : répartition détudiants en 1975-1976 Cité par Saporta (1990)

Effectifs observés O DroitSciencesMédecineIUT Exp. agri.80996558 Patron16813720862 Cadre sup.47040087679 Employé14513313554 Ouvrier166193127129 Test du khi-2 sur un tableau de contingence Modalités lignes : variable X Modalités colonnes : variable Y Hypothèses du test : H 0 : Les variables X et Y sont indépendantes H 1 : Les variables X et Y sont dépendantes

Effectifs observés O ij DroitScienc es MédecineIUTTotal Exp. agri.80996558302 Patron16813720862575 Cadre sup.470400876791825 Employé14513313554467 Ouvrier166193127129615 Total102996214113823784 Construction de la statistique de test Effectifs théoriques T ij DroitSciencesMédecineIUT Exp. agri.82,1276,78112,6130,49 Patron156,36146,18214,4158,05 Cadre sup.496,28463,97680,52184,24 Employé126,99118,72174,1447,14 Ouvrier167,24156,35229,3262,09

Contributions au khi-2 DroitSciencesMédecineIUT Exp. agri.0,056,4320,1324,83 Patron0,870,580,190,27 Cadre sup.1,398,8256,1560,11 Employé2,551,728,801,00 Ouvrier0,018,5945,6672,12 Contributions au khi-2 : (O - T) 2 /T Calcul du khi-2 Nombre de degrés de liberté :

Loi du khi-2 H 0 retenue H 0 rejetée ; H 1 retenue 5% 95%

: on conclut donc sur H 1 Les deux variables étudiées dépendent lune de lautre

Effectifs et fréquences marginaux DroitScienc es Médeci ne IUTEffect ifs margi naux lignes Fréquen ce Exp. agri.809965583020,0798 Patron168137208625750,1520 Cadre sup.4704008767918250,4823 Employé145133135544670,1234 Ouvrier1661931271296150,1625 Effectifs marginaux colonnes 102996214113823784 Fréquence0,27190,25420,37290,1010

Fréquences théoriques dans l'hypothèse d'indépendance X0,27190,25420,37290,1010 0,07980,02170,02030,02980,0081 0,15200,04130,03860,05670,0153 0,4823=0,13120,12260,17980,0487 0,12340,03360,03140,04600,0125 0,16250,04420,04130,06060,0164

Fréquences théoriques dans l'hypothèse d'indépendance

Effectifs théoriques dans le cas d'indépendance 0,02170,02030,02980,008182,1276,78112,6130,49 0,04130,03860,05670,0153156,36146,18214,4158,05 0,13120,12260,17980,0487496,28463,97680,52184,24 0,03360,03140,04600,0125126,99118,72174,1447,14 0,04420,04130,06060,0164 x 3784 =167,24156,35229,3262,09

Effectifs observés O DroitSciencesMédecineIUT Exp. agri.80996558 Patron16813720862 Cadre sup.47040087679 Employé14513313554 Ouvrier166193127129 Effectifs théoriques T DroitSciencesMédecineIUT Exp. agri.82,1276,78112,6130,49 Patron156,36146,18214,4158,05 Cadre sup.496,28463,97680,52184,24 Employé126,99118,72174,1447,14 Ouvrier167,24156,35229,3262,09 Ecarts à l'indépendance : E = O - T DroitSciencesMédecineIUT Exp. agri.-2,1222,22-47,6127,51 Patron11,64-9,18-6,413,95 Cadre sup.-26,28-63,97195,48-105,24 Employé18,0114,28-39,146,86 Ouvrier-1,2436,65-102,3266,91

Effectifs théoriques T DroitSciencesMédecineIUT Exp. agri.82,1276,78112,6130,49 Patron156,36146,18214,4158,05 Cadre sup.496,28463,97680,52184,24 Employé126,99118,72174,1447,14 Ouvrier167,24156,35229,3262,09 Ecarts à l'indépendance : E = O - T DroitSciencesMédecineIUT Exp. agri.-2,1222,22-47,6127,51 Patron11,64-9,18-6,413,95 Cadre sup.-26,28-63,97195,48-105,24 Employé18,0114,28-39,146,86 Ouvrier-1,2436,65-102,3266,91 Taux de liaison : (O - T)/T : valeurs dans lintervalle [-1, + [ -0,42 : leffectif observé est inférieur de 42% à leffectif théorique 1,08 : leffectif observé est supérieur de 108% à leffectif théorique DroitSciencesMédecineIUT Exp. agri.-0,030,29-0,420,90 Patron0,07-0,06-0,030,07 Cadre sup. -0,05-0,140,29-0,57 Employé0,140,12-0,220,15 Ouvrier-0,010,23-0,451,08

Les questions auxquelles on cherche à répondre : - Quelles sont les modalités lignes qui sont « proches » du profil ligne moyen ? Quelles sont celles qui sen écartent le plus ? - Quelles sont les modalités colonnes qui sont « proches » du profil colonne moyen ? Quelles sont celles qui sen écartent le plus ? - Quelles sont les modalités lignes et les modalités colonnes qui « sattirent » ? Quelles sont celles qui « se repoussent » ? Analyse des correspondances

Notations : Soit un tableau de contingence comportant p lignes et q colonnes. - L'élément du tableau situé à l'intersection de la ligne i et de la colonne j est noté n ij. - La somme des éléments d'une ligne est notée - La somme des éléments d'une colonne est notée

Distance (du Phi-2) entre deux profils lignes : Exemple : DroitSciencesMédecineIUTEffectifs marginaux lignes Exp. agri.80996558302 Patron16813720862575 Cadre sup.470400876791825 Employé14513313554467 Ouvrier166193127129615 Effectifs marginaux colonnes 102996214113823784

Distance (du Phi-2) entre deux profils colonnes : Exemple : distance entre les colonnes 1 et 2 DroitSciencesMédecineIUTEffectifs marginaux lignes Exp. agri.80996558302 Patron16813720862575 Cadre sup.470400876791825 Employé14513313554467 Ouvrier166193127129615 Effectifs marginaux colonnes 102996214113823784

- Si on regroupe deux modalités lignes, les distances entre les profils-colonnes, ou entre les autres profils-lignes restent inchangées. - Si on regroupe deux modalités colonnes, les distances entre les profils-lignes, ou entre les autres profils-colonnes restent inchangées. Propriété d'équivalence distributionnelle :

Principaux résultats dune AFC Coordonnées factorielles des lignes p q Modalités (individus) colonnes p q k Valeurs propres k Coordonnées factorielles des colonnes k Modalités (individus) lignes

Valeurs propres ValProp.%age inertie %age cumulé Chi² 10,08297,35 311,78 20,0022,0199,366,45 30,0010,64100,002,04 Inertie totale du nuage de points :

Résultats relatifs aux lignes Coord. Dim.1 Coord. Dim.2 MasseQualitéInertie Relative Inertie Dim.1 Cosinus² Dim.1 Inertie Dim.2 Cosinus² Dim.2 Exp. Agri.0,4100,0260,0800,9910,1610,1630,9870,0320,004 Patrons0,020-0,0270,1520,3360,0060,0010,1230,0630,213 Cadres Sup.-0,2630,0160,4820,9990,3950,4040,9960,0690,004 Employés0,142-0,0970,1230,9850,0440,0300,6700,6860,315 Ouvriers0,4510,0400,1631,0000,3950,4020,9920,1500,008

Résultats relatifs aux colonnes Coord. Dim.1 Coord. Dim.2 MasseQualitéInertie Relative Inertie Dim.1 Cosinus² Dim.1 Inertie Dim.2 Cosinus² Dim.2 Droit0,028-0,0610,2720,9420,0150,0030,1650,5880,777 Sciences0,160-0,0030,2540,9480,0820,0790,9480,0010,000 Médecine-0,3030,0300,3731,0000,4090,4160,9900,1930,009 IUT0,6400,0610,1010,9980,4940,5020,9890,2190,009

Analyse des correspondances multiples

SexeRevenuPreference s1FMA s2FMA s3FEB s4FEC s5FEC s6HEC s7HEB s8HMB s9HMB s10HMA Tableau protocole : 3 questions, 7 modalités

Sexe: F Sexe: H Rev: M Rev:EPref:APref:BPref:C s11010100 s21010100 s31001010 s41001001 s51001001 s60101001 s70101010 s80110010 s90110010 s100110100 Tableau disjonctif complet

La disjonction complète

SexeRevenuPreferenceEffectif FMA2 FEB1 FEC2 HEC1 HEB1 HMB2 HMA1 Tableau deffectifs ou tableau des patrons de réponses

Sexe: F Sexe: H Rev: M Rev:EPref:APref:BPref:C FMA2020200 FEB1001010 FEC2002002 HEC0101001 HEB0101010 HMB0220020 HMA0110100 Tableau disjonctif des patrons de réponses

FHMEABC Sexe:F5023212 Sexe:H0532131 Revenu:M2350320 Revenu:E3205023 Preference:A2130300 Preference:B1322040 Preference:C2103003 Tableau de Burt

MATRICE DE BURT t X X t XX Tous les tris simples Tous les tris croisés Si X est une matrice disjonctive complète La Matrice de BURT est t XX Le tableau de BURT

Analyse des correspondances multiples Effectuer l'analyse des correspondances multiples, c'est effectuer l'analyse factorielle des correspondances du tableau disjonctif complet, muni des relations K (modalités emboîtées dans les questions) et I > (individus emboîtés dans les modalités de chaque question). Rouanet et Le Roux Propriété de lanalyse des correspondances (simple) Lorsquil y a deux variables qualitatives réunies dans un tableau disjonctif X = [X 1 |X 2 ], lanalyse factorielle des correspondances du tableau disjonctif est équivalente à lanalyse des correspondances du tableau de contingence N = T X 1 X 2

SexeRevenuPreference s1FMA s2FMA s3FEB s4FEC s5FEC s6HEC s7HEB s8HMB s9HMB s10HMA Résultats produits par lACM sur le tableau suivant :

Valeurs Propres et Inertie de toutes les Dimensions (Protocole dans Mini- ACM.stw) Table d'Entrée (Lignes x Colonnes) : 7 x 7 (Table de Burt) Inertie Totale = 1,3333 ValSing.ValProp.%age Chi² 10,7764260,60283745,2127545,212825,37943 20,6809610,46370834,7781079,990919,52211 30,4505090,20295915,2219095,21288,54456 40,2526460,0638304,78725100,00002,68724 Valeurs propres Valeurs propres : décroissance lente -> taux dinertie modifiés de Benzécri

ValProp. 1/Q(VP-1/Q)^2%age 10,6028 0,33330,072681,04% 20,4637 0,33330,017018,96% 30,2030 40,0638 Somme 1,3333 0,089630 Calcul des taux modifiés :

Coordonnées, inertie et cosinus carrés

Valeur du Phi-2 : Sur notre exemple : Propriétés algébriques et géométriques de lACM

Contributions absolues et relatives des modalités colonnes à linertie : Sur notre exemple : Contribution dautant plus forte que la modalité est plus rare

Inerties absolue et relative dune question : K q : nombre de modalités de la question q

Inerties absolue et relative dune question : Sur lexemple : Linertie dune question est dautant plus forte que la question comporte un plus grand nombre de modalités.

Distances entre profils lignes : Somme étendue à toutes les modalités faisant partie de l'un des deux patrons, sans faire partie des deux patrons Exemple : Deux patrons sont dautant plus éloignés quils diffèrent sur un plus grand nombre de modalités et que celles-ci sont plus rares.

Distance dune ligne au profil moyen Somme étendue à toutes les modalités faisant partie du patron i Exemple : Un patron est dautant plus loin de lorigine quil comporte des modalités rares

Distances entre profils colonnes : Exemple : Deux modalités sont dautant plus éloignées quelles sont de fréquences faibles et rarement rencontrées simultanément

Distance dune colonne au profil moyen : Exemple : Une modalité est dautant plus loin de O que sa fréquence est faible

1) Indépendance des modalités M k et M k' : Autrement dit, dans l'espace multidimensionnel, le triangle OM k M k' est alors un triangle rectangle en O. 2) Si les modalités M k et M k' s'attirent, l'angle est un angle aigu. 3) Si les modalités M k et M k' se repoussent, l'angle est un angle obtus.

4) Si l'effectif conjoint n kk' des modalités M k et M k' est nul (en particulier si M k et M k' sont deux modalités d'une même question) :

Deux questions à deux modalités chacune. Cas 1 : les effectifs des modalités sont donnés par : A1A2Total B150 100 B250 100 Total100 200 Prévoir la forme de la représentation par rapport au premier plan factoriel.

Réponse :

Cas 2 : les effectifs des modalités sont donnés par : A1A2Total B18020100 B28020100 Total16040200

Méthodes de classification

Création aléatoire de centres de gravité. Au départ Etape 1 Chaque observation est classée en fonction de sa proximité aux centres de gravités. Méthodes de type « centres mobiles »

Chaque centre de gravité est déplacé de manière à être au centre du groupe correspondant On répète létape 1 avec les nouveaux centres de gravité. Etape 2 Etape 1

76 Etape 2 De nouveau, chaque centre de gravité est recalculé. On continue jusquà ce que les centres de gravité ne bougent plus.

Exemple : typicalité des odeurs dans 3 cultures : FR, US, VN Extrait des données

Exemple : typicalité des odeurs dans 3 cultures : FR, US, VN Classe 1

Les quatre étapes de la méthode : -Choix des variables représentant les individus - Choix d'un indice de dissimilarité -Choix d'un indice d'agrégation -Algorithme de classification et résultat produit Classification Ascendante Hiérarchique

- Distance Euclidienne. - Distance Euclidienne au carré. - Distance du City-block (Manhattan) : - Distance de Tchebychev : - Distance à la puissance. - Percent disagreement. - 1- r de Pearson : Quelques distances ou indices de dissimilarité

- Diamètre ou « complete linkage » : - Moyenne non pondérée des groupes associés:- Moyenne pondérée des groupes associés : - Méthode de Ward (méthode du moment d'ordre 2). Si une classe M est obtenue en regroupant les classes K et L, sa distance à la classe J est donnée par : - Centroïde pondéré des groupes associés (médiane). - Centroïde non pondéré des groupes associés. Quelques indices dagrégation

L'algorithme de classification Étape 1 : n éléments à classer ; Étape 2 : Construction de la matrice de distances entre les n éléments et recherche les deux plus proches, que lon agrège en un nouvel élément. On obtient une première partition à n-1 classes; Étape 3 : Construction dune nouvelle matrice des distances qui résultent de lagrégation, en calculant les distances entre le nouvel élément et les éléments restants (les autres distances sont inchangées). Recherche des deux éléments les plus proches, que lon agrège. On obtient une deuxième partition avec n-2 classes et qui englobe la première; … Étape m : on calcule les nouvelles distances, et lon réitère le processus jusquà navoir plus quun seul élément regroupant tous les objets et qui constitue la dernière partition.

Distance Euclidienne au carré et méthode de Ward Inertie totale = Inertie « intra » + Inertie « inter » A chaque étape, on réunit les deux classes de façon à augmenter le moins possible linertie « intra »

Résultat obtenu : Une hiérarchie de classes telles que : - toute classe est non vide - tout individu appartient à une (et même plusieurs) classes - deux classes distinctes sont disjointes, ou vérifient une relation d'inclusion (l'une d'elles est incluse dans l'autre) - toute classe est la réunion des classes qui sont incluses dans elle. Ce résultat est fréquemment représenté à laide dun dendrogramme

Exemples de dendrogrammes

Régression linéaire Multiple

Echantillon de n individus statistiques : - p variables numériques X1, X2,..., Xp (variables indépendantes ou explicatives) - une variable numérique Y (variable dépendante, ou "à expliquer"). Exemple (30 comtés américains) : VARI_POP : Variation de la Population (1960-1970) N_AGRIC : Nb. de personnes travaillant dans le secteur primaire TX_IMPOS : Taux d'imposition des propriétés PT_PHONE : Pourcentage d'installations téléphoniques PT_RURAL : Pourcentage de la population vivant en milieu rural AGE : Age médian PT_PAUVR : Pourcentage de familles en dessous du seuil de pauvreté

VARI_POPN_AGRICPT_PAUVRTX_IMPO S PT_PHONEPT_RURALAGE VARI_POP1,000,04-0,650,130,38-0,02-0,15 N_AGRIC0,041,00-0,170,100,36-0,66-0,36 PT_PAUVR-0,65-0,171,000,01-0,730,510,02 TX_IMPOS0,130,100,011,00-0,040,02-0,05 PT_PHONE0,380,36-0,73-0,041,00-0,75-0,08 PT_RURAL-0,02-0,660,510,02-0,751,000,31 AGE-0,15-0,360,02-0,05-0,080,311,00 Matrice des corrélations

Le modèle linéaire : On cherche à exprimer Y sous la forme : où E (erreur commise en remplaçant Y par la valeur estimée) est nulle en moyenne, et de variance minimale.

Les coefficients b i (1ip) sont les solutions du système déquations : Solution au problème : et

Sur lexemple proposé : PT_PAUVR = 31,2660 - 0,3923 VARI_POP + 0,0008 N_AGRIC+ 1,2301 TX_IMPOS - 0,0832 PT_PHONE + 0,1655 PT_RURAL - 0,4193 AGE Coefficients standardisés : VARI_POPN_AGRICTX_IMPOSPT_PHONEPT_RURALAGE -0,6307880,2383140,038799-0,1296270,618746-0,188205

PT_PAUV R -95,00%+95,00% (param.)Err-TypetpLim.Conf Ord.Orig.31,266013,26512,35700,02733,825158,7070 VARI_POP-0,39230,0805-4,87420,0001-0,5589-0,2258 N_AGRIC0,00080,00041,69030,1045-0,00020,0017 TX_IMPOS1,23013,18990,38560,7033-5,36867,8288 PT_PHONE-0,08320,1306-0,63760,5300-0,35330,1868 PT_RURAL0,16550,06182,67660,01350,03760,2935 AGE-0,41930,2554-1,64150,1143-0,94760,1091 Test des coefficients de la régression

X1X1 X2X2 Y Expliquer la variabilité de Y à partir de celle des X j : Combinaison linéaire des X j qui reproduit « au mieux » la variabilité des individus selon Y : combinaison linéaire la plus corrélée avec Y. Solution : combinaison linéaire des X j qui fait avec Y un angle minimum. Approche factorielle de la régression

SommesdlMoyennesFniveau p Carrés Régress.932,0656155,344113,449090,000002 Résidus265,6622311,5505 Total1197,727 Test de la régression : Variance de Y = Variance expliquée + Variance résiduelle Analyse de variance Coefficient de détermination :

1) Régression de la VD sur la VI : VD = b0 + b1 VI Coefficient de régression standardisé : 1 2) Régression de la médiation sur la VI : M=b0 + b1 VI Coefficient de régression standardisé : 1 3) Régression multiple de la VD sur VI et M : VD = b0 + b1 VI + b2 M Coefficients de régression standardisés : 1, 2 VI VD 1 VI VD M 1 1 2 Analyse de médiation

Interprétation : Si b1 est nettement plus proche de 0 que b1, en particulier si b1 nest pas significativement différent de 0 alors que b1 létait, il y a médiation (partielle ou totale)

1) Régression de la VD sur la VI : SDNA = b0 + b1 IDENT Coefficient de régression standardisé : 1 2) Régression de la médiation sur la VI : DEROG=b0 + b1 IDENT Coefficient de régression standardisé : 1 3) Régression multiple de la VD sur VI et M : SDNA = b0 + b1 IDENT + b2 DEROG Coefficients de régression standardisés : 1, 2 IDENT SDNA 1 =0,24* IDENT SDNA DEROG 1=0,14 (NS) 1=0,33** 2=0,29*

1) Régression de la VD sur la VI : SDNA = b0 + b1 IDENT Coefficient de régression standardisé : 1 2) Régression de la médiation sur la VI : DEROG=b0 + b1 IDENT Coefficient de régression standardisé : 1 3) Régression multiple de la VD sur VI et M : SDNA = b0 + b1 IDENT + b2 DEROG Coefficients de régression standardisés : 1, 2 IDENT SDNA 1 =0,24* IDENT SDNA FAVO 1=0,23 * 1=0,42** 2=0,07 (NS) Pas deffet de médiation

Régression Logistique

Sur un échantillon de n individus statistiques, on a observé : - p variables numériques ou dichotomiques X1, X2,..., Xp (variables indépendantes ou explicatives) - une variable dichotomique Y (variable dépendante, ou "à expliquer"). Exemple : Echantillon de 30 sujets pour lesquels on a relevé : - d'une part le niveau des revenus (variable numérique) - d'autre part la possession ou non d'un nouvel équipement électro- ménager.

Revenu10851304133114341541161217291759 Possède00000000 Revenu17981997223423462436275328133204 Possède11111111 Revenu1863212123952681339042371241 Possède0000001 Revenu3564359237623799403741684484 Possède1111111 Exemple

Nuage de points

Rapport de chances et transformation logit Rapport de chances ou cote : Transformation logit

Aides à linterprétation : test du modèle, odds-ratio ou rapport de cotes On utilise aussi fréquemment lodds-ratio ou rapport de cotes : La contribution de la variable X à la variation de Y est calculée par : L'odds-ratio correspondant au coefficient 0,001151 est : e 0,001151 =1,0012. Autrement dit, une augmentation du revenu de 1 unité se traduit par une multiplication de la probabilité par 1,0012. Intervalle de confiance pour OR : [1,000173, 1,002139] : significatif puisque lintervalle ne contient pas la valeur 1. Une statistique qui suit une loi du khi-2 permet de tester la qualité du modèle. Sur notre exemple : Khi-2 = 7,63, dl=1, p=0,006

L'odds-ratio est défini comme le rapport de deux rapports de chances. Ainsi, l'odds-ratio relatif à l'étendue des valeurs observées est défini de la manière suivante : - On calcule le rapport de chances relatif à la plus grande valeur observée du revenu : Pour X = 4484, P1=0,919325 et - On calcule le rapport de chances relatif à la plus petite valeur observée du revenu : Pour X = 1085, P2=0,185658 et - L'odds-ratio est obtenu comme quotient des deux rapports précédents :

Analyse discriminante

On dispose de n observations sur lesquelles on a relevé : -les valeurs d'une variable catégorielle comportant quelques modalités (2, 3,...) : c'est le groupe ou diagnostic. - les valeurs de p variables numériques : X1, X2,..., Xp : ce sont les prédicteurs. Position du problème On se pose des questions telles que : - la valeur de Y est-elle liée aux valeurs de X1, X2,..., Xp ? - Etant donné d'autres observations, pour lesquelles X1, X2,..., Xp sont connues, mais Y ne l'est pas, est-il possible de prévoir Y (le groupe), et avec quel degré de certitude ?

Mini-exemple : deux variables sur 40 individus répartis en deux groupes

Une variable abstraite, combinaison linéaire de X1 et X2 permet de séparer les deux groupes : f(X1, X2)=X2+X1-19

Considérer une variable abstraite, combinaison linéaire de X1 et X2 définie de façon que : - la variance (dispersion) intra-groupes soit la plus petite possible - la variance inter-groupes (variance calculée à partir des points moyens pondérés des groupes) soit la plus grande possible.

Les dispersions des valeurs peuvent être différentes selon les groupes. Pour en tenir compte : distance dun point à un centre de groupe : distance de Mahalanobis.

Matrice de classification ou Matrice de confusion. Tableau croisant la classification observée avec la classification calculée par la méthode.

Les Iris de Fisher

Analyse et régression PLS

PLS : partial least squares On a observé sur un échantillon de n individus statistiques : - d'une part, p variables indépendantes ou explicatives : X1, X2,..., Xp - d'autre part, q variables dépendantes, ou "à expliquer" : Y1, Y2,..., Yq. On souhaite établir entre les variables indépendantes et les variables explicatives q relations linéaires du type :

Un outil possible : la régression linéaire multiple, mais : -Méthode très sensible aux colinéarités entre variables prédictives - Inutilisable si le nombre dobservations est inférieur au nombre de prédicteurs Une possibilité : faire dabord une ACP sur les prédicteurs, puis une régression linéaire des variables dépendantes sur les variables principales : résultat peu lisible Idée de la régression PLS : à partir des prédicteurs, on définit des composantes ou variables latentes, en tenant compte des variables à expliquer

Mini-exemple : 1 VD, 4 VI et 3 observations YX1X1 X2X2 X3X3 X4X4 s1128276 s21021257 s3515655 Variables centrées réduites : YcZ1Z1 Z2Z2 Z3Z3 Z4Z4 0,8321-0,0512-0,92721,15470,0000 0,2774-0,97341,0596-0,57741,0000 -1,10941,0246-0,1325-0,5774-1,0000

Première étape : Première variable latente P1 : r(Y, Xi)Poids Wi X1X1 -0,7247-0,582 X2X2 -0,1653-0,133 X3X3 0,72060,578 X4X4 0,69340,556 Somme carrés1,5531 Racine carrée1,246 P1 = - 0,582 * Z1 - 0,133 * Z2 + 0,578 * Z3+ 0,556 * Z4.

P1P1 s10,8206 s20,6481 s3-1,4687 Valeurs de P1 sur les 3 observations Régression linéaire de Y sur P1 Y = 2,7640 P1 +9 Y, Y estimé et résidus : YY estiméRésidus s1 1211,26820,7318 s21010,7915-0,7915 s354,94040,0596 Coefficient de détermination : R2(Y, Y estimé) = 0,955 Deuxième étape : on recommence à partir des résidus de Y; nouvelle variable latente P2, etc

Analyse de segmentation

- Echantillon de n individus statistiques - une variable dépendante numérique ou qualitative Y - plusieurs variables numériques ou catégorielles X1, X2,..., Xp. Expliquer la variable Y à laide dune ou plusieurs variables quantitatives ou qualitatives. Créer des groupes dindividus ou dobservations homogènes. Résultat est fourni sous la forme d'un arbre de décision binaire du type suivant :

Rappel : théorème de Huygens L'inertie totale est la somme des inerties intra-groupes et de l'inertie des points moyens des groupes, pondérés par l'effectif des groupes.

Exemple : 4 observations suivantes, réparties en deux groupes A et B : GroupeABAB Y1234

1) Au départ : un seul segment contenant l'ensemble des individus. 2) Examen de toutes les variables explicatives et de toutes les divisions possibles (de la forme Xj A si Xj est numérique, regroupement des modalités en deux sous- ensembles si Xj est catégorielle). Pour chaque division, l'inertie inter-groupes est calculée. 3) La division choisie est celle qui maximise l'inertie inter- groupes. 4) On recommence la procédure dans chacun des deux groupes ainsi définis. Algorithme de segmentation

Critères d'arrêt : On peut utiliser comme critères darrêt de lalgorithme de segmentation : - La taille des groupes (classes) à découper - Le rapport entre l'inertie intra et la variance totale - Des tests statistiques (tests de Student de comparaison de moyennes, tests du Khi deux)

Variable names in order from left to right: EDUCATION: Number of years of education. SOUTH: Indicator variable for Southern Region (1=Person lives in South, 0=Person lives elsewhere). SEX: Indicator variable for sex (1=Female, 0=Male). EXPERIENCE: Number of years of work experience. UNION: Indicator variable for union membership (1=Union member, 0=Not union member). WAGE: Wage (dollars per hour). AGE: Age (years). RACE: Race (1=Other, 2=Hispanic, 3=White). OCCUPATION: Occupational category (1=Management, 2=Sales, 3=Clerical, 4=Service, 5=Professional, 6=Other). SECTOR: Sector (0=Other, 1=Manufacturing, 2=Construction). MARR: Marital Status (0=Unmarried, 1=Married) Determinants of Wages from the 1985 Current Population Survey

Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011.

Présentations similaires

Présentation au sujet: "Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011.

Présentations similaires

Présentation au sujet: "Analyse multidimensionnelle des données F.-G. Carpentier 2010/2011."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back