La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier.

Présentations similaires


Présentation au sujet: "Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier."— Transcription de la présentation:

1 Méthodes Statistiques Michel Tenenhaus

2 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier une réalité complexe à laide de graphiques. zSimplifier une réalité complexe à laide de modèles mathématiques. zOutils de manipulation de grosses bases de données pour identifier et segmenter la clientèle dune entreprise et orienter ses choix stratégiques (data mining).

3 Décrire ?

4 4 Exemple 1 Enquête FT sur les MBA 2001 z100 MBA z12 caractéristiques de lécole : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating z2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

5 Extrait des données de lenquête FT sur les MBA 2001

6 Analyse factorielle (ACP) des MBA 1 2 0 Harvard HEC * * Warwick * X 1 = % Women Faculty X 2 = % Women Student X 14 = Salary increase.

7 Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

8 Analyse Factorielle des MBA Carte des caractéristiques utilisées pour lanalyse Les variables fléchées en pointillés sont illustratives.

9 Conclusion : HEC troisième MBA non anglo-saxon

10 Exemple 2 : les races canines

11 Le tableau disjonctif complet x ijl = 1 si lindividu i possède la modalité l de la variable j = 0 sinon

12 Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant

13 Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet) C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ bull-dog 5 òûòø teckel 26 ò÷ ùòø chihuahua 8 òûò÷ ùòø pékinois 22 ò÷ ó ùòòòòòòòòòòòòòø caniche 7 òòòòò÷ ó ó cocker 9 òòòûòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø fox-terrier 17 òòò÷ ó ó epagneul breton 14 òûòòòø ó ó labrador 19 ò÷ ùòòòòòòòòòòòòòòò÷ ó boxer 4 òûòòò÷ ó dalmatien 11 ò÷ ó dogue allemand 13 òûòòòø ó mastiff 21 ò÷ ùòòòòòòòòòòòòòòòø ó saint-bernard 24 òûòø ó ó ó terre-neuve 27 ò÷ ùò÷ ó ó bull-mastiff 6 òòò÷ ó ó berger allemand 3 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ dobermann 12 ò÷ ùòòòòòòòòòø ó beauceron 1 òòò÷ ó ó pointer 23 òø ó ó setter 25 òôòø ùòòòòòòò÷ levrier 20 ò÷ ùòø ó epagneul français 15 òòò÷ ùòòòòòø ó colley 10 òòòòò÷ ùò÷ fox-hound 16 òûòòòø ó grd bleu de gasc 18 ò÷ ùòòòòò÷ basset 2 òòòòò÷

14 Visualisation de la classification des chiens en 4 groupes Facteur 1 420-2-4 Facteur 2 4 3 2 1 0 -2 -3 -4 terre-neuve teckel setter saint-bernard pointer pékinois mastiff levrier labrador grd bleu de gasc fox-terrier fox-hound epagneul français epagneul breton dogue allemand dobermann dalmatien colley cocker chihuahua caniche bull-mastiff bull-dog boxer berger allemand basset beaucero n

15 Exemple 3 : Les signes de ponctuation chez Zola

16 Analyse Factorielle des Correspondances

17 Exemple 4 : Analyse factorielle dun tableau de distances Distances entre 10 villes européennes (en Miles)

18 Utilisation de ALSCAL Carte de lEurope

19 Qualité du résultat

20 Exemple 5 : Analyse des proximités Les données Un tableau de similarités s ij entre n objets Problème On recherche n points {x 1,…,x n } dans un plan tels que les contraintes soient respectées au mieux.

21 % de Confusion entre Signal 1 en ligne et Signal 2 en colonne Exemple : Les codes Morse

22 Utilisation de M-D-SCAL

23 Qualité de la représentation graphique Soit n points {x 1,…,x n } dans un plan. Définition des disparités : M-D-SCAL recherche les points {x 1,…,x n } minimisant le STRESS

24 Exemple 6 : Positionnement des cigarettes - Chaque personne interrogée construit sa typologie des 56 marques. - % de personnes mettant les marques i et j dans le même groupe.

25 Groupe 1 Groupe 5 Groupe 3 Groupe 4.1 Groupe 4.2 Groupe 4 Groupe 2

26 26 Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5

27 27 Axe 2 Groupe 1 Groupe 3 Groupe 4 Groupe 2 Groupe 5

28 Exemple 7 : Jus dorange X 1 = Instrumental, X 2 = Sensoriel, X = [X 1, X 2 ], Y = Hédonique

29 Biplot des caractéristiques des jus doranges

30 Axe 1 6420-2-4 Axe 2 3 2 1 0 -2 -3 -4 -5 Juge 1 Pampryl réfrigéré Tropicana réfrigéré Joker ambiant Pampryl ambiant Fruivita réfrigéré Tropicana ambiant PREFMAP : Modèle vectoriel Max Cor(Notes observés, Projections)

31

32 Expliquer ?

33 Salaire des professeurs du Groupe HEC

34 Salaire en fonction de lage

35 Pédagogie et HEC

36 Recherche et HEC

37 Modèle de salaire des professeurs

38 Estimation du modèle par la méthode des moindres carrés Un paramètre est significativement différent de 0 si son intervalle de confiance ne contient pas 0.

39 Estimation du modèle par la méthode des moindres carrés

40 Qualité du modèle

41 41 Référendum sur la constitution européenne

42 42 Arbre de segmentation avec Answer Tree

43 Prévoir ?

44 La méthode de Winters Exemple : Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

45 Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

46 Résultats sur lhistorique utilisé (prévision à lhorizon 1)

47 Résultats sur la période test (prévision sur lhorizon 1 à 12)

48 48 GALTON, 1908 Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicately handled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary. They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man.

49 Proverbe chinois J entends et j oublie. Je vois et je me souviens. Je fais et je comprends.

50 50 Mark Rothko (1903 - 1970) Le travail évolue à mesure quil avance vers plus de clarté, vers lélimination de tous les obstacles entre le peintre et lidée, et entre lidée et le spectateur.

51 1949

52 1952

53 1956

54 1960

55

56 1968

57

58

59

60 60 Panorama des méthodes statistiques zRecueil des données -Sondage -Plan dexpériences zMéthodes explicatives Y = f(X 1,…,X k ) z Méthodes descriptives -Visualisation -Classification z Méthodes de prévision X t = f(X t-1, X t-2,…)

61 61 Types de données Un blocDeux blocsXY K blocs X1X1 XKXK... Les variables peuvent être nominales, ordinales, ou numériques

62 62 Un bloc X : Visualiser et classer Y1Y1 Y2Y2 * * * * * * * * * * * * * * * * * * * * * * * * Cor(X j,Y 1 ) Cor(X j,Y 2 ) X1X1 X2X2 X3X3 X4X4 X5X5 X6X6 X7X7

63 63 Visualiser Variables quantitatives - Analyse en composantes principales (orientée individus) - Analyse factorielle (orientée variables) Variables qualitatives - Analyse des correspondances multiples - ACP des variables indicatrices des modalités Variables quantitatives / qualitatives - ACP des variables quantitatives et des indicatrices des modalités - Codage optimal des variables qualitatives (Proc PRINQUAL)

64 64 Classer (Construire des groupes) zIndividus -Classification Ascendante Hiérarchique -Méthode des centres mobiles (Nuées dynamiques) zVariables -CAH des variables (SPSS) -Proc VARCLUS (SAS)

65 65 Deux blocs : X et Y PrédicteursRéponses Modéliser Y k = f k (X 1,…, X p ) + Visualiser Y1Y1 Y2Y2 Y4Y4 Y3Y3 X 2 * X 3 * X 5 * X 4 * X 1 *

66 66 Méthodes explicatives : Une réponse Y Loi de probabilité de la réponse dans la famille exponentielle (Binomiale, Poisson, Normale, Gamma, Gauss Inverse,...) : Modèle linéaire généralisé (Proc GENMOD) Variable à expliquer Variables explicatives Réseaux de neurones : Optimiser la prévision pour les modèles non linéaires (!!!!)

67 67 Méthodes explicatives : plusieurs réponses Y X = Prédicteurs, Y = Réponses - Analyse des redondances - Régression PLS X et Y jouent un rôle symétrique - Analyse canonique - Analyse inter-batteries de Tucker

68 68 K blocs X 1, X 2, …, X K Rôle symétrique X1X1 XKXK...... X1X1 ….. XKXK - Analyse canonique généralisée (Horst, Carroll) - Analyse factorielle multiple (Escofier & Pagès) - Analyse factorielle confirmatoire - Analyse factorielle confirmatoire du second ordre

69 69 Modélisation de relations structurelles sur variables latentes ECSI Path model for a Mobile phone provider Approche confirmatoire LISREL (ML): - Proc CALIS (SAS) - AMOS (SPSS) Approche exploratoire PLS Path modelling : - PLS-Graph (Wynne Chin)

70 Inégalité économique et instabilité politique (Données de Russett, 1964) Inégalité économique Inégalité agricole GINI : Inégalité dans la répartition des terres FARM : % fermiers possédant la moitié des terres (> 50%) RENT : % fermiers locataires Développement industriel GNPR : PNB par habitant ($ 1955) LABO : % d actifs dans lagriculture Instabilité politique INST : Instabilité de l exécutif (45-61) ECKS : Nb de conflits violents entre communautés (46-61) DEAT : Nb de morts dans des manifestations (50-62) D-STAB : Démocratie stable D-INS : Démocratie instable DICT : Dictature

71 Inégalité économique et instabilité politique (Données de Russett, 1964) 47 pays

72 Inégalité économique et instabilité politique GINI FARM RENT GNPR LABO Inégalité agricole (X 1 ) Développement industriel (X 2 ) ECKS DEAT D-STB D-INS INST DICT Instabilité politique (X 3 ) 1 2 3 + + + + - + + + - + + + - Variable manifeste observable Variable latente non observable

73 Utilisation de PLS-Graph de Wynne Chin

74 Estimation des variables latentes par la méthode PLS (Mode A, Schéma Centroïde) On maximise le critère : sous les contraintes ||w 1 || = ||w 2 || = ||w 3 || = 1 On estime les variables latentes j par Y j = X j w j. Les variables latentes sont ensuite réduites.

75 75 Intérêt du critère Cette méthode réalise un compromis entre : - des ACP de chaque bloc - des analyses canoniques des blocs reliés entre eux

76 Résultats

77 Latent variables ======================================== Ineg_agri Dev_ind Inst_pol ---------------------------------------- Argentine 0.964 0.238 0.755 c2 1.204 1.371 -1.617 c3 0.397 0.253 -0.480 c4 -0.812 1.530 -0.846 c5 1.115 -1.584 1.505 c6 0.778 -0.654 0.302 c7 -1.538 1.680 -0.952 c8 1.231 -0.324 0.020 c9 0.812 -0.443 0.817 c10 0.918 -0.484 0.305 c11 0.756 -0.182 1.681 c12 -2.004 0.821 -1.534. c45 1.149 0.252 1.135 c46 -0.212 1.104 -0.494 c47 -2.189 -0.654 0.125 ========================================

78 Estimation des variables latentes Y 1 Y 2 Y 3 Argentine0.960.240.75 Australie1.201.37-1.62 Autriche0.390.25-0.48 France-0.880.800.56 Yougoslavie-2.19-0.650.13 Régression multiple de Y 3 sur Y 1 et Y 2 R 2 = 0.618 Instabilité politique = 0.217 Inégalité agricole – 0.692 Développement industriel (2.24) (-7.22) Les t de Student sont obtenus par régression multiple. Résultats

79 Carte des pays : Y 1 = inégalité agricole, Y 2 = développement industriel

80 80 Méthodes de prévision zAnalyse dune série chronologique -Recherche dune tendance et de facteurs saisonniers -Identification de valeurs atypiques zPrévision -Méthodes de lissage (série courte) - Méthode de Box-Jenkins (série longue)

81 Conclusion générale « All the proofs of a pudding are in the eating, not in the cooking ». William Camden (1623)


Télécharger ppt "Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier."

Présentations similaires


Annonces Google