La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Méthodes Statistiques

Présentations similaires


Présentation au sujet: "Méthodes Statistiques"— Transcription de la présentation:

1 Méthodes Statistiques
Michel Tenenhaus

2 STATISTIQUE ? Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. Simplifier une réalité complexe à l’aide de graphiques. Simplifier une réalité complexe à l’aide de modèles mathématiques. Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise et orienter ses choix stratégiques (data mining).

3 Décrire ?

4 Exemple 1 Enquête FT sur les MBA 2001
12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

5 Extrait des données de l’enquête FT sur les MBA 2001

6 . Analyse factorielle (ACP) des MBA HEC  * 2 Harvard   *    * 
X14 = Salary increase . HEC * 2 Harvard * * 1 X2 = % Women Student Warwick X1 = % Women Faculty

7 Analyse Factorielle des MBA : Carte des MBA
Analyse réalisée sur les 67 premiers MBA

8 Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse
Les variables fléchées en pointillés sont illustratives.

9 Conclusion : HEC troisième MBA non anglo-saxon

10 Exemple 2 : les races canines

11 Le tableau disjonctif complet
xijl = si l’individu i possède la modalité l de la variable j = sinon

12 Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant

13 Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet)
C A S E Label Num bull-dog òûòø teckel ò÷ ùòø chihuahua òûò÷ ùòø pékinois ò÷ ó ùòòòòòòòòòòòòòø caniche òòòòò÷ ó ó cocker òòòûòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø fox-terrier òòò÷ ó ó epagneul breton òûòòòø ó ó labrador ò÷ ùòòòòòòòòòòòòòòò÷ ó boxer òûòòò÷ ó dalmatien ò÷ ó dogue allemand òûòòòø ó mastiff ò÷ ùòòòòòòòòòòòòòòòø ó saint-bernard òûòø ó ó ó terre-neuve ò÷ ùò÷ ó ó bull-mastiff òòò÷ ó ó berger allemand òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ dobermann ò÷ ùòòòòòòòòòø ó beauceron òòò÷ ó ó pointer òø ó ó setter òôòø ùòòòòòòò÷ levrier ò÷ ùòø ó epagneul français òòò÷ ùòòòòòø ó colley òòòòò÷ ùò÷ fox-hound òûòòòø ó grd bleu de gasc ò÷ ùòòòòò÷ basset òòòòò÷

14 Visualisation de la classification des chiens en 4 groupes
epagneul breton 3 labrador dalmatien epagneul français setter pointer 2 boxer colley levrier grd bleu de gasc 1 fox-hound berger allemand dobermann beauceron caniche fox-terrier -1 cocker teckel bull-dog terre-neuve dogue allemand -2 pékinois chihuahua basset saint-bernard bull-mastiff mastiff Facteur 2 -3 -4 -4 -2 2 4 Facteur 1

15 Exemple 3 : Les signes de ponctuation chez Zola

16 Analyse Factorielle des Correspondances

17 Exemple 4 : Analyse factorielle d’un tableau de distances
Distances entre 10 villes européennes (en Miles)

18 Utilisation de ALSCAL Carte de l’Europe

19 Qualité du résultat

20 Exemple 5 : Analyse des proximités
Les données Un tableau de similarités sij entre n objets Problème On recherche n points {x1,…,xn} dans un plan tels que les contraintes soient respectées au mieux.

21 Exemple : Les codes Morse % de Confusion entre Signal 1 en ligne et Signal 2 en colonne

22 Utilisation de M-D-SCAL

23 Qualité de la représentation graphique
Soit n points {x1,…,xn} dans un plan. Définition des disparités : M-D-SCAL recherche les points {x1,…,xn} minimisant le STRESS

24 Exemple 6 : Positionnement des cigarettes
Chaque personne interrogée construit sa typologie des 56 marques. % de personnes mettant les marques i et j dans le même groupe.

25 Groupe 1 Groupe 5 Groupe 3 Groupe 4.1 Groupe 4.2 Groupe 4 Groupe 2

26 Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5

27 Axe 2 Groupe 1 Groupe 3 Groupe 4 Groupe 2 Groupe 5

28 Exemple 7 : Jus d’orange X1 = Instrumental, X2 = Sensoriel, X = [X1, X2], Y = Hédonique

29 Biplot des caractéristiques des jus d’oranges

30 PREFMAP : Modèle vectoriel
Axe 1 6 4 2 -2 -4 Axe 2 3 1 -1 -3 -5 Juge 1 Pampryl réfrigéré Tropicana réfrigéré Joker ambiant Pampryl ambiant Fruivita réfrigéré Tropicana ambiant PREFMAP : Modèle vectoriel Max Cor(Notes observés, Projections)

31 Carte de préférence 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 Pampryl ambiant Tropicana Fruivita réfrigéré Joker -5 -4 -3 -2 -1  axe 1   axe 2 

32 Expliquer ?

33 Salaire des professeurs du Groupe HEC

34 Salaire en fonction de l’age

35 Pédagogie et HEC

36 Recherche et HEC

37 Modèle de salaire des professeurs

38 Estimation du modèle par la méthode des moindres carrés
Un paramètre est significativement différent de 0 si son intervalle de confiance ne contient pas 0.

39 Estimation du modèle par la méthode des moindres carrés

40 Qualité du modèle

41 Référendum sur la constitution européenne

42 Arbre de segmentation avec Answer Tree

43 Prévoir ?

44 La méthode de Winters Exemple : Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

45 Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

46 Résultats sur l’historique utilisé (prévision à l’horizon 1)

47 Résultats sur la période test (prévision sur l’horizon 1 à 12)

48 GALTON, 1908 Some people hate the very name of Statistics, but I
find them full of beauty and interest. Whenever they are not brutalized, but delicately handled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary. They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man.

49 耳听为虚 眼见为实 身教重于言传 Proverbe chinois J ’entends et j ’oublie.
Je vois et je me souviens. Je fais et je comprends.

50 Mark Rothko (1903 - 1970) Le travail évolue à mesure qu’il avance
vers plus de clarté, vers l’élimination de tous les obstacles entre le peintre et l’idée, et entre l’idée et le spectateur.

51 1949

52 1952

53 1956

54 1960

55

56 1968

57

58

59

60 Panorama des méthodes statistiques
Recueil des données - Sondage - Plan d’expériences Méthodes explicatives Y = f(X1,…,Xk) Méthodes descriptives - Visualisation - Classification Méthodes de prévision Xt = f(Xt-1, Xt-2,…)

61 Types de données Un bloc Deux blocs X Y K blocs Les variables
peuvent être nominales, ordinales, ou numériques X1 ... XK

62 Un bloc X : Visualiser et classer
Y2 * * * * * * * * * * * * * * * Y1 * * * * * * * * * Cor(Xj,Y2) X4 X5 X1 Cor(Xj,Y1) X7 X2 X3 X6

63 Visualiser Variables quantitatives
- Analyse en composantes principales (orientée individus) - Analyse factorielle (orientée variables) Variables qualitatives - Analyse des correspondances multiples - ACP des variables indicatrices des modalités Variables quantitatives / qualitatives - ACP des variables quantitatives et des indicatrices des modalités - Codage optimal des variables qualitatives (Proc PRINQUAL)

64 Classer (Construire des groupes)
Individus - Classification Ascendante Hiérarchique - Méthode des centres mobiles (Nuées dynamiques) Variables - CAH des variables (SPSS) - Proc VARCLUS (SAS)

65 Deux blocs : X et Y Yk = fk(X1,…, Xp) +  Prédicteurs Réponses
Modéliser Visualiser Y4 X3 * X2 * Yk = fk(X1,…, Xp) +  Y1 X4 * X1 * Y2 X5 * Y3

66 Méthodes explicatives : Une réponse Y
Variable à expliquer Variables explicatives Réseaux de neurones : Optimiser la prévision pour les modèles non linéaires (!!!!) Loi de probabilité de la réponse dans la famille exponentielle (Binomiale, Poisson, Normale, Gamma, Gauss Inverse, ...) : Modèle linéaire généralisé (Proc GENMOD)

67 Méthodes explicatives : plusieurs réponses Y
X et Y jouent un rôle symétrique - Analyse canonique - Analyse inter-batteries de Tucker X = Prédicteurs , Y = Réponses - Analyse des redondances - Régression PLS

68 K blocs X1, X2, …, XK Rôle symétrique X1 x1 x X1 XK XK xK
….. XK . XK xK - Analyse canonique généralisée (Horst, Carroll) - Analyse factorielle multiple (Escofier & Pagès) - Analyse factorielle confirmatoire - Analyse factorielle confirmatoire du second ordre

69 Modélisation de relations structurelles sur variables latentes
ECSI Path model for a“ Mobile phone provider” Approche confirmatoire LISREL (ML): - Proc CALIS (SAS) - AMOS (SPSS) Approche exploratoire PLS Path modelling : - PLS-Graph (Wynne Chin) - XLSTAT-PLSPM

70 Méthodes de prévision Analyse d’une série chronologique
- Recherche d’une tendance et de facteurs saisonniers - Identification de valeurs atypiques Prévision - Méthodes de lissage (série courte) - Méthode de Box-Jenkins (série longue)

71 Conclusion générale William Camden (1623)
« All the proofs of a pudding are in the eating, not in the cooking ». William Camden (1623)


Télécharger ppt "Méthodes Statistiques"

Présentations similaires


Annonces Google