STATISTIQUE HEC – FORMATION FONDAMENTALE 2008/2009 Michel Tenenhaus
STATISTIQUE ? Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. Simplifier une réalité complexe à l’aide de graphiques. Simplifier une réalité complexe à l’aide de modèles mathématiques. Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise (data mining).
Décrire ?
Exemple 1 Enquête FT sur les MBA 2001 12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase
Extrait des données de l’enquête FT sur les MBA 2001
. Analyse factorielle des MBA HEC * 2 Harvard * * 1 X14 = Salary increase . HEC * 2 Harvard * * 1 X2 = Women Student Warwick X1 = Women Faculty
Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA
Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse Les variables fléchées en pointillés sont illustratives.
Conclusion : HEC troisième MBA non anglo-saxon
Exemple 2 : les races canines
Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon
Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant
Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet) C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ bull-dog 5 òûòø teckel 26 ò÷ ùòø chihuahua 8 òûò÷ ùòø pékinois 22 ò÷ ó ùòòòòòòòòòòòòòø caniche 7 òòòòò÷ ó ó cocker 9 òòòûòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø fox-terrier 17 òòò÷ ó ó epagneul breton 14 òûòòòø ó ó labrador 19 ò÷ ùòòòòòòòòòòòòòòò÷ ó boxer 4 òûòòò÷ ó dalmatien 11 ò÷ ó dogue allemand 13 òûòòòø ó mastiff 21 ò÷ ùòòòòòòòòòòòòòòòø ó saint-bernard 24 òûòø ó ó ó terre-neuve 27 ò÷ ùò÷ ó ó bull-mastiff 6 òòò÷ ó ó berger allemand 3 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ dobermann 12 ò÷ ùòòòòòòòòòø ó beauceron 1 òòò÷ ó ó pointer 23 òø ó ó setter 25 òôòø ùòòòòòòò÷ levrier 20 ò÷ ùòø ó epagneul français 15 òòò÷ ùòòòòòø ó colley 10 òòòòò÷ ùò÷ fox-hound 16 òûòòòø ó grd bleu de gasc 18 ò÷ ùòòòòò÷ basset 2 òòòòò÷
Visualisation de la classification des chiens en 4 groupes epagneul breton 3 labrador dalmatien epagneul français setter pointer 2 boxer colley levrier grd bleu de gasc 1 fox-hound berger allemand dobermann beauceron caniche fox-terrier -1 cocker teckel bull-dog terre-neuve dogue allemand -2 pékinois chihuahua basset saint-bernard bull-mastiff mastiff Facteur 2 -3 -4 -4 -2 2 4 Facteur 1
Les signes de ponctuation chez Zola (Brunet, 1985)
Analyse Factorielle des Correspondances
Expliquer ?
Salaire des professeurs du Groupe HEC
Salaire en fonction de l’age
Pédagogie et HEC
Recherche et HEC
Modèle de salaire des professeurs
Estimation du modèle par la méthode des moindres carrés Un paramètre est significativement différent de 0 si son intervalle de confiance ne contient pas 0.
Estimation du modèle par la méthode des moindres carrés
Qualité du modèle
Référendum sur la constitution européenne
Arbre de segmentation avec Answer Tree
Prévoir ?
La méthode de Winters Exemple : Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.
Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.
Résultats sur l’historique utilisé (prévision à l’horizon 1)
Résultats sur la période test (prévision sur l’horizon 1 à 12)
Contenu du cours Présentation de méthodes statistiques permettant de décrire, d’expliquer et prévoir un phénomène étudié. Utilisation du logiciel SPSS sous Windows Version 16. Pour installer SPSS : Voir les moyens informatiques
Le site web du cours Tous les documents et tous les fichiers de données utilisés dans le cours sont disponibles sur le site www.hec.fr/tenenhaus.
Cours Tout ce qui est fait en classe doit être connu : ni plus ni moins. Maximum de cas et d’exercices pendant les séances de cours et les séances de soutien. Savoir faire les exercices du cours est une garantie de succès.
PLAN de COURS
Contrôle des connaissances Rédaction d’un projet statistique par groupe de 5 étudiants au plus (30%) : Cas Easton Un test individuel (70 %) Des notes au moins égales à 10/20 sont exigées pour le projet de groupe et pour le test individuel.
GALTON, 1908 Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicately handled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary. They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man.
Proverbe chinois J ’entends et j ’oublie. Je vois et je me souviens. Je fais et je comprends.
Mark Rothko (1903 - 1970) Le travail évolue à mesure qu’il avance vers plus de clarté, vers l’élimination de tous les obstacles entre le peintre et l’idée, et entre l’idée et le spectateur.
1949
1952
1956
1960
1968
Références M. Tenenhaus : Statistique : Méthodes pour décrire, expliquer et prévoir, Dunod, 2007 P. Kinnear & C. Gray : SPSS 16, Psychology Press, 2008
Panorama des méthodes statistiques en gestion Recueil des données - Sondage - Plan d’expériences Méthodes explicatives Y = f(X1,…,Xk) Méthodes descriptives - Visualisation - Classification Méthodes de prévision Xt = f(Xt-1, Xt-2,…)
Méthodes explicatives Variables explicatives Variable à expliquer
Méthodes descriptives Méthodes de visualisation Méthodes de classification - Classification ascendante hiérarchique (observations ou variables) - Méthode des centres mobiles
Méthodes de prévision Analyse d’une série chronologique - Recherche d’une tendance et de facteurs saisonniers - Identification de valeurs atypiques Prévision - Méthodes de lissage (série courte) - Méthode de Box-Jenkins (série longue)