Méthodes Statistiques

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Objectif Trouver les facteurs dun nombre. Objective Find the factors of a number.
RAPPORT et TAUX Objectif.
CALCUL MENTAL Bernard Izard 6° Avon CM I - TABLES x +
Distance inter-locuteur
11 Welcome to Québec City! Name of your Group Tuesday, November 17, 2009.
Le sondage LibQUAL à HEC Montréal Une première expérience réussie qui sintègre au processus de planification stratégique de la bibliothèque Le sondage.
Les numéros
Les numéros 70 –
Les numéros
TROUVER LES FACTEURS PREMIERS
FR2 Leçons Les quantités.
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
LA FORMATION DE LENSEIGNANT LENQUÊTE ECPALE MODULE PEDAGOGIQUE LA CONNAISSANCE ET LE RÔLE DE LENQUÊTE UN SUPPORT POUR COMPRENDRE LACCIDENT.
Primitives - Intégration
LA RÉGRESSION MULTIPLE
Analyse discriminante
Méthodes Statistiques Michel Tenenhaus. 2 STATISTIQUE ? zExtraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. zSimplifier.
Analyse des proximités, des préférences et typologie Michel Tenenhaus.
Analyse Factorielle des Correspondances
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J. -C
Analyse Factorielle des Correspondances multiples et Classification Ascendante Hiérarchique Michel Tenenhaus.
Analyse discriminante
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
1 Analyse de la variance multivariée Michel Tenenhaus.
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
Description et estimation
Analyse en Composantes Principales (avec SPAD) et Classification Ascendante Hiérarchique Michel Tenenhaus.
Analyse des proximités, des préférences et typologie
STATISTIQUE HEC – FORMATION FONDAMENTALE 2008/2009 Michel Tenenhaus
Analyse des proximités
STATISTIQUE Core International Management Program 2008/2009 Michel Tenenhaus.
1 La mesure MESURE & QUALITE De la mesure …. La mesure 2 Sommaire 1. Problématique 2. Démarche 3. Zéro défaut 4. Résolution des non-conformités.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Modèle affine Montage préparé par : André Ross
Français I Leçon 2B Une semaine au lycée Au Debut #7 (for the dates of November 5 and 6) Please Translate the Following: 1. I love the math course. (Adorer.
Des RRA à la diagnosticabilité
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
How to solve biological problems with math Mars 2012.
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
Réseaux de neurones.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Jour 2. Trouvez quequun dans la classe.. Circulate in the class to find someone who relates to each of the subjects below. The person must answer Oui.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Modélisation et analyse de la variabilité dans une chaîne logistique par Laurence Morlet Promoteur : Philippe Chevalier Lecteurs : Laurence.
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Physique statistique Frédéric CAUPIN.
Les nombres.
CALCUL LITTERAL I LA DISTRIBUTIVITE k ( a + b ) = k a + k b 1° Règle
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
USAM BRIDGE H O W E L L -CLASSIQUE
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
9 paires séries de 3 étuis ( n° 1 à 27 )
Rappels de statistiques descriptives
Des statistiques descriptives et multi- variées aux statistiques de deuxième génération Séance 2.
Transcription de la présentation:

Méthodes Statistiques Michel Tenenhaus

STATISTIQUE ? Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir. Simplifier une réalité complexe à l’aide de graphiques. Simplifier une réalité complexe à l’aide de modèles mathématiques. Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise et orienter ses choix stratégiques (data mining).

Décrire ?

Exemple 1 Enquête FT sur les MBA 2001 12 caractéristiques de l’école : Women Faculty, Women Students, Women board, International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating 2 caractéristiques des diplômés : Salary today (weighted), Salary % increase

Extrait des données de l’enquête FT sur les MBA 2001

. Analyse factorielle (ACP) des MBA HEC  * 2 Harvard   *    *  X14 = Salary increase . HEC  * 2 Harvard   *    *  1    X2 = % Women Student    Warwick X1 = % Women Faculty

Analyse Factorielle des MBA : Carte des MBA Analyse réalisée sur les 67 premiers MBA

Analyse Factorielle des MBA Carte des caractéristiques utilisées pour l’analyse Les variables fléchées en pointillés sont illustratives.

Conclusion : HEC troisième MBA non anglo-saxon

Exemple 2 : les races canines

Le tableau disjonctif complet xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant

Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet) C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ bull-dog 5 òûòø teckel 26 ò÷ ùòø chihuahua 8 òûò÷ ùòø pékinois 22 ò÷ ó ùòòòòòòòòòòòòòø caniche 7 òòòòò÷ ó ó cocker 9 òòòûòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø fox-terrier 17 òòò÷ ó ó epagneul breton 14 òûòòòø ó ó labrador 19 ò÷ ùòòòòòòòòòòòòòòò÷ ó boxer 4 òûòòò÷ ó dalmatien 11 ò÷ ó dogue allemand 13 òûòòòø ó mastiff 21 ò÷ ùòòòòòòòòòòòòòòòø ó saint-bernard 24 òûòø ó ó ó terre-neuve 27 ò÷ ùò÷ ó ó bull-mastiff 6 òòò÷ ó ó berger allemand 3 òûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ dobermann 12 ò÷ ùòòòòòòòòòø ó beauceron 1 òòò÷ ó ó pointer 23 òø ó ó setter 25 òôòø ùòòòòòòò÷ levrier 20 ò÷ ùòø ó epagneul français 15 òòò÷ ùòòòòòø ó colley 10 òòòòò÷ ùò÷ fox-hound 16 òûòòòø ó grd bleu de gasc 18 ò÷ ùòòòòò÷ basset 2 òòòòò÷

Visualisation de la classification des chiens en 4 groupes epagneul breton 3 labrador dalmatien epagneul français setter pointer 2 boxer colley levrier grd bleu de gasc 1 fox-hound berger allemand dobermann beauceron caniche fox-terrier -1 cocker teckel bull-dog terre-neuve dogue allemand -2 pékinois chihuahua basset saint-bernard bull-mastiff mastiff Facteur 2 -3 -4 -4 -2 2 4 Facteur 1

Exemple 3 : Les signes de ponctuation chez Zola

Analyse Factorielle des Correspondances

Exemple 4 : Analyse factorielle d’un tableau de distances Distances entre 10 villes européennes (en Miles)

Utilisation de ALSCAL Carte de l’Europe

Qualité du résultat

Exemple 5 : Analyse des proximités Les données Un tableau de similarités sij entre n objets Problème On recherche n points {x1,…,xn} dans un plan tels que les contraintes soient respectées au mieux.

Exemple : Les codes Morse % de Confusion entre Signal 1 en ligne et Signal 2 en colonne

Utilisation de M-D-SCAL

Qualité de la représentation graphique Soit n points {x1,…,xn} dans un plan. Définition des disparités : M-D-SCAL recherche les points {x1,…,xn} minimisant le STRESS

Exemple 6 : Positionnement des cigarettes Chaque personne interrogée construit sa typologie des 56 marques. % de personnes mettant les marques i et j dans le même groupe.

Groupe 1 Groupe 5 Groupe 3 Groupe 4.1 Groupe 4.2 Groupe 4 Groupe 2

Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5

Axe 2 Groupe 1 Groupe 3 Groupe 4 Groupe 2 Groupe 5

Exemple 7 : Jus d’orange X1 = Instrumental, X2 = Sensoriel, X = [X1, X2], Y = Hédonique

Biplot des caractéristiques des jus d’oranges

PREFMAP : Modèle vectoriel Axe 1 6 4 2 -2 -4 Axe 2 3 1 -1 -3 -5 Juge 1 Pampryl réfrigéré Tropicana réfrigéré Joker ambiant Pampryl ambiant Fruivita réfrigéré Tropicana ambiant PREFMAP : Modèle vectoriel Max Cor(Notes observés, Projections)

Carte de préférence 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 Pampryl ambiant Tropicana Fruivita réfrigéré Joker -5 -4 -3 -2 -1  axe 1   axe 2 

Expliquer ?

Salaire des professeurs du Groupe HEC

Salaire en fonction de l’age

Pédagogie et HEC

Recherche et HEC

Modèle de salaire des professeurs

Estimation du modèle par la méthode des moindres carrés Un paramètre est significativement différent de 0 si son intervalle de confiance ne contient pas 0.

Estimation du modèle par la méthode des moindres carrés

Qualité du modèle

Référendum sur la constitution européenne

Arbre de segmentation avec Answer Tree

Prévoir ?

La méthode de Winters Exemple : Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

Ventes de Champagne On exclut les douze derniers mois pour valider la méthode.

Résultats sur l’historique utilisé (prévision à l’horizon 1)

Résultats sur la période test (prévision sur l’horizon 1 à 12)

GALTON, 1908 Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicately handled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary. They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of man.

耳听为虚 眼见为实 身教重于言传 Proverbe chinois J ’entends et j ’oublie. Je vois et je me souviens. Je fais et je comprends.

Mark Rothko (1903 - 1970) Le travail évolue à mesure qu’il avance vers plus de clarté, vers l’élimination de tous les obstacles entre le peintre et l’idée, et entre l’idée et le spectateur.

1949

1952

1956

1960

1968

Panorama des méthodes statistiques Recueil des données - Sondage - Plan d’expériences Méthodes explicatives Y = f(X1,…,Xk) Méthodes descriptives - Visualisation - Classification Méthodes de prévision Xt = f(Xt-1, Xt-2,…)

Types de données Un bloc Deux blocs X Y K blocs Les variables peuvent être nominales, ordinales, ou numériques X1 ... XK

Un bloc X : Visualiser et classer Y2 * * * * * * * * * * * * * * * Y1 * * * * * * * * * Cor(Xj,Y2) X4 X5 X1 Cor(Xj,Y1) X7 X2 X3 X6

Visualiser Variables quantitatives - Analyse en composantes principales (orientée individus) - Analyse factorielle (orientée variables) Variables qualitatives - Analyse des correspondances multiples - ACP des variables indicatrices des modalités Variables quantitatives / qualitatives - ACP des variables quantitatives et des indicatrices des modalités - Codage optimal des variables qualitatives (Proc PRINQUAL)

Classer (Construire des groupes) Individus - Classification Ascendante Hiérarchique - Méthode des centres mobiles (Nuées dynamiques) Variables - CAH des variables (SPSS) - Proc VARCLUS (SAS)

Deux blocs : X et Y Yk = fk(X1,…, Xp) +  Prédicteurs Réponses Modéliser Visualiser Y4 X3 * X2 * Yk = fk(X1,…, Xp) +  Y1 X4 * X1 * Y2 X5 * Y3

Méthodes explicatives : Une réponse Y Variable à expliquer Variables explicatives Réseaux de neurones : Optimiser la prévision pour les modèles non linéaires (!!!!) Loi de probabilité de la réponse dans la famille exponentielle (Binomiale, Poisson, Normale, Gamma, Gauss Inverse, ...) : Modèle linéaire généralisé (Proc GENMOD)

Méthodes explicatives : plusieurs réponses Y X et Y jouent un rôle symétrique - Analyse canonique - Analyse inter-batteries de Tucker X = Prédicteurs , Y = Réponses - Analyse des redondances - Régression PLS

K blocs X1, X2, …, XK Rôle symétrique X1 x1 x X1 XK XK xK ….. XK . XK xK - Analyse canonique généralisée (Horst, Carroll) - Analyse factorielle multiple (Escofier & Pagès) - Analyse factorielle confirmatoire - Analyse factorielle confirmatoire du second ordre

Modélisation de relations structurelles sur variables latentes ECSI Path model for a“ Mobile phone provider” Approche confirmatoire LISREL (ML): - Proc CALIS (SAS) - AMOS (SPSS) Approche exploratoire PLS Path modelling : - PLS-Graph (Wynne Chin) - XLSTAT-PLSPM

Méthodes de prévision Analyse d’une série chronologique - Recherche d’une tendance et de facteurs saisonniers - Identification de valeurs atypiques Prévision - Méthodes de lissage (série courte) - Méthode de Box-Jenkins (série longue)

Conclusion générale William Camden (1623) « All the proofs of a pudding are in the eating, not in the cooking ». William Camden (1623)