MBA Statistique 51-601-02 http://www.hec.ca/sites/cours/51-601-02/

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

L’échantillonnage & Ses Fluctuations
Statistique II Chapitre 3: Tests d’hypothèses
Atelier RBM-MERG sur la formation à lEIP, 6 au 9 octobre 2008, Dakar, Sénégal1 Observations sur l'échantillonnage, et notamment, sur l'utilisation d'un.
Base de sondage et Plan de sondage Pres. 5
Probabilités et statistiques au lycée
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Les tests d’hypothèses
INFERENCE STATISTIQUE
La loi normale et l’estimation de paramètres
Lectures Volume obligatoire: Chapitre 8
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Méthodes de Biostatistique
1 - Construction d'un abaque Exemple
L’inférence statistique
Thème 6 : l'échantillonnage et l'enquête
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Échantillonnage (STT-2000)
Comprendre la variation
Comprendre la variation dans les données: Notions de base
Comprendre le monde de l’entreprise
Le test t.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Distribution d’échantillonnage
COLLÈGE BOURGET         Titre du laboratoire souligné         Par: Nom 1 Nom 2 Nom 3 20_         Travail présenté à: Mme Bussières Sciences et technologies.
Théorie de l’échantillonnage (STT-6005)
Lectures Volume du cours : Chapitre 7
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Demande stochastique stationnaire
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Statistique Descriptive Analyse des données
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
JEAN-MARC FONTAN SOC-1101 COURS 3
Intervalles de confiance pour des proportions L’inférence statistique
De la vie aux idées POPULARITÉ DE DIVERSES MESURES POSSIBLES D’AMÉLIORATION DE LA DÉMOCRATIE AU QUÉBEC MARS 2015 PRÉSENTÉ PAR CROP ET LA CHAIRE DE RECHERCHE.
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Échantillonnage aléatoire simple
Intervalles de fluctuation et de confiance. Dans une population, la proportion d’individus ayant un caractère donné est notée p Population.
JEAN-MARC FONTAN SOC-1101 COURS 4
Études de Marché Dess communication de masse
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
Probabilités et statistique MQT-1102
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
Bienvenue au cours MAT-350 Probabilités et statistiques.
Chapitre 5 Interprétation des données d’enquête 1.
Transcription de la présentation:

MBA Statistique 51-601-02 http://www.hec.ca/sites/cours/51-601-02/

La Statistique, c ’est ? « C’est la science d’apprendre à partir de données. Cette définition doit être interprétée dans un sens très large. Elle doit tout inclure, de la planification pour la cueillette des données en passant par la gestion subséquente de celles-ci jusqu’aux dernières activités comme l’inférence statistique pour la prise de décision et la présentation des résultats. » Jon Kettenring, ASA Past President

Plan du cours Variation. Échantillonnage et estimation. Inférence statistique et prise de décision. Analyse de données qualitatives. Régression linéaire simple et multiple. Prévisions. Contrôle statistique des procédés. Révision.

ÉVALUATION Travail en équipe: 40% Examen final: 60%

Variation, échantillonnage et estimation. COURS # 1 Variation, échantillonnage et estimation.

Variation “Le principal problème en gestion est l’incapacité à comprendre et interpréter le concept de variation" W. Edwards Deming

Variation "Management takes a major step forward when they stop asking you to explain random variation" F. Timothy Fuller

Variation "Failure to understand variation is a central problem of management" Lloyd S Nelson

Airport Immigration

Airport Immigration La direction s’attendait à ce que les employés s’occupent de 10 passagers durant cette période. Le directeur des services d’immigration, en prenant connaissance de ces données, était insatisfait de la performance de Colin songeait à récompenser Frank

Expérience des billes (Deming) Programme EXCEL: beads.xls Les billes rouges sont associées à des produits défectueux. Cinq fois par jour, des techniciens choisissent au hasard un échantillon de 50 billes et comptent le nombre de billes rouges (produits défectueux).

Beads History – 17 July 2000

Beads History - 9 March 2000

Beads History - 8 March 2001 This and the following 7 slides gives results from some previous experiments. You should aim to replace these by your own experimental results.

Beads History - 5 March 1999

Beads History - 19 July 1996

Beads History - 8 March 1996

Beads History - 10 March 1995

Beads History - 6 March 1998

Beads History: 27 Experiments 10 more sets of results added to those given in the book.

Beads Averages

Approche de pompier Problème Solution

Approche scientifique Baser ses décisions sur des données et non des intuitions. Tenter de trouver les causes du problème au lieu de simplement réagir aux symptômes. Chercher des solutions permanentes au lieu de solutions rapides.

Approche scientifique Solution Problème Cause

On a besoin de données pour Comprendre le processus Déterminer les priorités Éliminer les causes de variation Observer le processus Établir des liens

Étapes d’une analyse statistique: Planifier la collecte de données; Récolter les données; Les évaluer; Tirer des conclusions.

L ’échantillonnage Notre connaissance, nos attitudes et nos actions sont basés, en grande partie, sur des échantillons. Par exemple, l’opinion d’une personne sur une institution ou une entreprise qui fait des milliers de transactions dans une journée est souvent déterminé par seulement une ou deux rencontres avec cette institution.

Opérations gouvernementales: Faire des études pour aider au développement des affaires publiques et des programmes sociaux. Exemples: prix des biens et services; fluctuations de l’économie; taux de chômage; évolution de la population.

Recherche scientifique: La statistique permet de valider des inférences dans divers domaines: Datation au carbone 14; Estimation de risque d’éruptions ou de tremblements de terre; Essais cliniques (performance d’un nouveau traitement); Études de populations en biologie(cerfs, poissons); Qualité de l’eau; Tests psychologiques.

Affaires et industries: Prévision de la demande de biens et services; Contrôles de la qualité; Gestion de portefeuilles; Prévision des risques.

Recensement vs Échantillon Recensement = vérité l’information que l’on désire est disponible pour tous les individus de la population étudiée. Échantillon = estimation de la vérité l’information n’est disponible que pour un sous-ensemble des individus de la population étudiée.

Schéma de l’échantillonnage Population Paramètre Choix estimation Échantillon Statistique calcul

Avantages d’un échantillon Coût réduit Rapidité accrue Offre plus de possibilités dans certains cas il peut être impossible de faire un recensement (ex: contrôle de qualité) Peut-être plus précis! cas où une main-d’œuvre hautement qualifiée est requise pour la collecte des données

Échantillons probabilistes et non probabilistes

Les erreurs d’échantillonnages Erreur aléatoire différents échantillons vont produire différentes estimations de la caractéristique de la population à l’étude Erreurs systématiques - biais échantillon non probabiliste échantillon probabiliste mais avec un taux élevé de non-répondants instrument de mesure biaisé

TV Show Poll - March 1998 Should Hamilton be renamed Waikato City? 4400 ont appelé participé 73% étaient contre le changement Quel type d’échantillonnage a été utilisé? Quelles sont les conclusions à tirer?

Illustration : biais vs variabilité Le biais est la divergence répétée, dans la même direction, des estimations d'un paramètre. Une grande variabilité signifie que les valeurs répétées des estimations sont très éparpillées; les résultats de l'échantillonnage ne sont pas reproductibles.

a) Grand biais, faible variabilité b) faible biais, grande variabilité c) Grand biais, grande variabilité d) faible biais, faible variabilité

Biais dû à la non-réponse Le biais est souvent le résultat de la non-réponse lors de sondages. En effet supposons que la population est divisée en deux groupes : les répondants (60%) et les non répondants (40%). Parmi les répondants 65% des personnes sont en faveur d’un projet et parmi les non répondants 20% sont en faveur du projet. La vraie proportion de la population en faveur du projet est donc p = 47%. Un sondage nous donnera une estimation de p autour de 65 (n’égale pas 47%). Le biais est donc de 18%.

Comment faire un tirage aléatoire simple? Mettre les noms de tous les N individus de la population dans un chapeau et en tirer un échantillon de n au hasard. Numéroter les individus de la population de 1 à N et utiliser une table de nombres aléatoires. Utiliser un logiciel qui génère des nombres aléatoires (ex: Excel, MINITAB, SAS).

On supposera que les individus de la population sont ordonnés de la manière suivante, afin d ’obtenir les résultats pour divers échantillons que nous choisirons au hasard ultérieurement: 1 à 80 Homme Livre 81 à 280 Homme Journal 281 à 400 Homme Revue 401 à 640 Femme Livre 641 à 760 Femme Journal 761 à 1000 Femme Revue. On choisit un échantillon de 30 personnes: (en partant de la colonne 6, ligne 6 en se déplaçant horizontalement dans la table de nombres aléatoires) individu résultat individu résultat individu résultat 033 H L 924 F R 646 F J 648 F J 707 F J 886 F R 847 F R 054 H L 823 F R 204 H J 329 H R 920 F R 334 H R 776 F R 461 F L 639 F L 100 H J 893 F R 193 H J 871 F R 829 F R 639 F L 007 H L 380 H R 411 F L 255 H J 900 F R 095 H J 980 F R 796 F R

Exemple:

Remarques : Les résultats obtenus dépendent de l ’échantillon prélevé. Si les échantillons sont prélevés selon les règles de l ’art, les résultats devraient se ressembler. Pour un tirage aléatoire simple, chaque individu de la population a la même chance d ’être sélectionné à chaque tirage. Pour un tirage aléatoire simple, tous les échantillons possibles de même taille ont la même chance d ’être sélectionnés.

Les sondages d’opinion Les résultats obtenus dans un échantillon probabiliste serviront à généraliser à l’ensemble de la population. Mais le fait d’utiliser un échantillon induit nécessairement une marge d’erreur que nous essayerons de contrôler. Nous distinguerons deux types de données: qualitatives et quantitatives.

Types de données Qualitatives (échelle de mesure: nominale ou ordinale) (paramètre: %) exemples: sexe (F, M) parti politique (PLQ, PQ, ADQ) marque préférée (Coke, Pepsi, Marque maison, …) niveau de satisfaction (échelle de Likert de 1 à 5) Quantitatives (échelle de mesure: intervalle ou rapport) (paramètre: moyenne) Âge, revenu, rendement

Estimation par intervalle de confiance Pour estimer la proportion p d ’individus possédant la caractéristique à l ’étude dans la population, ou la moyenne  , on utilise un intervalle de confiance au niveau (1- ).

Estimation par intervalle de confiance (suite) L ’estimation par intervalle de confiance consiste à établir un intervalle de valeurs qui nous permet d ’affirmer, avec un certain niveau de confiance ou de certitude prédéterminé (en général: 90%, 95% ou 99%), que la vraie valeur du paramètre dans la population se trouve dans cet intervalle.

Intervalle de confiance pour estimer une proportion p Exemple: Sur un échantillon de 125 étudiants d ’un collège interrogés pour savoir s ’ils ont l ’intention de voter aux prochaines élections de leur association, 45 ont répondu positivement. Estimer, de façon ponctuelle, la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections.

Solution: On estime la proportion p inconnue (de la population) par celle obtenue dans l’échantillon.

I.C. pour estimer une proportion p Programme EXCEL: ICproportion.xls Si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie proportion p du caractère à l ’étude dans la population, est donnée par: où est la proportion de succès dans l’échantillon,

Exemple (suite) : Par conséquent, un intervalle de confiance de 95% de certitude pour la proportion de l ’ensemble des étudiants de cette institution qui ont l ’intention de voter aux prochaines élections nous est donné par:

Exemple (suite) : Comment rapporterait-on les résultats de ce sondage dans le journal étudiant de ce collège? 36% des étudiants du collège ont l ’intention d ’exercer leur droit de vote aux prochaines élections de l ’association étudiante. La marge d ’erreur est de 8,4% avec un niveau de confiance de 95% (ou avec un degré de certitude de 95% ou 19 fois sur 20).

Remarques: Cette formule est approximative et s ’applique uniquement pour les grands échantillons. Si je prends tous les échantillons aléatoires possibles de taille n et que je calcule pour chacun un intervalle de confiance au niveau de 95%, 95% d’entre eux incluront la vraie proportion p de la population, et donc 5% ne l ’incluront pas. La quantité est appelé marge d ’erreur ou précision, au niveau de confiance 95% (19 fois sur 20).

Marge d ’erreur au niveau 95%

Marge d ’erreur au niveau 90%

Calcul de la taille n pour assurer une marge d ’erreur maximale Si nous voulons estimer la proportion p au niveau de confiance (1-) avec une marge d ’erreur maximale notée e, alors nous avons la relation suivante pour le calcul de la taille n de l ’échantillon:

I.C. pour estimer la moyenne  Programme EXCEL: ICmoyenne.xls De façon générale, si la taille de l’échantillon n est assez grande, l ’intervalle de confiance au niveau (1 - ) pour estimer la vraie moyenne  de la population, est donnée par:

Remarques: Cette formule est approximative et s’applique uniquement pour les grands échantillons (sauf si la caractéristique a une distribution normale et que l ’écart type est connu  la formule est exacte). Lorsque l ’écart type  est inconnu, on utilise une estimation de  et on remplace la valeur de Z0,025=1,96 pour une valeur légèrement supérieure lu dans une table de la loi de Student qui dépend de la taille de l ’échantillon.

Remarques: (suite) Interprétation d’un intervalle de confiance au niveau 95% pour la moyenne  d ’une caractéristique dans la population: Si je prends tous les échantillons aléatoires de taille n et que je calcule pour chacun un intervalle de confiance de 95%, 95% d’entre eux incluront la vraie moyenne  de la population, et donc 5% ne l ’incluront pas.

Exemple Afin de connaître le coût hebdomadaire moyen du panier d ’épicerie pour une famille de 4 personnes résidant à Sherbrooke, on prélève un échantillon de 50 de ces familles et on note le montant de leur épicerie de cette semaine. On obtient un montant moyen de 155$. L’écart type de l’échantillon est de 15$.

Exemple (suite) : Estimer le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke à l ’aide d ’un intervalle de confiance de 95% de certitude (on suppose l ’écart type connu à 15$): m = 155 ± 4.16 En affirmant que le coût actuel moyen du panier d ’épicerie d ’une famille de 4 personnes résidant à Sherbrooke est dans l ’intervalle [150.84$, 159.16$], je suis 95% certain d’avoir raison.

Étude de cas Les données du fichier credit.xls représentent le montant dû sur des cartes de crédit ainsi que le revenu total de 100 familles québécoises choisies au hasard. Quel est le montant dû moyen d’une famille québécoise? Quelle est la précision de votre estimation? Que peut-on dire pour une famille canadienne? En faisant l’hypothèse que 2 500 000 familles utilisent au moins une carte de crédit régulièrement, quelle est la dette totale de ces familles québécoises? Quelle est la précision de votre estimation?

Exemple Une compagnie désire mettre sur le marché un nouveau logiciel permettant de ne plus recevoir de pourriels. Elle vise un marché de 800 000 consommateurs potentiels. Avant de lancer le produit elle fait une enquête auprès de 40 ménages et 6 se déclarent intéressés par le nouveau produit. Le profit par logiciel vendu est de 3$ et la compagnie doit absorber des coûts fixes de 50 000$. Quelle est la décision? Discussion: Est-ce la meilleure façon de répondre à la question?