La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence.

Présentations similaires


Présentation au sujet: "Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence."— Transcription de la présentation:

1 Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence

2 2 Bien souvent, une décision se prend à la suite dune analyse quantitative de certains paramètres. Exemples: Deux concepts publicitaires vous sont proposés pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score defficacité dans votre marché cible. Deux concepts publicitaires vous sont proposés pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score defficacité dans votre marché cible. Si la résistance ou durabilité moyenne dun nouveau produit est significativement plus grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché. Si la résistance ou durabilité moyenne dun nouveau produit est significativement plus grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché. Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d en faire un. Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d en faire un.

3 3 En général, les paramètres qui nous intéressent sont estimés à l aide d un échantillon et notre décision sera prise à la suite dun test dhypothèse. Exemple: Exemple: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ils voteraient oui, aujourdhui, à un référendum sur la souveraineté du Québec.

4 4 Que fait Bernard Landry si: 432 électeurs votaient oui? 432 électeurs votaient oui? (432/1000 = 43,2%) (432/1000 = 43,2%) il ne fait définitivement pas un référendum. il ne fait définitivement pas un référendum. 517 électeurs votaient oui? 517 électeurs votaient oui? (517/1000 = 51,7%) (517/1000 = 51,7%) est-ce que 51,7 % est significativement plus grand que 50%? est-ce que 51,7 % est significativement plus grand que 50%? 612 électeurs votaient oui? 612 électeurs votaient oui? (612/1000 = 61,2%) (612/1000 = 61,2%) 61.2% est fort probablement significativement plus grand que 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec. 61.2% est fort probablement significativement plus grand que 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.

5 5 Notions de base des tests dhypothèses Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme «significativement différent », statistiquement parlant, en y associant une probabilité derreur. Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme «significativement différent », statistiquement parlant, en y associant une probabilité derreur. En dautres termes, nous voulons savoir, à partir des résultats obtenus dans l échantillon, quelle est la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un référendum sur la souveraineté. En dautres termes, nous voulons savoir, à partir des résultats obtenus dans l échantillon, quelle est la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un référendum sur la souveraineté.

6 6 Notions de base des tests dhypothèses (suite) Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un référendum sur la souveraineté bientôt. Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un référendum sur la souveraineté bientôt. Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il attendra encore un certain temps pour avoir des « conditions gagnantes » et faire un référendum. Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il attendra encore un certain temps pour avoir des « conditions gagnantes » et faire un référendum.

7 7 Notions de base des tests dhypothèses (suite) Il y a essentiellement deux possibilités:Il y a essentiellement deux possibilités: 50% ou moins des électeurs voteraient oui si un référendum avait lieu aujourdhui; 50% ou moins des électeurs voteraient oui si un référendum avait lieu aujourdhui; plus de 50% des électeurs voteraient oui. plus de 50% des électeurs voteraient oui. La première possibilité est appelée hypothèse nulle (notée H 0 ). La première possibilité est appelée hypothèse nulle (notée H 0 ). La deuxième possibilité est appelée la contre- hypothèse (notée H 1 ). La deuxième possibilité est appelée la contre- hypothèse (notée H 1 ).

8 8 Notation: Soit « p » la vraie proportion délecteurs qui voteraient oui à un référendum, alors on a les deux possibilités suivantes: Soit « p » la vraie proportion délecteurs qui voteraient oui à un référendum, alors on a les deux possibilités suivantes: H 0 : p 50% vsH 1 : p > 50% H 0 : p 50% vsH 1 : p > 50% Règle générale, la contre-hypothèse est ce que lon veut montrer « hors de tout doute raisonnable! » c.- à-d. on veut que la probabilité de se tromper en prenant la décision H 1, à partir des résultats de l échantillon, soit petite. Règle générale, la contre-hypothèse est ce que lon veut montrer « hors de tout doute raisonnable! » c.- à-d. on veut que la probabilité de se tromper en prenant la décision H 1, à partir des résultats de l échantillon, soit petite.

9 9 Les erreurs possibles lors dune prise de décision à partir d un échantillon: Erreur de Type I: Erreur de Type I: Rejeter H 0 en faveur de H 1 (c.-à-d. prendre la décision H 1 ) lorsque en réalité H 0 est vraie. Rejeter H 0 en faveur de H 1 (c.-à-d. prendre la décision H 1 ) lorsque en réalité H 0 est vraie. La probabilité d une erreur de Type I est la probabilité quon a d observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique. La probabilité d une erreur de Type I est la probabilité quon a d observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique. Erreur de Type II: Erreur de Type II: Ne pas rejeter H 0 en faveur de H 1 lorsque en réalité H 1 est vraie. Ne pas rejeter H 0 en faveur de H 1 lorsque en réalité H 1 est vraie.

10 10 Est-ce que laccusé est coupable ou non coupable?

11 11 Contrôle des erreurs de Type I et II Étant donné les résultats obtenus dans l échantillon, je calcule la probabilité de commettre une erreur de Type I (p-value). Étant donné les résultats obtenus dans l échantillon, je calcule la probabilité de commettre une erreur de Type I (p-value). Si cette probabilité est relativement petite (p- value < 5% par exemple), alors on rejettera H 0 pour prendre la décision H 1. Sinon on ne rejettera pas H 0. Si cette probabilité est relativement petite (p- value < 5% par exemple), alors on rejettera H 0 pour prendre la décision H 1. Sinon on ne rejettera pas H 0.

12 12 P-value Mesure la confiance que lon a en H 0 Mesure la confiance que lon a en H 0 Une petite value de la p-value indique que vous devriez être moins confiant en H 0 Une petite value de la p-value indique que vous devriez être moins confiant en H 0 Combien la p-value doit-elle être petite pour rejeter H 0 en faveur de H 1 ? Combien la p-value doit-elle être petite pour rejeter H 0 en faveur de H 1 ? Cela dépend de vous… Cela dépend de vous…

13 13 Contrôle des erreurs de Type I et II (suite) Pour une erreur de Type I fixée à lavance (ex. 5%), on contrôle lerreur de Type II avant de mener l étude à laide de la taille de léchantillon. Pour une erreur de Type I fixée à lavance (ex. 5%), on contrôle lerreur de Type II avant de mener l étude à laide de la taille de léchantillon. On définit la puissance dun test dhypothèse comme la quantité: On définit la puissance dun test dhypothèse comme la quantité: ( 1- probabilité de commettre une erreur de Type II).

14 14 Dans les prochaines minutes, nous verrons cinq tests statistiques de base: 1.test sur une proportion 2.test sur une moyenne 3.test sur la différence entre deux proportions 4.test sur la différence entre deux moyennes pour deux échantillons indépendants 5.test sur la différence entre deux moyennes pour un même échantillon

15 15 1.Test sur une proportion: Exemple: Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La direction de lentreprise envisage daugmenter les dépenses publicitaires pour ce produit si moins de 70% de la population connaît le produit.

16 16 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p » la vraie proportion dindividus dans la population qui connaissent le produit et « p 0 » la valeur qui correspond à notre hypothèse ou prise de décision (p 0 = 70% dans lexemple précédent). On a le choix entre: H 0 : p p 0 vs H 1 : p > p 0 (test unilatéral à droite) H 0 : p p 0 vs H 1 : p > p 0 (test unilatéral à droite) H 0 : p p 0 vs H 1 : p < p 0 (test unilatéral à gauche) H 0 : p p 0 vs H 1 : p < p 0 (test unilatéral à gauche) H 0 : p = p 0 vs H 1 : p p 0 (test bilatéral) H 0 : p = p 0 vs H 1 : p p 0 (test bilatéral)

17 17 Procédure : On prélève un échantillon de n individus dans la population cible, et on calcule la proportion dindividus qui connaissent le produit. On rejettera lhypothèse nulle H 0, au niveau, si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment dévidence en faveur de la contre- hypothèse H 1, c.-à-d. p-value <.

18 18 La statistique du test est donné par: Si lhypothèse nulle H 0 est vraie et que la taille de léchantillon est grande, la statistique z suivra approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].

19 19 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I. Test unilatéral à droite: Test unilatéral à droite: p-value = Prob[N(0,1) > z] p-value = Prob[N(0,1) > z] Test unilatéral à gauche: Test unilatéral à gauche: p-value = Prob[N(0,1) < z] p-value = Prob[N(0,1) < z] Test bilatéral: Test bilatéral: p-value = 2 x Prob[N(0,1) > |z|] p-value = 2 x Prob[N(0,1) > |z|] Pur le calculs nous utiliserons proportion- 1t.xls Pur le calculs nous utiliserons proportion- 1t.xlsproportion- 1t.xlsproportion- 1t.xls

20 20 Lentreprise commande une enquête téléphonique auprès de 500 personnes faisant partie de la population cible. 372 individus répondent quils connaissent le produit (372/500 = 74,4%). 372 individus répondent quils connaissent le produit (372/500 = 74,4%). H 0 : p = 70% vs H 1 : p 70% H 0 : p = 70% vs H 1 : p 70% p-value = 2xProb[N(0,1) > |2,147|] = 0, p-value = 2xProb[N(0,1) > |2,147|] = 0, On rejettera H 0 au niveau 5%. On rejettera H 0 au niveau 5%. De plus, puisque 74.4% > 70%, on prendra la décision de réduire le budget publicitaire pour ce produit. De plus, puisque 74.4% > 70%, on prendra la décision de réduire le budget publicitaire pour ce produit.

21 21 Correspondance entre le test bilatéral et l intervalle de confiance: Intervalle de confiance au niveau 95% pour la proportion dindividus dans la population qui connaissent le produit : Intervalle de confiance au niveau 95% pour la proportion dindividus dans la population qui connaissent le produit : I.C. au niveau 95% : (0,706 ; 0,782) I.C. au niveau 95% : (0,706 ; 0,782) Puisque l intervalle de confiance au niveau 95% ne contient pas la valeur p 0 = 70%, on rejettera H 0 au niveau 5%. Puisque l intervalle de confiance au niveau 95% ne contient pas la valeur p 0 = 70%, on rejettera H 0 au niveau 5%. En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper. En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.

22 22 Exemple des intentions de vote: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ils voteraient oui aujourdhui à un référendum sur la souveraineté. Dans l échantillon, 517 électeurs répondent quils voteraient oui. On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ils voteraient oui aujourdhui à un référendum sur la souveraineté. Dans l échantillon, 517 électeurs répondent quils voteraient oui. H 0 : p 50% vsH 1 : p > 50% H 0 : p 50% vsH 1 : p > 50% p-value = p-value = On ne rejettera pas H 0 au niveau 5% On ne rejettera pas H 0 au niveau 5% Bernard Landry ne fera pas de référendum prochainement Bernard Landry ne fera pas de référendum prochainement

23 23 Exemple des intentions de vote: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ils voteraient oui aujourdhui à un référendum sur la souveraineté. Dans l échantillon, 612 électeurs répondent quils voteraient oui. On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ils voteraient oui aujourdhui à un référendum sur la souveraineté. Dans l échantillon, 612 électeurs répondent quils voteraient oui. H 0 : p 50% vsH 1 : p > 50% H 0 : p 50% vsH 1 : p > 50% p-value = 7.08E-13 p-value = 7.08E-13 On rejettera H 0 au niveau 5% On rejettera H 0 au niveau 5% Bernard Landry ferait un référendum prochainement. Bernard Landry ferait un référendum prochainement.

24 24 Test vs intervalle de confiance Tester H 0 : p = p 0 vs H 1 : p p 0 revient à construire un intervalle de confiance pour p 0. Tester H 0 : p = p 0 vs H 1 : p p 0 revient à construire un intervalle de confiance pour p 0. On rejette H 0 si p 0 nest pas dans lintervalle. On rejette H 0 si p 0 nest pas dans lintervalle.

25 25 2.Test sur une moyenne Exemple: Exemple: Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips Lays. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le poids moyen de l échantillon est calculé. Le procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 grammes.

26 26 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « » la vraie moyenne d une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance 2. Soit « 0 » la valeur de la moyenne qui correspond à notre hypothèse ou prise de décision ( 0 = 170g dans lexemple précédent). On a le choix entre: H 0 : 0 vs H 1 : > 0 (test unilatéral à droite) H 0 : 0 vs H 1 : > 0 (test unilatéral à droite) H 0 : 0 vs H 1 : < 0 (test unilatéral à gauche) H 0 : 0 vs H 1 : < 0 (test unilatéral à gauche) H 0 : = 0 vs H 1 : 0 (test bilatéral) H 0 : = 0 vs H 1 : 0 (test bilatéral)

27 27 Procédure: On prélève un échantillon de taille n dans la population cible et on calcule la moyenne et lécart type s. On rejettera lhypothèse nulle H 0, au niveau, si on a suffisamment de preuve contre celle-ci, c.-à- d. suffisamment dévidence en faveur de la la contre-hypothèse H 1, c.-à-d. p-value <.

28 28 La statistique du test est donné par: Si lhypothèse nulle H 0 est vraie, la statistique t suivra une loi de Student avec n-1 degrés de liberté [ notée t(n- 1) ].

29 29 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I. Test unilatéral à droite: Test unilatéral à droite: p-value=Prob[ t(n-1) > t ] p-value=Prob[ t(n-1) > t ] Test unilatéral à gauche: Test unilatéral à gauche: p-value=Prob[ t(n-1) < t ] p-value=Prob[ t(n-1) < t ] Test bilatéral: Test bilatéral: p-value= 2 x Prob[ t(n-1) > |t| ] p-value= 2 x Prob[ t(n-1) > |t| ] Intervalle de confiance pour au niveau (1- ) Intervalle de confiance pour au niveau (1- ) Nous calculerons la p-value avec moyenne-1t.xls Nous calculerons la p-value avec moyenne-1t.xlsmoyenne-1t.xls

30 30 Exemple: La moyenne de léchantillon de 100 sacs de chips est de 169,9 grammes et lécart type s =0,27. La moyenne de léchantillon de 100 sacs de chips est de 169,9 grammes et lécart type s =0,27. H 0 : = 170g vsH 1 : 170g H 0 : = 170g vsH 1 : 170g p-value = 0,0003 p-value = 0,0003 On rejettera H 0 ici sans avoir peur de se tromper! On rejettera H 0 ici sans avoir peur de se tromper! Intervalle de confiance pour au niveau 95%: Intervalle de confiance pour au niveau 95%: [169,846 ; 169,953] [169,846 ; 169,953] L intervalle ne contient pas la valeur 170 on rejette H 0 au niveau 5% L intervalle ne contient pas la valeur 170 on rejette H 0 au niveau 5%

31 31 Si la moyenne de léchantillon de 100 sacs de chips est de grammes et lécart type s = 0,27. Si la moyenne de léchantillon de 100 sacs de chips est de grammes et lécart type s = 0,27. H 0 : = 170g vsH 1 : 170g H 0 : = 170g vsH 1 : 170g p-value = 0,69 p-value = 0,69 On ne rejettera pas H 0 On ne rejettera pas H 0 Intervalle de confiance pour au niveau 95%: Intervalle de confiance pour au niveau 95%: [169,957 ; 170,064] [169,957 ; 170,064] Lintervalle contient la valeur 170 on ne rejette pas H 0 au niveau 5% Lintervalle contient la valeur 170 on ne rejette pas H 0 au niveau 5%

32 32 Test vs intervalle de confiance Tester H 0 : vs H 1 : revient à construire un intervalle de confiance pour Tester H 0 : vs H 1 : revient à construire un intervalle de confiance pour On rejette H 0 si nest pas dans lintervalle. On rejette H 0 si nest pas dans lintervalle.

33 33 Étude de cas Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les autres villes. Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les autres villes. On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus sous-payés. On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus sous-payés.

34 34 Étude de cas (suite) On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires est de 16000$. On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires est de 16000$. a) Quelle est la probabilité critique? a) Quelle est la probabilité critique? b) Quelle est votre conclusion? b) Quelle est votre conclusion? c) L a ville vous propose d'augmenter le salaire annuel moyen à 46500$. Le négociateur a-t-il respecté sa promesse? c) L a ville vous propose d'augmenter le salaire annuel moyen à 46500$. Le négociateur a-t-il respecté sa promesse?

35 35 3.Test sur la différence entre deux proportions Exemple: Exemple: Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître lopinion des contribuables sur l aménagement d un site pour l enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l autre municipalité, alors le site sera fort probablement aménagé dans cette municipalité.

36 36 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p 1 » la vraie proportion dindividus en faveur dans la population 1 et « p 2 » la vraie proportion dindividus en faveur dans la population 2. On a le choix entre: H 0 : p 1 p 2 vs H 1 : p 1 > p 2 (test unilatéral) H 0 : p 1 p 2 vs H 1 : p 1 > p 2 (test unilatéral) H 0 : p 1 p 2 vs H 1 : p 1 < p 2 (test unilatéral) H 0 : p 1 p 2 vs H 1 : p 1 < p 2 (test unilatéral) H 0 : p 1 = p 2 vs H 1 : p 1 p 2 (test bilatéral) H 0 : p 1 = p 2 vs H 1 : p 1 p 2 (test bilatéral)

37 37 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et de taille n 2 dans la population 2. On rejettera lhypothèse nulle H 0, au niveau, si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment dévidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value <. La statistique du test est donné par: La statistique du test est donné par:

38 38 où Si lhypothèse nulle H 0 est vraie et que les tailles des deux échantillons sont suffisamment grandes, la statistique du test z suivra approximativement une loi normale avec moyenne 0 et variance 1. Si lhypothèse nulle H 0 est vraie et que les tailles des deux échantillons sont suffisamment grandes, la statistique du test z suivra approximativement une loi normale avec moyenne 0 et variance 1. Ceci nous sert à calculer le « p-value » afin de prendre notre décision. Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

39 39 Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H 0 : p 1 = p 2 vs H 1 : p 1 p 2 (test bilatéral) H 0 : p 1 = p 2 vs H 1 : p 1 p 2 (test bilatéral) p-value = 2xProb[N(0,1) > |0,99|] = 0,322 p-value = 2xProb[N(0,1) > |0,99|] = 0,322 On ne rejettera pas H 0 au niveau 5% On ne rejettera pas H 0 au niveau 5%

40 40 4.Test sur la différence entre deux moyennes Exemple: Exemple: Un nouveau procédé technique a été recommandé par une firme de consultants pour réduire le niveau de pollution de l air dans l environnement d une usine. L objectif est de réduire le taux de monoxide de carbone dans l air. Des essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.

41 41 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « 1 » la vraie moyenne de la caractéristique dans la population 1 et « 2 » la vraie moyenne de la caractéristique dans la population 2. On a le choix entre: H 0 : 1 2 vs H 1 : 1 > 2 (test unilatéral) H 0 : 1 2 vs H 1 : 1 > 2 (test unilatéral) H 0 : 1 2 vs H 1 : 1 < 2 (test unilatéral) H 0 : 1 2 vs H 1 : 1 < 2 (test unilatéral) H 0 : 1 = 2 vs H 1 : 1 2 (test bilatéral) H 0 : 1 = 2 vs H 1 : 1 2 (test bilatéral)

42 42 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et, de taille n 2 dans la population 2. On rejettera lhypothèse nulle H 0, au niveau, si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment dévidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value <. 1) Cas où les variances des 2 populations sont égales 1) Cas où les variances des 2 populations sont égales La statistique du test est donné par: La statistique du test est donné par:

43 43 2) Cas où les variances des 2 populations sont inégales La statistique du test est donné par: La statistique du test est donné par: Si lhypothèse nulle H 0 est vraie, la statistique du test t suivra une loi de Student. Si lhypothèse nulle H 0 est vraie, la statistique du test t suivra une loi de Student. Ceci nous sert à calculer le « p-value » afin de prendre notre décision. Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

44 44 La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats: 1) Test pour l égalité des variances: Le p-value pour le test bilatéral d égalité des variances est égal à 2x0, = 0, => on rejette l hypothèse d égalité des variances.

45 45 2) Test pour l égalité des moyennes lorsque les variances sont inégales: H 0 : actuel nouveau vs H 1 : actuel > nouveau

46 46 5. Test sur la différence de deux moyennes pour un même échantillon Exemple: Exemple: La directrice des ressources humaines d une entreprise veut suggérer à la direction de mettre en œuvre un programme spécial d apprentissage pour les employés affectés au département d assemblage. Pour évaluer l efficacité de ce programme d une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme d apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.

47 47 Les résultats obtenus se présentent comme suit (hr.xls) : hr.xls individu avant après différence individu avant après différence

48 48 Les résultats de l analyse statistique à l aide de Excel se présentent comme suit:

49 49 Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme dapprentissage sont moindres que les gains en productivité, alors on adoptera le programme. Ce test est équivalent au test sur une moyenne pour la variable différence entre après et avant:

50 Analyse de données qualitatives

51 51 Exemple: Une étude a été effectuée par le département des ressources humaines dune grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi. Un total de 527 employés ont participé à cet étude.

52 52 Voici, sous forme de tableau, les résultats obtenus: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 17 | 62 | 79 cadre | | | col blanc | 50 | 112 | col bleu | 99 | 187 | Total | 166 | 361 | 527

53 53 Question: est-ce quil y a un lien entre le type demploi et la satisfaction dans cette entreprise? La variable « type d emploi » est une variable qualitative à trois niveaux c.-à-d. à trois catégories. La variable « type d emploi » est une variable qualitative à trois niveaux c.-à-d. à trois catégories. La variable « satisfaction » est également qualitative dans cet exemple et à deux niveaux. La variable « satisfaction » est également qualitative dans cet exemple et à deux niveaux.

54 54 Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages: EMPLOI(emploi) SATIS(satisfaction) Fréquence | % | % ligne | % colonne |non |satisfait| Total |satisfait| | professionnel/ | 17 | 62 | 79 cadre | 3.23 | | | | | | | | col blanc | 50 | 112 | 162 | 9.49 | | | | | | | | col bleu | 99 | 187 | 286 | | | | | | | | | Total | 166 | 361 | 527 | | |

55 55 Les tableaux croisés permettent: de synthétiser et présenter linformation de synthétiser et présenter linformation de décrire la présence ou labsence de lien entre deux variables qualitatives (nominales et/ou ordinales) de décrire la présence ou labsence de lien entre deux variables qualitatives (nominales et/ou ordinales) de vérifier, à laide dun test dhypothèse, sil existe un lien statistiquement significatif entre deux variables qualitatives de vérifier, à laide dun test dhypothèse, sil existe un lien statistiquement significatif entre deux variables qualitatives

56 56 Les deux hypothèses possibles que lon veut confronter sont: H 0 : Il n y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes H 1 : Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories dune variable est identique (semblable) pour chaque catégorie de lautre variable.

57 57 Pour illustrer le concept du test dindépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les effectifs suivants afin de faciliter les calculs: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 0 | 100 | 100 cadre | | | col blanc | 100 | 200 | col bleu | 300 | 300 | Total | 400 | 600 | 1000

58 58 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence % % ligne % colonne non satisfait Total satisfait professionnel/ cadre col blanc col bleu Total

59 59 Dans le tableau précédent, les deux variables sont dépendantes car: pour chaque type demploi, la distribution de la satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne); pour chaque type demploi, la distribution de la satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne); ou bien, pour chaque catégorie de satisfaction, la distribution du type demploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne). ou bien, pour chaque catégorie de satisfaction, la distribution du type demploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).

60 60 Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau (remarque: les totaux pour les lignes et les colonnes sont inchangés): EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 40 | 60 | 100 cadre | | | col blanc | 120 | 180 | col bleu | 240 | 360 | Total | 400 | 600 | 1000

61 61 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence % % ligne % colonne non satisfait Total satisfait professionnel/ cadre col blanc col bleu Total

62 62 Dans le tableau précédent, les deux variables sont indépendantes car: pour chaque type demploi, la distribution de la satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne). pour chaque type demploi, la distribution de la satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne). ou bien, pour chaque catégorie de satisfaction, la distribution du type demploi est la même, c.- à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne). ou bien, pour chaque catégorie de satisfaction, la distribution du type demploi est la même, c.- à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).

63 63 Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. les fréquences quon devrait avoir si les deux variables étaient parfaitement indépendantes. Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. les fréquences quon devrait avoir si les deux variables étaient parfaitement indépendantes. Si lhypothèse d indépendance est vraie, les fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit: Si lhypothèse d indépendance est vraie, les fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit: f théo cellule ij = (total rangée i) x (total colonne j) / total f théo cellule ij = (total rangée i) x (total colonne j) / total

64 64 Tester lindépendance entre deux variables qualitatives revient à tester la différence entre les fréquences observées et les fréquences théoriques. Tester lindépendance entre deux variables qualitatives revient à tester la différence entre les fréquences observées et les fréquences théoriques. Si les deux variables sont indépendantes, les fréquences observées devraient être proche des fréquences théoriques. Si les deux variables sont indépendantes, les fréquences observées devraient être proche des fréquences théoriques. La statistique du test est donnée par: La statistique du test est donnée par: 2 obs = somme [(f obs -f théo ) 2 /f théo ] 2 obs = somme [(f obs -f théo ) 2 /f théo ]

65 65 On rejettera lhypothèse dindépendance si la valeur de la statistique 2 obs est grande. On rejettera lhypothèse dindépendance si la valeur de la statistique 2 obs est grande. Le calcul du seuil expérimental (p-value) se fait à laide de la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé. Le calcul du seuil expérimental (p-value) se fait à laide de la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé. Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont 5 (ou presque). Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont 5 (ou presque). On peut démontrer que 0 2 obs n(m-1), où m=minimum (# lignes, # colonnes). On peut démontrer que 0 2 obs n(m-1), où m=minimum (# lignes, # colonnes).

66 66 La valeur de la statistique 2 obs vaut 0 lorsque les deux variables sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsquune dépendance fonctionnelle lie une des variables à lautre. La valeur de la statistique 2 obs vaut 0 lorsque les deux variables sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsquune dépendance fonctionnelle lie une des variables à lautre. Le coefficient de Cramer se définit à partir de la statistique 2 obs et sert à mesurer lintensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé). Le coefficient de Cramer se définit à partir de la statistique 2 obs et sert à mesurer lintensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé). Coefficient de Cramer: Coefficient de Cramer: Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l autre, V= 1. Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l autre, V= 1.

67 67 Exemple: dépendance (lien fonctionnel) EMPLOI(emploi) SATIS(satisfaction) Fréquence non satisfait Total % ligne satisfait professionnel/ cadre col blanc col bleu Total Statistique DL Valeur P-value Khi-deux

68 68 Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction) Fréquence non satisfait Total % ligne satisfait professionnel/ cadre col blanc col bleu Total Statistique DL Valeur P-value Khi-deux

69 69 Exemple: EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. Fréquence théo. % % ligne % colonne non satisfait Total satisfait professionnel/ cadre col blanc col bleu Total

70 70 Résultats du test statistique: (obtenu avec tc.xls) tc.xls Donc, on ne rejettera pas lhypothèse d indépendance au niveau =5% car le « p-value » est > 5%.

71 71 Qu arrive-t-il au « p-value » si la taille de l échantillon augmente mais que les distributions sont les mêmes? EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. Fréquence théo. % % ligne % colonne non satisfait Total satisfait professionnel/ cadre col blanc col bleu Total

72 72 Résultats du test statistique: Donc, on rejettera lhypothèse dindépendance au niveau =5% car le « p-value » est < 5%!!

73 73 Application: test sur la différence entre deux proportions Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître lopinion des contribuables sur l aménagement d un site pour l enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1, n 1 individus ont répondu au sondage scientifique et n 2 individus dans la municipalité 2. Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître lopinion des contribuables sur l aménagement d un site pour l enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1, n 1 individus ont répondu au sondage scientifique et n 2 individus dans la municipalité 2.

74 74 Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H 0 : p 1 = p 2 vs H 1 : p 1 p 2 (test bilatéral) Remarque: on peut poser le problème de la façon suivante: est-ce qu il y a un lien entre la variable municipalité et lopinion sur laménagement d un site pour lenfouissement des déchets.

75 75 MUNI(municipalité) OPINION Fréquence Fréq th. % % ligne % colonnenon en Total favorablefaveur Total Statistique DL Valeur P-value Khi-deux

76 76 En utilisant le test dindépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter lhypothèse nulle dindépendance. Les deux proportions ne sont pas significativement différentes.


Télécharger ppt "Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir dinférence."

Présentations similaires


Annonces Google