La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence.

Présentations similaires


Présentation au sujet: "Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence."— Transcription de la présentation:

1 Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence

2 2 Bien souvent, une décision se prend à la suite d’une analyse quantitative de certains paramètres. Exemples:  Deux concepts publicitaires vous sont proposés pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score d’efficacité dans votre marché cible.  Si la résistance ou durabilité moyenne d’un nouveau produit est significativement plus grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché.  Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d ’en faire un.

3 3 En général, les paramètres qui nous intéressent sont estimés à l ’aide d ’un échantillon et notre décision sera prise à la suite d’un test d’hypothèse.  Exemple: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ ils voteraient oui, aujourd’hui, à un référendum sur la souveraineté du Québec.

4 4 Que fait Bernard Landry si:  432 électeurs votaient oui?  (432/1000 = 43,2%)  il ne fait définitivement pas un référendum.  517 électeurs votaient oui?  (517/1000 = 51,7%)  est-ce que 51,7 % est significativement plus grand que 50%?  612 électeurs votaient oui?  (612/1000 = 61,2%)  61.2% est fort probablement significativement plus grand que 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.

5 5 Notions de base des tests d’hypothèses  Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme «significativement différent », statistiquement parlant, en y associant une probabilité d’erreur.  En d’autres termes, nous voulons savoir, à partir des résultats obtenus dans l ’échantillon, quelle est la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un référendum sur la souveraineté.

6 6 Notions de base des tests d’hypothèses (suite)  Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un référendum sur la souveraineté bientôt.  Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il attendra encore un certain temps pour avoir des « conditions gagnantes » et faire un référendum.

7 7 Notions de base des tests d’hypothèses (suite) Il y a essentiellement deux possibilités:Il y a essentiellement deux possibilités:  50% ou moins des électeurs voteraient oui si un référendum avait lieu aujourd’hui;  plus de 50% des électeurs voteraient oui.  La première possibilité est appelée hypothèse nulle (notée H 0 ).  La deuxième possibilité est appelée la contre- hypothèse (notée H 1 ).

8 8 Notation:  Soit « p » la vraie proportion d’électeurs qui voteraient oui à un référendum, alors on a les deux possibilités suivantes:  H 0 : p  50% vsH 1 : p > 50%  Règle générale, la contre-hypothèse est ce que l’on veut montrer « hors de tout doute raisonnable! » c.- à-d. on veut que la probabilité de se tromper en prenant la décision H 1, à partir des résultats de l ’échantillon, soit petite.

9 9 Les erreurs possibles lors d’une prise de décision à partir d ’un échantillon:  Erreur de Type I:  Rejeter H 0 en faveur de H 1 (c.-à-d. prendre la décision H 1 ) lorsque en réalité H 0 est vraie.  La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique.  La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique.  Erreur de Type II:  Ne pas rejeter H 0 en faveur de H 1 lorsque en réalité H 1 est vraie.

10 10 Est-ce que l’accusé est coupable ou non coupable?

11 11 Contrôle des erreurs de Type I et II  Étant donné les résultats obtenus dans l ’échantillon, je calcule la probabilité de commettre une erreur de Type I (p-value).  Si cette probabilité est relativement petite (p- value < 5% par exemple), alors on rejettera H 0 pour prendre la décision H 1. Sinon on ne rejettera pas H 0.

12 12 P-value  Mesure la confiance que l’on a en H 0  Une petite value de la p-value indique que vous devriez être moins confiant en H 0  Combien la p-value doit-elle être petite pour rejeter H 0 en faveur de H 1 ?  Cela dépend de vous…

13 13 Contrôle des erreurs de Type I et II (suite)  Pour une erreur de Type I fixée à l’avance (ex. 5%), on contrôle l’erreur de Type II avant de mener l ’étude à l’aide de la taille de l’échantillon.  On définit la puissance d’un test d’hypothèse comme la quantité: ( 1- probabilité de commettre une erreur de Type II).

14 14 Dans les prochaines minutes, nous verrons cinq tests statistiques de base: 1.test sur une proportion 2.test sur une moyenne 3.test sur la différence entre deux proportions 4.test sur la différence entre deux moyennes pour deux échantillons indépendants 5.test sur la différence entre deux moyennes pour un même échantillon

15 15 1.Test sur une proportion: Exemple: Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La direction de l’entreprise envisage d’augmenter les dépenses publicitaires pour ce produit si moins de 70% de la population connaît le produit.

16 16 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p » la vraie proportion d’individus dans la population qui connaissent le produit et « p 0 » la valeur qui correspond à notre hypothèse ou prise de décision (p 0 = 70% dans l’exemple précédent). On a le choix entre:  H 0 : p  p 0 vs H 1 : p > p 0 (test unilatéral à droite)  H 0 : p  p 0 vs H 1 : p < p 0 (test unilatéral à gauche)  H 0 : p = p 0 vs H 1 : p  p 0 (test bilatéral)

17 17 Procédure : On prélève un échantillon de n individus dans la population cible, et on calcule la proportion d’individus qui connaissent le produit. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre- hypothèse H 1, c.-à-d. p-value < .

18 18 La statistique du test est donné par: Si l’hypothèse nulle H 0 est vraie et que la taille de l’échantillon est grande, la statistique z suivra approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].

19 19 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I.  Test unilatéral à droite:  p-value = Prob[N(0,1) > z]  Test unilatéral à gauche:  p-value = Prob[N(0,1) < z]  Test bilatéral:  p-value = 2 x Prob[N(0,1) > |z|]  Pur le calculs nous utiliserons proportion- 1t.xls proportion- 1t.xlsproportion- 1t.xls

20 20 L’entreprise commande une enquête téléphonique auprès de 500 personnes faisant partie de la population cible.  372 individus répondent qu’ils connaissent le produit (372/500 = 74,4%).  H 0 : p = 70% vs H 1 : p  70%   p-value = 2xProb[N(0,1) > |2,147|] = 0,031793  On rejettera H 0 au niveau 5%.  De plus, puisque 74.4% > 70%, on prendra la décision de réduire le budget publicitaire pour ce produit.

21 21 Correspondance entre le test bilatéral et l ’intervalle de confiance:  Intervalle de confiance au niveau 95% pour la proportion d’individus dans la population qui connaissent le produit :  I.C. au niveau 95% : (0,706 ; 0,782)  Puisque l ’intervalle de confiance au niveau 95% ne contient pas la valeur p 0 = 70%, on rejettera H 0 au niveau 5%.  En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.

22 22 Exemple des intentions de vote:  On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 517 électeurs répondent qu’ils voteraient oui.  H 0 : p  50% vsH 1 : p > 50%   p-value = 0.1411  On ne rejettera pas H 0 au niveau 5%  Bernard Landry ne fera pas de référendum prochainement

23 23 Exemple des intentions de vote:  On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 612 électeurs répondent qu’ils voteraient oui.  H 0 : p  50% vsH 1 : p > 50%   p-value = 7.08E-13  On rejettera H 0 au niveau 5%  Bernard Landry ferait un référendum prochainement.

24 24 Test vs intervalle de confiance  Tester H 0 : p = p 0 vs H 1 : p  p 0 revient à construire un intervalle de confiance pour p 0.  On rejette H 0 si p 0 n’est pas dans l’intervalle.

25 25 2.Test sur une moyenne  Exemple: Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips Lay’s. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le poids moyen de l ’échantillon est calculé. Le procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 grammes.

26 26 Quelles sont les hypothèses possibles que nous voulons confronter? Soit «  » la vraie moyenne d ’une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance  2. Soit «  0 » la valeur de la moyenne qui correspond à notre hypothèse ou prise de décision (  0 = 170g dans l’exemple précédent). On a le choix entre:  H 0 :    0 vs H 1 :  >  0 (test unilatéral à droite)  H 0 :    0 vs H 1 :  <  0 (test unilatéral à gauche)  H 0 :  =  0 vs H 1 :    0 (test bilatéral)

27 27 Procédure: On prélève un échantillon de taille n dans la population cible et on calcule la moyenne et l’écart type s. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à- d. suffisamment d’évidence en faveur de la la contre-hypothèse H 1, c.-à-d. p-value < .

28 28 La statistique du test est donné par: Si l’hypothèse nulle H 0 est vraie, la statistique t suivra une loi de Student avec n-1 degrés de liberté [ notée t(n- 1) ].

29 29 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I.  Test unilatéral à droite:  p-value=Prob[ t(n-1) > t ]  Test unilatéral à gauche:  p-value=Prob[ t(n-1) < t ]  Test bilatéral:  p-value= 2 x Prob[ t(n-1) > |t| ]  Intervalle de confiance pour  au niveau (1-  )  Nous calculerons la p-value avec moyenne-1t.xls moyenne-1t.xls

30 30 Exemple:  La moyenne de l’échantillon de 100 sacs de chips est de 169,9 grammes et l’écart type s =0,27.  H 0 :  = 170g vsH 1 :   170g  p-value = 0,0003  On rejettera H 0 ici sans avoir peur de se tromper!  Intervalle de confiance pour  au niveau 95%:  [169,846 ; 169,953]  L ’intervalle ne contient pas la valeur 170  on rejette H 0 au niveau 5%

31 31  Si la moyenne de l’échantillon de 100 sacs de chips est de 170.011 grammes et l’écart type s = 0,27.  H 0 :  = 170g vsH 1 :   170g  p-value = 0,69  On ne rejettera pas H 0  Intervalle de confiance pour  au niveau 95%:  [169,957 ; 170,064]  L’intervalle contient la valeur 170  on ne rejette pas H 0 au niveau 5%

32 32 Test vs intervalle de confiance  Tester H 0 :   vs H 1 :   revient à construire un intervalle de confiance pour     On rejette H 0 si   n’est pas dans l’intervalle.

33 33 Étude de cas  Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les autres villes.  On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus sous-payés.

34 34 Étude de cas (suite)  On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires est de 16000$.  a) Quelle est la probabilité critique?  b) Quelle est votre conclusion?  c) L a ville vous propose d'augmenter le salaire annuel moyen à 46500$. Le négociateur a-t-il respecté sa promesse?

35 35 3.Test sur la différence entre deux proportions  Exemple: Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera fort probablement aménagé dans cette municipalité.

36 36 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p 1 » la vraie proportion d’individus en faveur dans la population 1 et « p 2 » la vraie proportion d’individus en faveur dans la population 2. On a le choix entre:  H 0 : p 1  p 2 vs H 1 : p 1 > p 2 (test unilatéral)  H 0 : p 1  p 2 vs H 1 : p 1 < p 2 (test unilatéral)  H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral)

37 37 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et de taille n 2 dans la population 2. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment d’évidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value < .  La statistique du test est donné par:

38 38 où  Si l’hypothèse nulle H 0 est vraie et que les tailles des deux échantillons sont suffisamment grandes, la statistique du test z suivra approximativement une loi normale avec moyenne 0 et variance 1.  Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

39 39  Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%).  H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral)  p-value = 2xProb[N(0,1) > |0,99|] = 0,322  On ne rejettera pas H 0 au niveau 5%

40 40 4.Test sur la différence entre deux moyennes  Exemple: Un nouveau procédé technique a été recommandé par une firme de consultants pour réduire le niveau de pollution de l ’air dans l ’environnement d ’une usine. L ’objectif est de réduire le taux de monoxide de carbone dans l ’air. Des essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.

41 41 Quelles sont les hypothèses possibles que nous voulons confronter? Soit «  1 » la vraie moyenne de la caractéristique dans la population 1 et «  2 » la vraie moyenne de la caractéristique dans la population 2. On a le choix entre:  H 0 :  1   2 vs H 1 :  1 >  2 (test unilatéral)  H 0 :  1   2 vs H 1 :  1 <  2 (test unilatéral)  H 0 :  1 =  2 vs H 1 :  1   2 (test bilatéral)

42 42 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et, de taille n 2 dans la population 2. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment d’évidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value < . 1) Cas où les variances des 2 populations sont égales 1) Cas où les variances des 2 populations sont égales La statistique du test est donné par: La statistique du test est donné par:

43 43 2) Cas où les variances des 2 populations sont inégales La statistique du test est donné par: La statistique du test est donné par:  Si l’hypothèse nulle H 0 est vraie, la statistique du test t suivra une loi de Student.  Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

44 44 La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats: 1) Test pour l ’égalité des variances: Le p-value pour le test bilatéral d ’égalité des variances est égal à 2x0,000049 = 0,000098 => on rejette l ’hypothèse d ’égalité des variances.

45 45 2) Test pour l ’égalité des moyennes lorsque les variances sont inégales: H 0 :  actuel   nouveau vs H 1 :  actuel >  nouveau

46 46 5. Test sur la différence de deux moyennes pour un même échantillon  Exemple: La directrice des ressources humaines d ’une entreprise veut suggérer à la direction de mettre en œuvre un programme spécial d ’apprentissage pour les employés affectés au département d ’assemblage. Pour évaluer l ’efficacité de ce programme d ’une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme d ’apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.

47 47 Les résultats obtenus se présentent comme suit (hr.xls) : hr.xls individu avant après différence individu avant après différence 1 15 17 2 2 13 16 3 3 8 10 2 4 9 9 0 5 7 9 2 6 12 13 1 7 11 14 3 8 12 15 3 9 11 14 3 10 9 11 2 11 10 14 4 12 12 11 -1 13 11 13 2 14 7 10 3 15 12 13 1

48 48 Les résultats de l ’analyse statistique à l ’aide de Excel se présentent comme suit:

49 49 Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme d’apprentissage sont moindres que les gains en productivité, alors on adoptera le programme. Ce test est équivalent au test sur une moyenne pour la variable différence entre après et avant:

50 Analyse de données qualitatives

51 51 Exemple: Une étude a été effectuée par le département des ressources humaines d’une grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi. Un total de 527 employés ont participé à cet étude.

52 52 Voici, sous forme de tableau, les résultats obtenus: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 17 | 62 | 79 cadre | | | --------------------------------------------- col blanc | 50 | 112 | 162 --------------------------------------------- col bleu | 99 | 187 | 286 --------------------------------------------- Total | 166 | 361 | 527

53 53 Question: est-ce qu’il y a un lien entre le type d’emploi et la satisfaction dans cette entreprise?  La variable « type d ’emploi » est une variable qualitative à trois niveaux c.-à-d. à trois catégories.  La variable « satisfaction » est également qualitative dans cet exemple et à deux niveaux.

54 54 Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages: EMPLOI(emploi) SATIS(satisfaction) Fréquence | % | % ligne | % colonne |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 17 | 62 | 79 cadre | 3.23 | 11.76 | 14.99 | 21.52 | 78.48 | | 10.24 | 17.17 | --------------------------------------------- col blanc | 50 | 112 | 162 | 9.49 | 21.25 | 30.74 | 30.86 | 69.14 | | 30.12 | 31.02 | --------------------------------------------- col bleu | 99 | 187 | 286 | 18.79 | 35.48 | 54.27 | 34.62 | 65.38 | | 59.64 | 51.80 | --------------------------------------------- Total | 166 | 361 | 527 | 31.50 | 68.50 | 100.00

55 55 Les tableaux croisés permettent:  de synthétiser et présenter l’information  de décrire la présence ou l’absence de lien entre deux variables qualitatives (nominales et/ou ordinales)  de vérifier, à l’aide d’un test d’hypothèse, s’il existe un lien statistiquement significatif entre deux variables qualitatives

56 56 Les deux hypothèses possibles que l’on veut confronter sont: H 0 : Il n ’y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes H 1 : Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories d’une variable est identique (semblable) pour chaque catégorie de l’autre variable.

57 57 Pour illustrer le concept du test d’indépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les effectifs suivants afin de faciliter les calculs: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 0 | 100 | 100 cadre | | | --------------------------------------------- col blanc | 100 | 200 | 300 --------------------------------------------- col bleu | 300 | 300 | 600 --------------------------------------------- Total | 400 | 600 | 1000

58 58 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 10.00 ‚ 10.00 ‚ 0.00 ‚ 100.00 ‚ ‚ 0.00 ‚ 16.67 ‚ --------------------------------------------- col blanc ‚ 100 ‚ 200 ‚ 300 ‚ 10.00 ‚ 20.00 ‚ 30.00 ‚ 33.33 ‚ 66.67 ‚ ‚ 25.00 ‚ 33.33 ‚ --------------------------------------------- col bleu ‚ 300 ‚ 300 ‚ 600 ‚ 30.00 ‚ 30.00 ‚ 60.00 ‚ 50.00 ‚ 50.00 ‚ ‚ 75.00 ‚ 50.00 ‚ --------------------------------------------- Total 400 600 1000 40.00 60.00 100.00

59 59 Dans le tableau précédent, les deux variables sont dépendantes car:  pour chaque type d’emploi, la distribution de la satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne);  ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).

60 60 Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau (remarque: les totaux pour les lignes et les colonnes sont inchangés): EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | ---------------------------------------------- professionnel/ | 40 | 60 | 100 cadre | | | ---------------------------------------------- col blanc | 120 | 180 | 300 ---------------------------------------------- col bleu | 240 | 360 | 600 ---------------------------------------------- Total | 400 | 600 | 1000

61 61 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 4.00 ‚ 6.00 ‚ 10.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 10.00 ‚ 10.00 ‚ --------------------------------------------- col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 12.00 ‚ 18.00 ‚ 30.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 30.00 ‚ 30.00 ‚ --------------------------------------------- col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 24.00 ‚ 36.00 ‚ 60.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 60.00 ‚ 60.00 ‚ --------------------------------------------- Total 400 600 1000 40.00 60.00 100.00

62 62 Dans le tableau précédent, les deux variables sont indépendantes car:  pour chaque type d’emploi, la distribution de la satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne).  ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est la même, c.- à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).

63 63  Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. les fréquences qu’on devrait avoir si les deux variables étaient parfaitement indépendantes.  Si l’hypothèse d ’indépendance est vraie, les fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit:  f théo cellule ij = (total rangée i) x (total colonne j) / total

64 64  Tester l’indépendance entre deux variables qualitatives revient à tester la différence entre les fréquences observées et les fréquences théoriques.  Si les deux variables sont indépendantes, les fréquences observées devraient être proche des fréquences théoriques.  La statistique du test est donnée par:  2 obs = somme [(f obs -f théo ) 2 /f théo ]

65 65  On rejettera l’hypothèse d’indépendance si la valeur de la statistique  2 obs est grande.  Le calcul du seuil expérimental (p-value) se fait à l’aide de la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé.  Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont  5 (ou presque).  On peut démontrer que 0   2 obs  n(m-1), où m=minimum (# lignes, # colonnes).

66 66  La valeur de la statistique  2 obs vaut 0 lorsque les deux variables sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.  Le coefficient de Cramer se définit à partir de la statistique  2 obs et sert à mesurer l’intensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé).  Coefficient de Cramer:  Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l ’autre, V= 1.

67 67 Exemple: dépendance (lien fonctionnel) EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col blanc ‚ 0 ‚ 300 ‚ 300 ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col bleu ‚ 600 ‚ 0 ‚ 600 ‚ 100.00 ‚ 0.00 ‚ --------------------------------------------- Total 600 400 1000 Statistique DL Valeur P-value ------------------------------------------------ Khi-deux 2 1000.000 0.000

68 68 Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- Total 400 600 1000 Statistique DL Valeur P-value --------------------------------------------------- Khi-deux 2 0.000 1.000

69 69 Exemple: EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 17 ‚ 62 ‚ 79 cadre ‚ 24.884 ‚ 54.116 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚ --------------------------------------------- col blanc ‚ 50 ‚ 112 ‚ 162 ‚ 51.028 ‚ 110.97 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚ --------------------------------------------- col bleu ‚ 99 ‚ 187 ‚ 286 ‚ 90.087 ‚ 195.91 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚ --------------------------------------------- Total 166 361 527 31.50 68.50 100.00

70 70 Résultats du test statistique: (obtenu avec tc.xls) tc.xls Donc, on ne rejettera pas l’hypothèse d ’indépendance au niveau  =5% car le « p-value » est > 5%.

71 71 Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que les distributions sont les mêmes? EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 34 ‚ 124 ‚ 158 cadre ‚ 49.769 ‚ 108.23 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚ --------------------------------------------- col blanc ‚ 100 ‚ 224 ‚ 324 ‚ 102.06 ‚ 221.94 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚ --------------------------------------------- col bleu ‚ 198 ‚ 374 ‚ 572 ‚ 180.17 ‚ 391.83 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚ --------------------------------------------- Total 332 722 1054 31.50 68.50 100.00

72 72 Résultats du test statistique: Donc, on rejettera l’hypothèse d’indépendance au niveau  =5% car le « p-value » est < 5%!!

73 73 Application: test sur la différence entre deux proportions  Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1, n 1 individus ont répondu au sondage scientifique et n 2 individus dans la municipalité 2.

74 74 Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral) Remarque: on peut poser le problème de la façon suivante: est-ce qu ’il y a un lien entre la variable municipalité et l’opinion sur l’aménagement d ’un site pour l’enfouissement des déchets.

75 75 MUNI(municipalité) OPINION Fréquence‚ Fréq th. ‚ % ‚ % ligne ‚ % colonne‚non ‚en ‚ Total ‚favorable‚faveur ‚ ------------------------------------ 1 ‚ 66 ‚ 84 ‚ 150 ‚ 70.073 ‚ 79.927 ‚ ‚ 24.09 ‚ 30.66 ‚ 54.74 ‚ 44.00 ‚ 56.00 ‚ ‚ 51.56 ‚ 57.53 ‚ ------------------------------------ 2 ‚ 62 ‚ 62 ‚ 124 ‚ 57.927 ‚ 66.073 ‚ ‚ 22.63 ‚ 22.63 ‚ 45.26 ‚ 50.00 ‚ 50.00 ‚ ‚ 48.44 ‚ 42.47 ‚ ------------------------------------ Total 128 146 274 46.72 53.28 100.00 Statistique DL Valeur P-value ---------------------------------------------------- Khi-deux 1 0.982 0.322

76 76 En utilisant le test d’indépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter l’hypothèse nulle d’indépendance. Les deux proportions ne sont pas significativement différentes.


Télécharger ppt "Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence."

Présentations similaires


Annonces Google