Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence.

Slides:



Advertisements
Présentations similaires
Statistique Cours #2 et #3
Advertisements

Atelier 1 Le problème du surpoids sur géogébra. Etude de la prévalence du surpoids: (document Ressources pour la classe de terminale) Situation: On souhaite.
Auteur : Patrice LEPISSIER Les probabilités  Notions de base Notions de base  Variable aléatoire Variable aléatoire  La loi Normale La loi Normale.
Généralisation de la comparaison de moyennes par Analyse de la variance (ANOVA)
Chapitre 6. Introduction à l’échantillonnage Les sondages Notions fondamentales Fluctuations d’échantillonnage d’une moyenne Théorème central limite C6-1.
Utilisation du logiciel EduStat © Analyse classique d’items L’examen du rapport.
O ij BrunChâtainRouxBlond Total Marron Noisette Vert Bleu Total Dans cet exemple,
Notions de statistiques et d’analyse de données
Corrélation et régression linéaire simple
POL3140 Psychologie politique
Valeurs de toutes les différences observables sous H0
Les distributions en classes
Interprétation des indicateurs?
Deuxième partie : La courbe d’indifférence
Comparaison de deux pourcentages.
4°) Intervalle de fluctuation :
Résultat de d’une étude auprès des membres du Syndicat de Champlain
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Chapitre 13 : Echantillonnage
Coefficient de corrélation linéaire
chapitre 3 Les Statistiques
Plans d’experiences : plans de melanges
Cours 8 Stat IV: Khi2 Désign experimental. BIO 3500 – Hiver 2017
et discussion de l'article 2
Technologies de l’intelligence d’affaires Séance 11
Technologies de l’intelligence d’affaires Séance 12
Risque d’erreur de 1ère espèce : α
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
4.3 Estimation d’une proportion
4.5 Tests D’hypothèses sur une proportion
2.2 Probabilité conditionnelle
Statistiques industrielles – Exemple d’application
4.4 Tests D’hypothèses sur une moyenne
Méthode Taguchy Analyse de la variance Anavar
4.2 Estimation d’une moyenne
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Prise en compte de la pertinence et de la sincérité d’un décideur dans la déclaration d’objectifs industriels  une modélisation par la théorie des possibilités.
Introduction aux statistiques Intervalles de confiance
Statistiques Sociales LC4
La gestion des stocks (Modèle de Wilson).
ACP Analyse en Composantes Principales
Statistiques. Moyenne, Moyenne pondérée, Tableur et graphiques.
POL1803: Analyse des techniques quantitatives
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
© 2005, Michel Cloutier La gestion des stocks – La gestion de l’incertitude Calcul du stock de sécurité.
Fluctuations d’une fréquence selon les échantillons, Probabilités
4°) Intervalle de fluctuation :
P LAMBOLEZ Partie maths V GILLOT Partie anglais
2.4 La loi de vitesse d’une réaction chimique
Test 2.
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
La puissance du transfert d’énergie électrique entre un générateur et un circuit constitué de conducteurs ohmiques dépend-elle de ces conducteurs ohmiques.
Présentation 8 : Redressement des estimateurs
On lance 100 fois de suite une pièce de monnaie.
Présentation 9 : Calcul de précision des estimateurs complexes
Centre d’études et de recherches sur les qualifications
Position, dispersion, forme
Chapitre 1 Formulation d’un programme linéaire (PL) Georges Abboudeh BUST 347.
Janvier 2019 IA-IPR Physique-Chimie
Les erreurs de mesure Projet d’Appui au renforcement des capacités
La démarche scientifique
Les effets du mode de collecte des données sur la mesure de l'emploi : une comparaison entre le web et le téléphone Johann Neumayr Joachim Schork Guillaume.
Programme d’appui à la gestion publique et aux statistiques
Conception cartographique
Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d’un tableau de contingence : un exemple d’application.
Les méthodes quantitatives en éducation
Tests d’hypothèses paramétriques 1 Cours Statistiques Chapitre 9.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
Transcription de la présentation:

Statistique Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence

2 Bien souvent, une décision se prend à la suite d’une analyse quantitative de certains paramètres. Exemples:  Deux concepts publicitaires vous sont proposés pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score d’efficacité dans votre marché cible.  Si la résistance ou durabilité moyenne d’un nouveau produit est significativement plus grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché.  Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d ’en faire un.

3 En général, les paramètres qui nous intéressent sont estimés à l ’aide d ’un échantillon et notre décision sera prise à la suite d’un test d’hypothèse.  Exemple: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ ils voteraient oui, aujourd’hui, à un référendum sur la souveraineté du Québec.

4 Que fait Bernard Landry si:  432 électeurs votaient oui?  (432/1000 = 43,2%)  il ne fait définitivement pas un référendum.  517 électeurs votaient oui?  (517/1000 = 51,7%)  est-ce que 51,7 % est significativement plus grand que 50%?  612 électeurs votaient oui?  (612/1000 = 61,2%)  61.2% est fort probablement significativement plus grand que 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.

5 Notions de base des tests d’hypothèses  Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme «significativement différent », statistiquement parlant, en y associant une probabilité d’erreur.  En d’autres termes, nous voulons savoir, à partir des résultats obtenus dans l ’échantillon, quelle est la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un référendum sur la souveraineté.

6 Notions de base des tests d’hypothèses (suite)  Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un référendum sur la souveraineté bientôt.  Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il attendra encore un certain temps pour avoir des « conditions gagnantes » et faire un référendum.

7 Notions de base des tests d’hypothèses (suite) Il y a essentiellement deux possibilités:Il y a essentiellement deux possibilités:  50% ou moins des électeurs voteraient oui si un référendum avait lieu aujourd’hui;  plus de 50% des électeurs voteraient oui.  La première possibilité est appelée hypothèse nulle (notée H 0 ).  La deuxième possibilité est appelée la contre- hypothèse (notée H 1 ).

8 Notation:  Soit « p » la vraie proportion d’électeurs qui voteraient oui à un référendum, alors on a les deux possibilités suivantes:  H 0 : p  50% vsH 1 : p > 50%  Règle générale, la contre-hypothèse est ce que l’on veut montrer « hors de tout doute raisonnable! » c.- à-d. on veut que la probabilité de se tromper en prenant la décision H 1, à partir des résultats de l ’échantillon, soit petite.

9 Les erreurs possibles lors d’une prise de décision à partir d ’un échantillon:  Erreur de Type I:  Rejeter H 0 en faveur de H 1 (c.-à-d. prendre la décision H 1 ) lorsque en réalité H 0 est vraie.  La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique.  La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H 0, si H 0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique.  Erreur de Type II:  Ne pas rejeter H 0 en faveur de H 1 lorsque en réalité H 1 est vraie.

10 Est-ce que l’accusé est coupable ou non coupable?

11 Contrôle des erreurs de Type I et II  Étant donné les résultats obtenus dans l ’échantillon, je calcule la probabilité de commettre une erreur de Type I (p-value).  Si cette probabilité est relativement petite (p- value < 5% par exemple), alors on rejettera H 0 pour prendre la décision H 1. Sinon on ne rejettera pas H 0.

12 P-value  Mesure la confiance que l’on a en H 0  Une petite value de la p-value indique que vous devriez être moins confiant en H 0  Combien la p-value doit-elle être petite pour rejeter H 0 en faveur de H 1 ?  Cela dépend de vous…

13 Contrôle des erreurs de Type I et II (suite)  Pour une erreur de Type I fixée à l’avance (ex. 5%), on contrôle l’erreur de Type II avant de mener l ’étude à l’aide de la taille de l’échantillon.  On définit la puissance d’un test d’hypothèse comme la quantité: ( 1- probabilité de commettre une erreur de Type II).

14 Dans les prochaines minutes, nous verrons cinq tests statistiques de base: 1.test sur une proportion 2.test sur une moyenne 3.test sur la différence entre deux proportions 4.test sur la différence entre deux moyennes pour deux échantillons indépendants 5.test sur la différence entre deux moyennes pour un même échantillon

15 1.Test sur une proportion: Exemple: Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La direction de l’entreprise envisage d’augmenter les dépenses publicitaires pour ce produit si moins de 70% de la population connaît le produit.

16 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p » la vraie proportion d’individus dans la population qui connaissent le produit et « p 0 » la valeur qui correspond à notre hypothèse ou prise de décision (p 0 = 70% dans l’exemple précédent). On a le choix entre:  H 0 : p  p 0 vs H 1 : p > p 0 (test unilatéral à droite)  H 0 : p  p 0 vs H 1 : p < p 0 (test unilatéral à gauche)  H 0 : p = p 0 vs H 1 : p  p 0 (test bilatéral)

17 Procédure : On prélève un échantillon de n individus dans la population cible, et on calcule la proportion d’individus qui connaissent le produit. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre- hypothèse H 1, c.-à-d. p-value < .

18 La statistique du test est donné par: Si l’hypothèse nulle H 0 est vraie et que la taille de l’échantillon est grande, la statistique z suivra approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].

19 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I.  Test unilatéral à droite:  p-value = Prob[N(0,1) > z]  Test unilatéral à gauche:  p-value = Prob[N(0,1) < z]  Test bilatéral:  p-value = 2 x Prob[N(0,1) > |z|]  Pur le calculs nous utiliserons proportion- 1t.xls proportion- 1t.xlsproportion- 1t.xls

20 L’entreprise commande une enquête téléphonique auprès de 500 personnes faisant partie de la population cible.  372 individus répondent qu’ils connaissent le produit (372/500 = 74,4%).  H 0 : p = 70% vs H 1 : p  70%   p-value = 2xProb[N(0,1) > |2,147|] = 0,  On rejettera H 0 au niveau 5%.  De plus, puisque 74.4% > 70%, on prendra la décision de réduire le budget publicitaire pour ce produit.

21 Correspondance entre le test bilatéral et l ’intervalle de confiance:  Intervalle de confiance au niveau 95% pour la proportion d’individus dans la population qui connaissent le produit :  I.C. au niveau 95% : (0,706 ; 0,782)  Puisque l ’intervalle de confiance au niveau 95% ne contient pas la valeur p 0 = 70%, on rejettera H 0 au niveau 5%.  En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.

22 Exemple des intentions de vote:  On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 517 électeurs répondent qu’ils voteraient oui.  H 0 : p  50% vsH 1 : p > 50%   p-value =  On ne rejettera pas H 0 au niveau 5%  Bernard Landry ne fera pas de référendum prochainement

23 Exemple des intentions de vote:  On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 612 électeurs répondent qu’ils voteraient oui.  H 0 : p  50% vsH 1 : p > 50%   p-value = 7.08E-13  On rejettera H 0 au niveau 5%  Bernard Landry ferait un référendum prochainement.

24 Test vs intervalle de confiance  Tester H 0 : p = p 0 vs H 1 : p  p 0 revient à construire un intervalle de confiance pour p 0.  On rejette H 0 si p 0 n’est pas dans l’intervalle.

25 2.Test sur une moyenne  Exemple: Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips Lay’s. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le poids moyen de l ’échantillon est calculé. Le procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 grammes.

26 Quelles sont les hypothèses possibles que nous voulons confronter? Soit «  » la vraie moyenne d ’une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance  2. Soit «  0 » la valeur de la moyenne qui correspond à notre hypothèse ou prise de décision (  0 = 170g dans l’exemple précédent). On a le choix entre:  H 0 :    0 vs H 1 :  >  0 (test unilatéral à droite)  H 0 :    0 vs H 1 :  <  0 (test unilatéral à gauche)  H 0 :  =  0 vs H 1 :    0 (test bilatéral)

27 Procédure: On prélève un échantillon de taille n dans la population cible et on calcule la moyenne et l’écart type s. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à- d. suffisamment d’évidence en faveur de la la contre-hypothèse H 1, c.-à-d. p-value < .

28 La statistique du test est donné par: Si l’hypothèse nulle H 0 est vraie, la statistique t suivra une loi de Student avec n-1 degrés de liberté [ notée t(n- 1) ].

29 Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I.  Test unilatéral à droite:  p-value=Prob[ t(n-1) > t ]  Test unilatéral à gauche:  p-value=Prob[ t(n-1) < t ]  Test bilatéral:  p-value= 2 x Prob[ t(n-1) > |t| ]  Intervalle de confiance pour  au niveau (1-  )  Nous calculerons la p-value avec moyenne-1t.xls moyenne-1t.xls

30 Exemple:  La moyenne de l’échantillon de 100 sacs de chips est de 169,9 grammes et l’écart type s =0,27.  H 0 :  = 170g vsH 1 :   170g  p-value = 0,0003  On rejettera H 0 ici sans avoir peur de se tromper!  Intervalle de confiance pour  au niveau 95%:  [169,846 ; 169,953]  L ’intervalle ne contient pas la valeur 170  on rejette H 0 au niveau 5%

31  Si la moyenne de l’échantillon de 100 sacs de chips est de grammes et l’écart type s = 0,27.  H 0 :  = 170g vsH 1 :   170g  p-value = 0,69  On ne rejettera pas H 0  Intervalle de confiance pour  au niveau 95%:  [169,957 ; 170,064]  L’intervalle contient la valeur 170  on ne rejette pas H 0 au niveau 5%

32 Test vs intervalle de confiance  Tester H 0 :   vs H 1 :   revient à construire un intervalle de confiance pour     On rejette H 0 si   n’est pas dans l’intervalle.

33 Étude de cas  Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les autres villes.  On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus sous-payés.

34 Étude de cas (suite)  On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires est de 16000$.  a) Quelle est la probabilité critique?  b) Quelle est votre conclusion?  c) L a ville vous propose d'augmenter le salaire annuel moyen à 46500$. Le négociateur a-t-il respecté sa promesse?

35 3.Test sur la différence entre deux proportions  Exemple: Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera fort probablement aménagé dans cette municipalité.

36 Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p 1 » la vraie proportion d’individus en faveur dans la population 1 et « p 2 » la vraie proportion d’individus en faveur dans la population 2. On a le choix entre:  H 0 : p 1  p 2 vs H 1 : p 1 > p 2 (test unilatéral)  H 0 : p 1  p 2 vs H 1 : p 1 < p 2 (test unilatéral)  H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral)

37 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et de taille n 2 dans la population 2. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment d’évidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value < .  La statistique du test est donné par:

38 où  Si l’hypothèse nulle H 0 est vraie et que les tailles des deux échantillons sont suffisamment grandes, la statistique du test z suivra approximativement une loi normale avec moyenne 0 et variance 1.  Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

39  Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%).  H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral)  p-value = 2xProb[N(0,1) > |0,99|] = 0,322  On ne rejettera pas H 0 au niveau 5%

40 4.Test sur la différence entre deux moyennes  Exemple: Un nouveau procédé technique a été recommandé par une firme de consultants pour réduire le niveau de pollution de l ’air dans l ’environnement d ’une usine. L ’objectif est de réduire le taux de monoxide de carbone dans l ’air. Des essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.

41 Quelles sont les hypothèses possibles que nous voulons confronter? Soit «  1 » la vraie moyenne de la caractéristique dans la population 1 et «  2 » la vraie moyenne de la caractéristique dans la population 2. On a le choix entre:  H 0 :  1   2 vs H 1 :  1 >  2 (test unilatéral)  H 0 :  1   2 vs H 1 :  1 <  2 (test unilatéral)  H 0 :  1 =  2 vs H 1 :  1   2 (test bilatéral)

42 On prélève un échantillon aléatoire de taille n 1 dans la population 1 et, de taille n 2 dans la population 2. On rejettera l’hypothèse nulle H 0, au niveau , si on a suffisamment de preuve contre celle-ci, c.- à-d. suffisamment d’évidence en faveur de la contre-hypothèse H 1, c.-à-d. p-value < . 1) Cas où les variances des 2 populations sont égales 1) Cas où les variances des 2 populations sont égales La statistique du test est donné par: La statistique du test est donné par:

43 2) Cas où les variances des 2 populations sont inégales La statistique du test est donné par: La statistique du test est donné par:  Si l’hypothèse nulle H 0 est vraie, la statistique du test t suivra une loi de Student.  Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

44 La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats: 1) Test pour l ’égalité des variances: Le p-value pour le test bilatéral d ’égalité des variances est égal à 2x0, = 0, => on rejette l ’hypothèse d ’égalité des variances.

45 2) Test pour l ’égalité des moyennes lorsque les variances sont inégales: H 0 :  actuel   nouveau vs H 1 :  actuel >  nouveau

46 5. Test sur la différence de deux moyennes pour un même échantillon  Exemple: La directrice des ressources humaines d ’une entreprise veut suggérer à la direction de mettre en œuvre un programme spécial d ’apprentissage pour les employés affectés au département d ’assemblage. Pour évaluer l ’efficacité de ce programme d ’une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme d ’apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.

47 Les résultats obtenus se présentent comme suit (hr.xls) : hr.xls individu avant après différence individu avant après différence

48 Les résultats de l ’analyse statistique à l ’aide de Excel se présentent comme suit:

49 Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme d’apprentissage sont moindres que les gains en productivité, alors on adoptera le programme. Ce test est équivalent au test sur une moyenne pour la variable différence entre après et avant:

Analyse de données qualitatives

51 Exemple: Une étude a été effectuée par le département des ressources humaines d’une grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi. Un total de 527 employés ont participé à cet étude.

52 Voici, sous forme de tableau, les résultats obtenus: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 17 | 62 | 79 cadre | | | col blanc | 50 | 112 | col bleu | 99 | 187 | Total | 166 | 361 | 527

53 Question: est-ce qu’il y a un lien entre le type d’emploi et la satisfaction dans cette entreprise?  La variable « type d ’emploi » est une variable qualitative à trois niveaux c.-à-d. à trois catégories.  La variable « satisfaction » est également qualitative dans cet exemple et à deux niveaux.

54 Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages: EMPLOI(emploi) SATIS(satisfaction) Fréquence | % | % ligne | % colonne |non |satisfait| Total |satisfait| | professionnel/ | 17 | 62 | 79 cadre | 3.23 | | | | | | | | col blanc | 50 | 112 | 162 | 9.49 | | | | | | | | col bleu | 99 | 187 | 286 | | | | | | | | | Total | 166 | 361 | 527 | | |

55 Les tableaux croisés permettent:  de synthétiser et présenter l’information  de décrire la présence ou l’absence de lien entre deux variables qualitatives (nominales et/ou ordinales)  de vérifier, à l’aide d’un test d’hypothèse, s’il existe un lien statistiquement significatif entre deux variables qualitatives

56 Les deux hypothèses possibles que l’on veut confronter sont: H 0 : Il n ’y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes H 1 : Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories d’une variable est identique (semblable) pour chaque catégorie de l’autre variable.

57 Pour illustrer le concept du test d’indépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les effectifs suivants afin de faciliter les calculs: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 0 | 100 | 100 cadre | | | col blanc | 100 | 200 | col bleu | 300 | 300 | Total | 400 | 600 | 1000

58 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ ‚ ‚ 0.00 ‚ ‚ ‚ 0.00 ‚ ‚ col blanc ‚ 100 ‚ 200 ‚ 300 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col bleu ‚ 300 ‚ 300 ‚ 600 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ Total

59 Dans le tableau précédent, les deux variables sont dépendantes car:  pour chaque type d’emploi, la distribution de la satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne);  ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).

60 Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau (remarque: les totaux pour les lignes et les colonnes sont inchangés): EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | professionnel/ | 40 | 60 | 100 cadre | | | col blanc | 120 | 180 | col bleu | 240 | 360 | Total | 400 | 600 | 1000

61 La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 4.00 ‚ 6.00 ‚ ‚ ‚ ‚ ‚ ‚ ‚ col blanc ‚ 120 ‚ 180 ‚ 300 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col bleu ‚ 240 ‚ 360 ‚ 600 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ Total

62 Dans le tableau précédent, les deux variables sont indépendantes car:  pour chaque type d’emploi, la distribution de la satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne).  ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est la même, c.- à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).

63  Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. les fréquences qu’on devrait avoir si les deux variables étaient parfaitement indépendantes.  Si l’hypothèse d ’indépendance est vraie, les fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit:  f théo cellule ij = (total rangée i) x (total colonne j) / total

64  Tester l’indépendance entre deux variables qualitatives revient à tester la différence entre les fréquences observées et les fréquences théoriques.  Si les deux variables sont indépendantes, les fréquences observées devraient être proche des fréquences théoriques.  La statistique du test est donnée par:  2 obs = somme [(f obs -f théo ) 2 /f théo ]

65  On rejettera l’hypothèse d’indépendance si la valeur de la statistique  2 obs est grande.  Le calcul du seuil expérimental (p-value) se fait à l’aide de la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé.  Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont  5 (ou presque).  On peut démontrer que 0   2 obs  n(m-1), où m=minimum (# lignes, # colonnes).

66  La valeur de la statistique  2 obs vaut 0 lorsque les deux variables sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.  Le coefficient de Cramer se définit à partir de la statistique  2 obs et sert à mesurer l’intensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé).  Coefficient de Cramer:  Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l ’autre, V= 1.

67 Exemple: dépendance (lien fonctionnel) EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ ‚ col blanc ‚ 0 ‚ 300 ‚ 300 ‚ 0.00 ‚ ‚ col bleu ‚ 600 ‚ 0 ‚ 600 ‚ ‚ 0.00 ‚ Total Statistique DL Valeur P-value Khi-deux

68 Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ ‚ ‚ col blanc ‚ 120 ‚ 180 ‚ 300 ‚ ‚ ‚ col bleu ‚ 240 ‚ 360 ‚ 600 ‚ ‚ ‚ Total Statistique DL Valeur P-value Khi-deux

69 Exemple: EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ professionnel/ ‚ 17 ‚ 62 ‚ 79 cadre ‚ ‚ ‚ ‚ 3.23 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col blanc ‚ 50 ‚ 112 ‚ 162 ‚ ‚ ‚ ‚ 9.49 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col bleu ‚ 99 ‚ 187 ‚ 286 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ Total

70 Résultats du test statistique: (obtenu avec tc.xls) tc.xls Donc, on ne rejettera pas l’hypothèse d ’indépendance au niveau  =5% car le « p-value » est > 5%.

71 Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que les distributions sont les mêmes? EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ professionnel/ ‚ 34 ‚ 124 ‚ 158 cadre ‚ ‚ ‚ ‚ 3.23 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col blanc ‚ 100 ‚ 224 ‚ 324 ‚ ‚ ‚ ‚ 9.49 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ col bleu ‚ 198 ‚ 374 ‚ 572 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ Total

72 Résultats du test statistique: Donc, on rejettera l’hypothèse d’indépendance au niveau  =5% car le « p-value » est < 5%!!

73 Application: test sur la différence entre deux proportions  Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1, n 1 individus ont répondu au sondage scientifique et n 2 individus dans la municipalité 2.

74 Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H 0 : p 1 = p 2 vs H 1 : p 1  p 2 (test bilatéral) Remarque: on peut poser le problème de la façon suivante: est-ce qu ’il y a un lien entre la variable municipalité et l’opinion sur l’aménagement d ’un site pour l’enfouissement des déchets.

75 MUNI(municipalité) OPINION Fréquence‚ Fréq th. ‚ % ‚ % ligne ‚ % colonne‚non ‚en ‚ Total ‚favorable‚faveur ‚ ‚ 66 ‚ 84 ‚ 150 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ 62 ‚ 62 ‚ 124 ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ Total Statistique DL Valeur P-value Khi-deux

76 En utilisant le test d’indépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter l’hypothèse nulle d’indépendance. Les deux proportions ne sont pas significativement différentes.