Statistique Cours #2 et #3

Slides:

Advertisements

Présentations similaires

Mais vous comprenez qu’il s’agit d’une « tromperie ».

Advertisements

Introduction à l’analyse

L’échantillonnage & Ses Fluctuations

Le Nom L’adjectif Le verbe Objectif: Orthogram

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6

Statistique II Chapitre 3: Tests d’hypothèses

Additions soustractions

Distance inter-locuteur

1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août

Test statistique : principe

Les tests d’hypothèses (II)

Les tests d’hypothèses (I)

Les numéros 70 –

Les identités remarquables

Situation du problème :

Tests de comparaison de pourcentages

1. Les caractéristiques de dispersion. 11. Utilité.

CONFORMITE d’une distribution expérimentale à une distribution théorique Professeur Pascale FRIANT-MICHEL > Faculté de Pharmacie

LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.

Données statistiques sur le droit doption au 31/01 8 février 2012.

Analyse Factorielle des Correspondances

Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.

Sondage sur les préjugés Ensemble et l’association d'études canadiennes 20 mars, 2013 Une recherche novatrice sur le lieu, la fréquence et les différents.

Enquête sur le Rapport de la Commission Bouchard-Taylor Jack Jedwab Directeur général Association détudes canadiennes 11 juin 2008.

Révision (p. 130, texte) Nombres (1-100).

La législation formation, les aides des pouvoirs publics

LE CHOIX EN CONTEXTE D’INCERTITUDE (suite...)

La méthodologie………………………………………………………….. p3 Les résultats

COURS 5 Les tableaux croisés, le chi-carré et la corrélation

Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.

Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Jack Jedwab Directeur général Association détudes canadiennes Octobre 2011 Est-ce.

Le regard des Français sur les couples entre responsables politiques et journalistes politiques Rapport rédigé par : Jean-Daniel Lévy, Directeur du Département.

RELATION COÛT-VOLUME-BÉNÉFICE

Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.

Méthodes de Biostatistique

1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.

Présentation générale

Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.

Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.

L’inférence statistique

Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.

Tableaux de distributions

Les chiffres & les nombres

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

Les Monnaies et billets du FRANC Les Monnaies Euro.

RACINES CARREES Définition Développer avec la distributivité Produit 1

La statistique descriptive

Corrélation Principe fondamental d’une analyse de corrélation

Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.

Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

Résoudre une équation du 1er degré à une inconnue

Aire d’une figure par encadrement

Écart moyen et écart type

Tests d’hypothèses.

P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)

Les fondements constitutionnels

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

1/65 微距摄影美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.

1 - Programme de Seconde (juin 2009) Statistique et probabilités

Annexe Résultats provinciaux comparés à la moyenne canadienne

La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)

ANALYSE DE DONNEES TESTS D’ASSOCIATION

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES

Introduction aux statistiques Intervalles de confiance

Transcription de la présentation:

Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à partir d’inférence

Bien souvent, une décision se prend à la suite d’une analyse quantitative de certains paramètres. Exemples: Deux concepts publicitaires vous sont proposés pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score d’efficacité dans votre marché cible. Si la résistance ou durabilité moyenne d’un nouveau produit est significativement plus grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché. Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d ’en faire un.

En général, les paramètres qui nous intéressent sont estimés à l ’aide d ’un échantillon et notre décision sera prise à la suite d’un test d’hypothèse. Exemple: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ ils voteraient oui, aujourd’hui, à un référendum sur la souveraineté du Québec.

Que fait Bernard Landry si: 432 électeurs votaient oui? (432/1000 = 43,2%) il ne fait définitivement pas un référendum. 517 électeurs votaient oui? (517/1000 = 51,7%) est-ce que 51,7 % est significativement plus grand que 50%? 612 électeurs votaient oui? (612/1000 = 61,2%) 61.2% est fort probablement significativement plus grand que 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.

Notions de base des tests d’hypothèses Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme «significativement différent », statistiquement parlant, en y associant une probabilité d’erreur. En d’autres termes, nous voulons savoir, à partir des résultats obtenus dans l ’échantillon, quelle est la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un référendum sur la souveraineté.

Notions de base des tests d’hypothèses (suite) Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un référendum sur la souveraineté bientôt. Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il attendra encore un certain temps pour avoir des « conditions gagnantes » et faire un référendum .

Notions de base des tests d’hypothèses (suite) Il y a essentiellement deux possibilités: 50% ou moins des électeurs voteraient oui si un référendum avait lieu aujourd’hui; plus de 50% des électeurs voteraient oui. La première possibilité est appelée hypothèse nulle (notée H0). La deuxième possibilité est appelée la contre-hypothèse (notée H1).

Notation: Soit « p » la vraie proportion d’électeurs qui voteraient oui à un référendum, alors on a les deux possibilités suivantes: H0: p  50% vs H1: p > 50% Règle générale, la contre-hypothèse est ce que l’on veut montrer « hors de tout doute raisonnable! » c.-à-d. on veut que la probabilité de se tromper en prenant la décision H1, à partir des résultats de l ’échantillon, soit petite.

Les erreurs possibles lors d’une prise de décision à partir d ’un échantillon: Erreur de Type I: Rejeter H0 en faveur de H1 (c.-à-d. prendre la décision H1) lorsque en réalité H0 est vraie. La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de H0 , si H0 est vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique. Erreur de Type II: Ne pas rejeter H0 en faveur de H1 lorsque en réalité H1 est vraie.

Est-ce que l’accusé est coupable ou non coupable?

Contrôle des erreurs de Type I et II Étant donné les résultats obtenus dans l ’échantillon, je calcule la probabilité de commettre une erreur de Type I (p-value). Si cette probabilité est relativement petite (p-value < 5% par exemple), alors on rejettera H0 pour prendre la décision H1. Sinon on ne rejettera pas H0.

P-value Mesure la confiance que l’on a en H0 Une petite value de la p-value indique que vous devriez être moins confiant en H0 Combien la p-value doit-elle être petite pour rejeter H0 en faveur de H1? Cela dépend de vous…

Contrôle des erreurs de Type I et II (suite) Pour une erreur de Type I fixée à l’avance (ex. 5%), on contrôle l’erreur de Type II avant de mener l ’étude à l’aide de la taille de l’échantillon. On définit la puissance d’un test d’hypothèse comme la quantité: (1- probabilité de commettre une erreur de Type II).

Dans les prochaines minutes, nous verrons cinq tests statistiques de base: test sur une proportion test sur une moyenne test sur la différence entre deux proportions test sur la différence entre deux moyennes pour deux échantillons indépendants test sur la différence entre deux moyennes pour un même échantillon

Test sur une proportion: Exemple: Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La direction de l’entreprise envisage d’augmenter les dépenses publicitaires pour ce produit si moins de 70% de la population connaît le produit.

Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p » la vraie proportion d’individus dans la population qui connaissent le produit et « p0 » la valeur qui correspond à notre hypothèse ou prise de décision (p0 = 70% dans l’exemple précédent). On a le choix entre: H0 : p  p0 vs H1 : p > p0 (test unilatéral à droite) H0 : p  p0 vs H1 : p < p0 (test unilatéral à gauche) H0 : p = p0 vs H1 : p  p0 (test bilatéral)

Procédure : On prélève un échantillon de n individus dans la population cible, et on calcule la proportion d’individus qui connaissent le produit. On rejettera l’hypothèse nulle H0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre-hypothèse H1, c.-à-d. p-value < .

La statistique du test est donné par: Si l’hypothèse nulle H0 est vraie et que la taille de l’échantillon est grande, la statistique z suivra approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].

Test unilatéral à droite: p-value = Prob[N(0,1) > z] Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I. Test unilatéral à droite: p-value = Prob[N(0,1) > z] Test unilatéral à gauche: p-value = Prob[N(0,1) < z] Test bilatéral: p-value = 2 x Prob[N(0,1) > |z|] Pur le calculs nous utiliserons proportion-1t.xls

L’entreprise commande une enquête téléphonique auprès de 500 personnes faisant partie de la population cible. 372 individus répondent qu’ils connaissent le produit (372/500 = 74,4%). H0: p = 70% vs H1: p  70% p-value = 2xProb[N(0,1) > |2,147|] = 0,031793 On rejettera H0 au niveau 5%. De plus, puisque 74.4% > 70%, on prendra la décision de réduire le budget publicitaire pour ce produit.

Correspondance entre le test bilatéral et l ’intervalle de confiance: Intervalle de confiance au niveau 95% pour la proportion d’individus dans la population qui connaissent le produit : I.C. au niveau 95% : (0,706 ; 0,782) Puisque l ’intervalle de confiance au niveau 95% ne contient pas la valeur p0 = 70% , on rejettera H0 au niveau 5%. En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.

Exemple des intentions de vote: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 517 électeurs répondent qu’ils voteraient oui. H0: p  50% vs H1: p > 50% p-value = 0.1411 On ne rejettera pas H0 au niveau 5% Bernard Landry ne fera pas de référendum prochainement

Exemple des intentions de vote: On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 612 électeurs répondent qu’ils voteraient oui. H0: p  50% vs H1: p > 50% p-value = 7.08E-13 On rejettera H0 au niveau 5% Bernard Landry ferait un référendum prochainement.

Test vs intervalle de confiance Tester H0 : p = p0 vs H1 : p  p0 revient à construire un intervalle de confiance pour p0. On rejette H0 si p0 n’est pas dans l’intervalle.

Test sur une moyenne Exemple: Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips Lay’s. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le poids moyen de l ’échantillon est calculé. Le procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 grammes.

Quelles sont les hypothèses possibles que nous voulons confronter? Soit «  » la vraie moyenne d ’une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance 2. Soit « 0 » la valeur de la moyenne qui correspond à notre hypothèse ou prise de décision ( 0 = 170g dans l’exemple précédent). On a le choix entre: H0 :   0 vs H1 :  > 0 (test unilatéral à droite) H0 :   0 vs H1 :  < 0 (test unilatéral à gauche) H0 :  = 0 vs H1 :   0 (test bilatéral)

Procédure: On prélève un échantillon de taille n dans la population cible et on calcule la moyenne et l’écart type s. On rejettera l’hypothèse nulle H0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la la contre-hypothèse H1, c.-à-d. p-value < .

La statistique du test est donné par: Si l’hypothèse nulle H0 est vraie, la statistique t suivra une loi de Student avec n-1 degrés de liberté [ notée t(n-1) ].

Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de commettre une erreur de Type I. Test unilatéral à droite: p-value=Prob[ t(n-1) > t ] Test unilatéral à gauche: p-value=Prob[ t(n-1) < t ] Test bilatéral: p-value= 2 x Prob[ t(n-1) > |t| ] Intervalle de confiance pour  au niveau (1-) Nous calculerons la p-value avec moyenne-1t.xls

Exemple: La moyenne de l’échantillon de 100 sacs de chips est de 169,9 grammes et l’écart type s =0,27. H0:  = 170g vs H1:   170g p-value = 0,0003 On rejettera H0 ici sans avoir peur de se tromper! Intervalle de confiance pour  au niveau 95%: [169,846 ; 169,953] L ’intervalle ne contient pas la valeur 170  on rejette H0 au niveau 5%

Intervalle de confiance pour  au niveau 95%: Si la moyenne de l’échantillon de 100 sacs de chips est de 170.011 grammes et l’écart type s = 0,27. H0:  = 170g vs H1:   170g p-value = 0,69 On ne rejettera pas H0 Intervalle de confiance pour  au niveau 95%: [169,957 ; 170,064] L’intervalle contient la valeur 170  on ne rejette pas H0 au niveau 5%

Test vs intervalle de confiance Tester H0 : m = m0 vs H1 : m  m0 revient à construire un intervalle de confiance pour m0. On rejette H0 si m0 n’est pas dans l’intervalle.

Étude de cas Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les autres villes. On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus sous-payés.

Étude de cas (suite) On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires est de 16000$. a) Quelle est la probabilité critique? b) Quelle est votre conclusion? c) La ville vous propose d'augmenter le salaire annuel moyen à 46500$. Le négociateur a-t-il respecté sa promesse?

Test sur la différence entre deux proportions Exemple: Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera fort probablement aménagé dans cette municipalité.

Quelles sont les hypothèses possibles que nous voulons confronter? Soit « p1 » la vraie proportion d’individus en faveur dans la population 1 et « p2 » la vraie proportion d’individus en faveur dans la population 2. On a le choix entre: H0 : p1  p2 vs H1 : p1 > p2 (test unilatéral) H0 : p1  p2 vs H1 : p1 < p2 (test unilatéral) H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral)

La statistique du test est donné par: On prélève un échantillon aléatoire de taille n1 dans la population 1 et de taille n2 dans la population 2. On rejettera l’hypothèse nulle H0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre-hypothèse H1, c.-à-d. p-value < . La statistique du test est donné par:

où Si l’hypothèse nulle H0 est vraie et que les tailles des deux échantillons sont suffisamment grandes, la statistique du test z suivra approximativement une loi normale avec moyenne 0 et variance 1. Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral) p-value = 2xProb[N(0,1) > |0,99|] = 0,322 On ne rejettera pas H0 au niveau 5%

Test sur la différence entre deux moyennes Exemple: Un nouveau procédé technique a été recommandé par une firme de consultants pour réduire le niveau de pollution de l ’air dans l ’environnement d ’une usine. L ’objectif est de réduire le taux de monoxide de carbone dans l ’air. Des essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.

Quelles sont les hypothèses possibles que nous voulons confronter? Soit « 1 » la vraie moyenne de la caractéristique dans la population 1 et « 2 » la vraie moyenne de la caractéristique dans la population 2. On a le choix entre: H0 : 1  2 vs H1 : 1 > 2 (test unilatéral) H0 : 1  2 vs H1 : 1 < 2 (test unilatéral) H0 : 1 = 2 vs H1 : 1  2 (test bilatéral)

On prélève un échantillon aléatoire de taille n1 dans la population 1 et , de taille n2 dans la population 2. On rejettera l’hypothèse nulle H0, au niveau , si on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre-hypothèse H1, c.-à-d. p-value < . 1) Cas où les variances des 2 populations sont égales La statistique du test est donné par:

2) Cas où les variances des 2 populations sont inégales La statistique du test est donné par: Si l’hypothèse nulle H0 est vraie, la statistique du test t suivra une loi de Student. Ceci nous sert à calculer le « p-value » afin de prendre notre décision.

1) Test pour l ’égalité des variances: La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats: 1) Test pour l ’égalité des variances: Le p-value pour le test bilatéral d ’égalité des variances est égal à 2x0,000049 = 0,000098 => on rejette l ’hypothèse d ’égalité des variances.

H0 : actuel  nouveau vs H1 : actuel > nouveau 2) Test pour l ’égalité des moyennes lorsque les variances sont inégales: H0 : actuel  nouveau vs H1 : actuel > nouveau

Test sur la différence de deux moyennes pour un même échantillon Exemple: La directrice des ressources humaines d ’une entreprise veut suggérer à la direction de mettre en œuvre un programme spécial d ’apprentissage pour les employés affectés au département d ’assemblage. Pour évaluer l ’efficacité de ce programme d ’une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme d ’apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.

Les résultats obtenus se présentent comme suit (hr.xls) : individu avant après différence 1 15 17 2 2 13 16 3 3 8 10 2 4 9 9 0 5 7 9 2 6 12 13 1 7 11 14 3 8 12 15 3 9 11 14 3 10 9 11 2 11 10 14 4 12 12 11 -1 13 11 13 2 14 7 10 3 15 12 13 1

Les résultats de l ’analyse statistique à l ’aide de Excel se présentent comme suit:

Ce test est équivalent au test sur une moyenne pour la variable différence entre après et avant: Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme d’apprentissage sont moindres que les gains en productivité, alors on adoptera le programme.

Analyse de données qualitatives

Exemple: Une étude a été effectuée par le département des ressources humaines d’une grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi. Un total de 527 employés ont participé à cet étude.

Voici, sous forme de tableau, les résultats obtenus: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 17 | 62 | 79 cadre | | | col blanc | 50 | 112 | 162 col bleu | 99 | 187 | 286 Total | 166 | 361 | 527

Question: est-ce qu’il y a un lien entre le type d’emploi et la satisfaction dans cette entreprise? La variable « type d ’emploi » est une variable qualitative à trois niveaux c.-à-d. à trois catégories. La variable « satisfaction » est également qualitative dans cet exemple et à deux niveaux.

Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages: EMPLOI(emploi) SATIS(satisfaction) Fréquence | % | % ligne | % colonne |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 17 | 62 | 79 cadre | 3.23 | 11.76 | 14.99 | 21.52 | 78.48 | | 10.24 | 17.17 | col blanc | 50 | 112 | 162 | 9.49 | 21.25 | 30.74 | 30.86 | 69.14 | | 30.12 | 31.02 | col bleu | 99 | 187 | 286 | 18.79 | 35.48 | 54.27 | 34.62 | 65.38 | | 59.64 | 51.80 | Total | 166 | 361 | 527 | 31.50 | 68.50 | 100.00

Les tableaux croisés permettent: de synthétiser et présenter l’information de décrire la présence ou l’absence de lien entre deux variables qualitatives (nominales et/ou ordinales) de vérifier, à l’aide d’un test d’hypothèse, s’il existe un lien statistiquement significatif entre deux variables qualitatives

Les deux hypothèses possibles que l’on veut confronter sont: H0: Il n ’y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes H1: Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories d’une variable est identique (semblable) pour chaque catégorie de l’autre variable.

Pour illustrer le concept du test d’indépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les effectifs suivants afin de faciliter les calculs: EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | --------------------------------------------- professionnel/ | 0 | 100 | 100 cadre | | | col blanc | 100 | 200 | 300 col bleu | 300 | 300 | 600 Total | 400 | 600 | 1000

La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 10.00 ‚ 10.00 ‚ 0.00 ‚ 100.00 ‚ ‚ 0.00 ‚ 16.67 ‚ col blanc ‚ 100 ‚ 200 ‚ 300 ‚ 10.00 ‚ 20.00 ‚ 30.00 ‚ 33.33 ‚ 66.67 ‚ ‚ 25.00 ‚ 33.33 ‚ col bleu ‚ 300 ‚ 300 ‚ 600 ‚ 30.00 ‚ 30.00 ‚ 60.00 ‚ 50.00 ‚ 50.00 ‚ ‚ 75.00 ‚ 50.00 ‚ Total 400 600 1000 40.00 60.00 100.00

Dans le tableau précédent, les deux variables sont dépendantes car: pour chaque type d’emploi, la distribution de la satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne); ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).

Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau (remarque: les totaux pour les lignes et les colonnes sont inchangés): EMPLOI(emploi) SATIS(satisfaction) Fréquence |non |satisfait| Total |satisfait| | ---------------------------------------------- professionnel/ | 40 | 60 | 100 cadre | | | col blanc | 120 | 180 | 300 col bleu | 240 | 360 | 600 Total | 400 | 600 | 1000

La distribution des pourcentages est: EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 4.00 ‚ 6.00 ‚ 10.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 10.00 ‚ 10.00 ‚ col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 12.00 ‚ 18.00 ‚ 30.00 ‚ 30.00 ‚ 30.00 ‚ col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 24.00 ‚ 36.00 ‚ 60.00 ‚ 60.00 ‚ 60.00 ‚ Total 400 600 1000 40.00 60.00 100.00

Dans le tableau précédent, les deux variables sont indépendantes car: pour chaque type d’emploi, la distribution de la satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne). ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est la même, c.-à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).

Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. les fréquences qu’on devrait avoir si les deux variables étaient parfaitement indépendantes. Si l’hypothèse d ’indépendance est vraie, les fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit: fthéo cellule ij = (total rangée i) x (total colonne j) / total

2obs = somme [(fobs-fthéo)2/fthéo] Tester l’indépendance entre deux variables qualitatives revient à tester la différence entre les fréquences observées et les fréquences théoriques. Si les deux variables sont indépendantes, les fréquences observées devraient être proche des fréquences théoriques. La statistique du test est donnée par: 2obs = somme [(fobs-fthéo)2/fthéo]

On rejettera l’hypothèse d’indépendance si la valeur de la statistique 2obs est grande. Le calcul du seuil expérimental (p-value) se fait à l’aide de la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé. Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont  5 (ou presque). On peut démontrer que 0  2obs  n(m-1), où m=minimum (# lignes, # colonnes).

La valeur de la statistique 2obs vaut 0 lorsque les deux variables sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsqu’une dépendance fonctionnelle lie une des variables à l’autre. Le coefficient de Cramer se définit à partir de la statistique 2obs et sert à mesurer l’intensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé). Coefficient de Cramer: Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l ’autre, V= 1.

Exemple: dépendance (lien fonctionnel) EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 100.00 ‚ col blanc ‚ 0 ‚ 300 ‚ 300 ‚ 0.00 ‚ 100.00 ‚ col bleu ‚ 600 ‚ 0 ‚ 600 ‚ 100.00 ‚ 0.00 ‚ Total 600 400 1000 Statistique DL Valeur P-value ------------------------------------------------ Khi-deux 2 1000.000 0.000

Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 40.00 ‚ 60.00 ‚ col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 40.00 ‚ 60.00 ‚ col bleu ‚ 240 ‚ 360 ‚ 600 Total 400 600 1000 Statistique DL Valeur P-value --------------------------------------------------- Khi-deux 2 0.000 1.000

Exemple: EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 17 ‚ 62 ‚ 79 cadre ‚ 24.884 ‚ 54.116 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚ col blanc ‚ 50 ‚ 112 ‚ 162 ‚ 51.028 ‚ 110.97 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚ col bleu ‚ 99 ‚ 187 ‚ 286 ‚ 90.087 ‚ 195.91 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚ Total 166 361 527 31.50 68.50 100.00

Résultats du test statistique: (obtenu avec tc.xls) Donc, on ne rejettera pas l’hypothèse d ’indépendance au niveau =5% car le « p-value » est > 5%.

Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que les distributions sont les mêmes? EMPLOI(emploi) SATIS(satisfaction) Fréquence obs. ‚ Fréquence théo. ‚ % ‚ % ligne ‚ % colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 34 ‚ 124 ‚ 158 cadre ‚ 49.769 ‚ 108.23 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚ col blanc ‚ 100 ‚ 224 ‚ 324 ‚ 102.06 ‚ 221.94 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚ col bleu ‚ 198 ‚ 374 ‚ 572 ‚ 180.17 ‚ 391.83 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚ Total 332 722 1054 31.50 68.50 100.00

Résultats du test statistique: Donc, on rejettera l’hypothèse d’indépendance au niveau =5% car le « p-value » est < 5%!!

Application: test sur la différence entre deux proportions Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1 , n1 individus ont répondu au sondage scientifique et n2 individus dans la municipalité 2.

Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur (50%). H0 : p1 = p2 vs H1 : p1  p2 (test bilatéral) Remarque: on peut poser le problème de la façon suivante: est-ce qu ’il y a un lien entre la variable municipalité et l’opinion sur l’aménagement d ’un site pour l’enfouissement des déchets.

MUNI(municipalité) OPINION Fréquence‚ Fréq th. ‚ % ‚ % ligne ‚ % colonne‚non ‚en ‚ Total ‚favorable‚faveur ‚ ------------------------------------ 1 ‚ 66 ‚ 84 ‚ 150 ‚ 70.073 ‚ 79.927 ‚ ‚ 24.09 ‚ 30.66 ‚ 54.74 ‚ 44.00 ‚ 56.00 ‚ ‚ 51.56 ‚ 57.53 ‚ 2 ‚ 62 ‚ 62 ‚ 124 ‚ 57.927 ‚ 66.073 ‚ ‚ 22.63 ‚ 22.63 ‚ 45.26 ‚ 50.00 ‚ 50.00 ‚ ‚ 48.44 ‚ 42.47 ‚ Total 128 146 274 46.72 53.28 100.00 Statistique DL Valeur P-value ---------------------------------------------------- Khi-deux 1 0.982 0.322

En utilisant le test d’indépendance, on trouve une p-value de 0 En utilisant le test d’indépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter l’hypothèse nulle d’indépendance. Les deux proportions ne sont pas significativement différentes.