Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique L’inférence Risques de biais Distribution normale inférence : tests univariés (moyenne, pourcentage) Inférence : tableaux croisés et Chi2 (khi-deux)
On ne prouve rien Lacunes conceptuelles: restons modestes! Impossible de spécifier le modèle parfaitement Hasard dans l’échantillonnage Notre objectif est donc de tester des hypothèses, de confronter nos résultats à nos attentes. Il y a toujours quelque chose à en tirer, peu importe le résultat.
Réflexion théorique La théorie est au coeur de l’analyse statistique: on base nos hypothèses sur cette théorie, on l’utilise pour alimenter la discussion sur nos résultats, on l’enrichit grâce à ces résultats et les conclusions qu’on en tire. Il est donc essentiel de saisir les arguments théoriques et les débats qui s’y trouvent avant de se lancer dans des analyses trop poussées. ... ce qui ne veut pas dire qu’on ne « découvrira » rien!
Formulation du problème Inondations au Pakistan Identification d’un problème Motivation: qui s’intéresse à nos résultats? Les décideurs s’intéressent à l’importance sociale ou politique des résultats d’une recherche. Les chercheurs veulent une contribution à l’avancement des connaissances scientifiques Énoncé sous forme de question problème général, qu’on précise, et pour lequel on pose une question Il y a plus de 125 000 Canadiens d’origine pakistanaise... On en connaît peu sur l’origine de l’aide en situation de crise Quels sont les facteurs influençant l’aide en situation de crise?
Construction du cadre opératoire Hypothèse Doit être plausible La littérature nous aide à en juger Doit être vérifiable Basée sur des concepts/variables opératoires (précis, mesurables) Doit être précise Formulation sans ambiguïté Doit être générale Le pouvoir d’explication va au-delà du cas particulier Plus la diaspora est nombreuse dans un pays d’accueil, plus ce pays est porté à dépenser lorsqu’un drame survient dans le pays d’origine
Construction du cadre opératoire Unité d’analyse Des individus? des villes? des pays? Variable dépendante, variable indépendante, variables contrôle Bien les choisir Indicateur Ce qu’on utilise pour « représenter » chaque variables
Structuration Schéma conceptuel Variables indépendantes ou les « causes » Variable dépendante ou la « conséquence » Importance de la diaspora Aide internationale en millions de $ Médiatisation du drame Nombre de morts Résolution de l’ONU
Cueillette des données Analyse des données / interprétation des résultats
L’analyse confirmatoire
Quelques notions d’inférence statistique Inférence statistique: ensemble des méthodes permettant de tirer des conclusions sur un groupe déterminé – la population – à partir des données provenant d’un échantillon choisi dans cette population. L’estimation ponctuelle est ajustée pour tenir compte de l’erreur échantillonnale: c’est la notion de « niveau de confiance ».
Biais possibles Erreur échantillonnale Biais échantillon Taux de réponse (par téléphone, environ 50 à 60%) Qui répond? Ceux qui sont à la maison Ceux que ça intéresse Problématique du cellulaire Biais répondant « Qualité » de la réponse Rapports avec l’enquêteur Désirabilité sociale Image conforme, « normale » Mémoire Hasard Biais questionnaire Formulation des questions Formulation des réponses Erreur échantillonnale
Quelques termes Population Échantillon Définition L’ensemble des unités considérées par le chercheur Un sous-ensemble de la population choisi pour étude Symbole Lettres grecques ou majuscules lettres minuscules Caractéristique paramètre statistique Taille N n Moyenne m (mu) x (x barre) Écart-type σ (sigma) s Pourcentage π (pi) p -
La distribution normale Une distribution normale a deux paramètres: sa moyenne et son écart-type Propriété fondamentale: pour toute combinaison de moyenne et d’écart-type, il y aura toujours une proportion de cas constante entre la moyenne et un point quelconque situé à une certaine distance de la moyenne exprimée en termes d’unité(s) d’écart-type
Environ 68 % des données se situent à l'intérieur de l'intervalle : -S< x < + S.
De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - u = moyenne de la population x = moyenne de l’échantillon sx = écart-type de la distribution d’échantillonnage s = écart-type de l’échantillon -
D’où vient le 1,96? Avec une variable continue, la probabilité d’obtenir une certaine valeur précise est trop petite pour attribuer une probabilité à chaque valeur. On attribue donc une probabilité à un intervalle de valeurs par voie d’estimation par intervalle. Cette probabilité est représentée par l’aire sous la courbe de distribution normale. C’est la cote Z qui permet d’attribuer une probabilité à un intervalle de valeurs. À une cote Z de 1,96 correspond une aire sous la courbe de 0,975. Donc: Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et l’infini positif, et 2,5% entre -1,96 et l’infini négatif. Donc 5% des cas sont à l’extérieur de l’intervalle allant de -1,96 à 1,96 (soit environ 2s de la moyenne).
De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - μ = moyenne de la population x = moyenne de l’échantillon sx = écart-type de la distribution d’échantillonnage s = écart-type de l’échantillon -
Distribution d’échantillonnage Imaginez qu’on ne prend pas seulement un échantillon tiré au hasard, mais tous les échantillons possibles... Exemple simple: population de cinq personnes, échantillon de deux cas. Combien d’échantillons possibles? 10 Exemple complexe: population de 5 000 000 d’électeurs québécois, échantillon de 1000 cas. Combien d’échantillons possibles? 27 000 000 000 000 000 000 000 000 000 000 000 000 000 Donc imaginez qu’on prend la moyenne de chacun de ces échantillons... on peut alors construire notre distribution d’échantillonnage À partir de 30 cas, la moyenne de cette distribution d’échantillonnage correspond à la moyenne de la population & la distribution d’échantillonnage suit une distribution normale.
De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - Tous les éléments de la formule affectent l’ampleur de l’intervalle: Le niveau de confiance: plus on veut être confiant, plus grand sera l’intervalle (et moins l’estimation sera précise L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera l’intervalle (et moins l’estimation sera précise) La taille de l’échantillon: plus grand est l’échantillon, plus petit sera l’intervalle (et plus l’estimation sera précise)
Exercice En Grande-Bretagne, on a demandé à un échantillon de 2326 électeurs de donner leur appréciation de chacun des partis sur une échelle de 0 à 10. Quel est l’intervalle de valeurs pour la moyenne dans la population pour chacun des partis? Sommes-nous exacts si nous affirmons qu’en moyenne, les Britanniques préfèrent les Libéraux? Moyenne Écart-type Travaillistes 4,38 3,42 Conservateurs 3,89 3,05 Libéraux-Démoc. 4,62 2,93
Le tableau croisé Lorsqu’on travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé. En analyse confirmatoire, on travaille avec une variable dépendante et au moins une variable indépendante. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées). Les pourcentages font référence à la variable indépendante (colonnes).
Le test du Chi2 Basé sur l’hypothèse que le chercheur a établi à l’avance une relation entre les deux variables Suppose un échantillon aléatoire Le test est fiable si pas plus de 25% des cellules ont moins de 5 cas de fréquence attendue
Le Chi2 : La relation entre le sexe et le fait d’être syndiqué Cas « réel » Fréquences attendues (par l’hypothèse nulle) Homme Femme Total Syndiqué 13 (65%) 9 (33%) 22 (47%) Pas syndiqué 7 (35%) 18 (67%) 25 (53%) 20 (100%) 27 47 Homme Femme Total Syndiqué 9,4 (47%) 12,6 (47% 22 Pas syndiqué 10,6 (53%) 14,4 25 20 (100%) 27 47 Chi2 (1) : 4,6 p<0,05 Chi2 (1) : 0
À Londres: opinion sur la gestion du crime par le gouvernement chez les partisans travaillistes et les autres Parti travailliste Autre parti Total Très bonne gestion 2 (1,79%) (1,30%) 4 (1,55%) Assez bonne gestion 45 (40,18% 13 (8,44%) 58 (22,48%) Ni bonne ni mauvaise gestion 31 (27,68%) 48 (31,17% 79 (30,62%) Assez mauvaise gestion 25 (22,32% 39 (25,32%) 64 (24,81%) Très mauvaise gestion 5 (4,46%) (31,17%) 53 (20,54%) 112 (100%) 154 266 Chi2: 53.9768 p < 0.000 chisq.test(tableaucroisé) Pearson's Chi-squared test data: tableaucroisé X-squared = 53.9768, df = 4 , p-value < 0.000 R