La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

+ Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques.

Présentations similaires


Présentation au sujet: "+ Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques."— Transcription de la présentation:

1 + Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques de biais Distribution normale inférence : tests univariés (moyenne, pourcentage) Inférence : tableaux croisés et Chi2 (khi-deux)

2 + On ne prouve rien Lacunes conceptuelles: restons modestes! Impossible de spécifier le modèle parfaitement Hasard dans léchantillonnage Notre objectif est donc de tester des hypothèses, de confronter nos résultats à nos attentes. Il y a toujours quelque chose à en tirer, peu importe le résultat.

3 + Réflexion théorique La théorie est au coeur de lanalyse statistique: on base nos hypothèses sur cette théorie, on lutilise pour alimenter la discussion sur nos résultats, on lenrichit grâce à ces résultats et les conclusions quon en tire. Il est donc essentiel de saisir les arguments théoriques et les débats qui sy trouvent avant de se lancer dans des analyses trop poussées.... ce qui ne veut pas dire quon ne « découvrira » rien!

4 + Formulation du problème Identification dun problème Motivation: qui sintéresse à nos résultats? Les décideurs sintéressent à limportance sociale ou politique des résultats dune recherche. Les chercheurs veulent une contribution à lavancement des connaissances scientifiques Énoncé sous forme de question problème général, quon précise, et pour lequel on pose une question Inondations au Pakistan Il y a plus de Canadiens dorigine pakistanaise... On en connaît peu sur lorigine de laide en situation de crise Quels sont les facteurs influençant laide en situation de crise?

5 + Construction du cadre opératoire Doit être plausible La littérature nous aide à en juger Doit être vérifiable Basée sur des concepts/variables opératoires (précis, mesurables) Doit être précise Formulation sans ambiguïté Doit être générale Le pouvoir dexplication va au-delà du cas particulier Hypothèse Plus la diaspora est nombreuse dans un pays daccueil, plus ce pays est porté à dépenser lorsquun drame survient dans le pays dorigine

6 + Construction du cadre opératoire Des individus? des villes? des pays? Unité danalyse Bien les choisir Ce quon utilise pour « représenter » chaque variables Variable dépendante, variable indépendante, variables contrôle Indicateur

7 + Structuration Aide internationale en millions de $ Importance de la diaspora Médiatisation du drame Nombre de morts Résolution de lONU Variables indépendantes ou les « causes » Variable dépendante ou la « conséquence » Schéma conceptuel

8 + Cueillette des données Analyse des données / interprétation des résultats

9 + Lanalyse confirmatoire

10 + Quelques notions dinférence statistique Inférence statistique: ensemble des méthodes permettant de tirer des conclusions sur un groupe déterminé – la population – à partir des données provenant dun échantillon choisi dans cette population. Lestimation ponctuelle est ajustée pour tenir compte de lerreur échantillonnale: cest la notion de « niveau de confiance ».

11 + Biais possibles Biais échantillon Taux de réponse (par téléphone, environ 50 à 60%) Qui répond? Ceux qui sont à la maison Ceux que ça intéresse Problématique du cellulaire Biais répondant « Qualité » de la réponse Rapports avec lenquêteur Désirabilité sociale Image conforme, « normale » Mémoire Hasard Biais questionnaire Formulation des questions Formulation des réponses Erreur échantillonnale

12 + Quelques termes PopulationÉchantillon DéfinitionLensemble des unités considérées par le chercheur Un sous-ensemble de la population choisi pour étude SymboleLettres grecques ou majuscules lettres minuscules Caractéristiqueparamètrestatistique TailleNn Moyenne (mu) x (x barre) Écart-type σ (sigma)s Pourcentageπ (pi)p -

13 + La distribution normale Une distribution normale a deux paramètres: sa moyenne et son écart-type Propriété fondamentale: pour toute combinaison de moyenne et décart-type, il y aura toujours une proportion de cas constante entre la moyenne et un point quelconque situé à une certaine distance de la moyenne exprimée en termes dunité(s) décart-type

14 + Environ 68 % des données se situent à l'intérieur de l'intervalle : -S< x < + S. Environ 95 % des données se situent à l'intérieur de l'intervalle : - 2S< x < + 2S. Environ 99 % des données se situent à l'intérieur de l'intervalle : - 3S< x < + 3S.

15 + De la moyenne de léchantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 s x où s x = s/n À 99% de certitude: μ = x ± 2,58 s x où s x = s/n u = moyenne de la population x = moyenne de léchantillon s x = écart-type de la distribution déchantillonnage s = écart-type de léchantillon _ _

16 + Doù vient le 1,96? Avec une variable continue, la probabilité dobtenir une certaine valeur précise est trop petite pour attribuer une probabilité à chaque valeur. On attribue donc une probabilité à un intervalle de valeurs par voie destimation par intervalle. Cette probabilité est représentée par laire sous la courbe de distribution normale. Cest la cote Z qui permet dattribuer une probabilité à un intervalle de valeurs. À une cote Z de 1,96 correspond une aire sous la courbe de 0,975. Donc: Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et linfini positif, et 2,5% entre -1,96 et linfini négatif. Donc 5% des cas sont à lextérieur de lintervalle allant de -1,96 à 1,96 (soit environ 2s de la moyenne).

17 + De la moyenne de léchantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 s x où s x = s/n À 99% de certitude: μ = x ± 2,58 s x où s x = s/n μ = moyenne de la population x = moyenne de léchantillon s x = écart-type de la distribution déchantillonnage s = écart-type de léchantillon _ _

18 + Distribution déchantillonnage Imaginez quon ne prend pas seulement un échantillon tiré au hasard, mais tous les échantillons possibles... Exemple simple: population de cinq personnes, échantillon de deux cas. Combien déchantillons possibles? 10 Exemple complexe: population de délecteurs québécois, échantillon de 1000 cas. Combien déchantillons possibles? Donc imaginez quon prend la moyenne de chacun de ces échantillons... on peut alors construire notre distribution déchantillonnage À partir de 30 cas, la moyenne de cette distribution déchantillonnage correspond à la moyenne de la population & la distribution déchantillonnage suit une distribution normale.

19 + De la moyenne de léchantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 s x où s x = s/n À 99% de certitude: μ = x ± 2,58 s x où s x = s/n _ _ Tous les éléments de la formule affectent lampleur de lintervalle: 1)Le niveau de confiance: plus on veut être confiant, plus grand sera lintervalle (et moins lestimation sera précise 2)Lécart-type de léchantillon: plus il y a de dispersion, plus grand sera lintervalle (et moins lestimation sera précise) 3)La taille de léchantillon: plus grand est léchantillon, plus petit sera lintervalle (et plus lestimation sera précise)

20 + Exercice En Grande-Bretagne, on a demandé à un échantillon de 2326 électeurs de donner leur appréciation de chacun des partis sur une échelle de 0 à 10. Quel est lintervalle de valeurs pour la moyenne dans la population pour chacun des partis? Sommes-nous exacts si nous affirmons quen moyenne, les Britanniques préfèrent les Libéraux? MoyenneÉcart-type Travaillistes4,383,42 Conservateurs3,893,05 Libéraux-Démoc.4,622,93

21 + Le tableau croisé Lorsquon travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé. En analyse confirmatoire, on travaille avec une variable dépendante et au moins une variable indépendante. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées). Les pourcentages font référence à la variable indépendante (colonnes).

22 + Le test du Chi2 Basé sur lhypothèse que le chercheur a établi à lavance une relation entre les deux variables Suppose un échantillon aléatoire Le test est fiable si pas plus de 25% des cellules ont moins de 5 cas de fréquence attendue

23 + Le Chi2 : La relation entre le sexe et le fait dêtre syndiqué HommeFemmeTotal Syndiqué13 (65%) 9 (33%) 22 (47%) Pas syndiqué 7 (35%) 18 (67%) 25 (53%) Total20 (100%) 27 (100%) 47 (100%) HommeFemmeTotal Syndiqué9,4 (47%) 12,6 (47% 22 (47%) Pas syndiqué 10,6 (53%) 14,4 (53%) 25 (53%) Total20 (100%) 27 (100%) 47 (100%) Cas « réel » Fréquences attendues (par lhypothèse nulle) Chi2 (1) : 4,6 p<0,05Chi2 (1) : 0

24 + À Londres: opinion sur la gestion du crime par le gouvernement chez les partisans travaillistes et les autres Parti travaillisteAutre partiTotal Très bonne gestion 2 (1,79%) 2 (1,30%) 4 (1,55%) Assez bonne gestion 45 (40,18% 13 (8,44%) 58 (22,48%) Ni bonne ni mauvaise gestion 31 (27,68%) 48 (31,17% 79 (30,62%) Assez mauvaise gestion 25 (22,32% 39 (25,32%) 64 (24,81%) Très mauvaise gestion 5 (4,46%) 48 (31,17%) 53 (20,54%) Total112 (100%) 154 (100%) 266 (100%) Chi2: p < chisq.test(tableaucroisé) Pearson's Chi-squared test data: tableaucroisé X-squared = , df = 4, p-value < R R


Télécharger ppt "+ Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique Linférence Risques."

Présentations similaires


Annonces Google