Quoi regarder dans un graphique des moyennes ? Denis Cousineau Université d’Ottawa
Mise en contexte (fictive; toute ressemblance avec une élection récente est purement accidentelle) Les discours peuvent-il affecter le QI? Un groupe écoute tous les discours de D. Trump 20h par jour, pendant 72 jours. L’autre groupe écoute tous les discours de B. Sanders 20h par jour, pendant 72 jours. On mesure le QI à la fin, et on compare la moyenne des deux groupes.
Partie I: Valeur p (i.e., significativité statistique) Taille d’effet standardisé, Taille d’effet brut
Partie I: Résultats t observé = 2.5, 1.85, et 1.50 respectivement
Partie I: Explications t observés: exp 1: 2.50 (p = .025), exp 2: 1.85, exp 3: 1.50 d de Cohen observés dans l’exp 1: exp 1a: 1.00, exp 1b: 0.50, exp 1c: 0.25 D observés dans l’exp 1a: exp 1a(i): 15, exp 1a(ii): =10, exp 1a(iii): 4.0 n = 12 par grp n = 50 n = 150 écart type de la population = 25 écart type de la population = 15 écart type de la population = 5
Partie I: Explications De la valeur t de Gosset vers l’effet standardisé (d de Cohen) De l’effet standardisé (d de Cohen) vers l’effet brut (D de Denis?)
Partie I: Conclusion La statistique utilisée pour la décision p (ou t) n’est pas suffisante pour comprendre les données. Il faut aussi connaitre: la taille des échantillons n les écarts types des échantillons s. La triade {D, n, et s} est l’information recherchée pour les méta-analyses.
Partie II: Taille d’effet brut (relative), Taille d’effet standardisé (relative), Valeur p.
Partie II: Résultats effets significatifs… effets négligeables! n = 12 par grp s = 15 n = 12 par grp s = 5 n = 150 par grp s = 15 Les statistiques descriptives sont encadrées par un intervalle de confiance à 95% L’intervalle de confiance dépend de la taille de l’échantillon ET de l’écart type de l’échantillon L’intervalle de confiance de l’effet standardisé ne dépend que de la taille de l’échantillon La valeur p est incertaine, mais son intervalle de confiance ne dépend que de p (pas de n ni de s) effets significatifs… effets négligeables!
Un intervalle de confiance sur les données brutes: La précision des résultats (i.e., la précision des données ET la précision de l’expérience) Un intervalle de confiance sur les données standardisées: La précision de l’expérience ici, la taille des échantillons mais peut aussi être le devis expérimental, l’instrument de mesure, la méthode d’échantillonnage, etc. Un intervalle de confiance sur p: Un rappel qu’on ne peut jamais être certain la valeur p est la statistique la moins reproductible de toutes Le p est un outil pour trancher. Qui veut trancher? sur quel horizon temporel?
Partie III: Taille d’effet brut absolu ou relatif Taille d’effet standardisé absolu ou relatif Valeur p.
Partie III: Résultats n = 12 par grp s = 15 n = 12 par grp s = 5 n = 150 par grp s = 15 Finalement, vaut-il mieux écouter Trump ou Sanders? (il est facile de perdre le but de l’expérience avec des statistiques abstraites) effets significatifs… mais toujours négligeables!
Partie III Il y a plusieurs statistiques utiles: Relatif Absolu Effet brut Différence Moyennes entre les moyennes Effet standardisé d de Cohen ?
Partie III Il y a plusieurs statistiques utiles: la précision de vos résultats Il y a plusieurs statistiques utiles: Relatif Absolu Effet brut Différence Moyennes entre les moyennes ± CI 95% Effet standardisé d de Cohen (Mn – GM)/s ± CI 95% Toujours rapporter les résultats absolus en premier et vérifier que les résultats ne sont pas négligeables. Si vous poursuivez, parlez de tailles d’effets en second. S’il le faut vraiment, mettez une valeur p à la fin. la précision de votre devis expérimental
En somme, « Toujours utiliser un large éventail d’information, pas juste une valeur p. » -Wasserstein et le ASA's statement on statistical significance and p-values (2016) Merci!
Partie I: Résultats t observé = 2.5, 1.85, et 1.50 respectivement
Partie I: Résultats t observé = 2.5, 1.85, et 1.50 respectivement
Partie I: Résultats t observé = 2.5, 1.85, et 1.50 respectivement