Valeurs de toutes les différences observables sous H0 Quelques rappels ! ▪ On pose l’hypothèse que Δ* = 0 (hypothèse nulle H0) ▪ Soit DH0 = ensemble de toutes les différences de moyennes observables sous H0 DH0 SDH0 ▪ SDH0 quantifie la variabilité de toutes ces différences de moyennes observables ▪ Plus la précision des 2 moyennes , plus la précision de la différence de ces 2 moyennes , plus SDH0 Valeurs de toutes les différences observables sous H0 * Δ = μ1 – μ2 1
Valeurs de toutes les différences observables sous H0 Quelques rappels ! ▪ Soit dα/2 une valeur de différence telle qu’observer une |différence| ≥ dα/2 arrive dans α% des cas lorsque H0 est vraie DH0 α/2% -dα/2 dα/2 Valeurs de toutes les différences observables sous H0 ▪ α fixé (en général, 5%) dα/2 connu (lecture dans les tables de la loi normale) 2
Valeurs de toutes les différences observables sous H0 Quelques rappels ! ▪ Soit dα/2 une valeur de différence telle qu’observer une |différence| ≥ dα/2 arrive dans α% des cas lorsque H0 est vraie DH0 dobs α/2% -dα/2 dα/2 Valeurs de toutes les différences observables sous H0 ▪ Si |dobs| < dα/2 On accepte H0 avec un risque d’erreur β inconnu (différence « non significative au seuil α ») 3
Valeurs de toutes les différences observables sous H0 Quelques rappels ! ▪ Soit dα/2 une valeur de différence telle qu’observer une |différence| ≥ dα/2 arrive dans α% des cas lorsque H0 est vraie DH0 α/2% α/2% Valeurs de toutes les différences observables sous H0 ▪ Si |dobs| > dα/2 On rejette H0, avec un risque d’erreur α (différence « significative ») dobs -dα/2 dα/2 4
Valeurs de toutes les différences observables sous H0 De quoi dépend dα/2 ? ▪ De α (« risque d’erreur de 1ère espèce ») Valeurs de toutes les différences observables sous H0 -d15% d15% 15% DH0 α = 30% dobs ▪ |dobs| > d15% On rejette H0, avec un risque d’erreur 30% 5
Valeurs de toutes les différences observables sous H0 De quoi dépend dα/2 ? ▪ De α (« risque d’erreur de 1ère espèce ») DH0 dobs α = 5% 2,5% 2,5% Valeurs de toutes les différences observables sous H0 -d2,5% d2,5% ▪ |dobs| < d2,5% On accepte H0 6
Valeurs de toutes les différences observables sous H0 De quoi dépend dα/2 ? ▪ De α (« risque d’erreur de 1ère espèce ») ▪ De SDH0 D’H0 S’DH0 DH0 α = 5% SDH0 2,5% 2,5% -d2,5% Valeurs de toutes les différences observables sous H0 d’2,5% -d’2,5% d2,5% 7
Valeurs de toutes les différences observables sous H0 De quoi dépend dα/2 ? ▪ De α (« risque d’erreur de 1ère espèce ») ▪ De SDH0 D’H0 S’DH0 DH0 α = 5% SDH0 dobs ▪ Avec un écart-type SDH0, |dobs| < d2,5% On accepte H0 ▪ Avec un écart-type S’DH0, |dobs| > d’2,5% On rejette H0 au risque d’erreur 5% 2,5% 2,5% -d2,5% Valeurs de toutes les différences observables sous H0 d’2,5% -d’2,5% d2,5% 8
Valeurs de toutes les différences observables sous H0 De quoi dépend SDH0 ? ▪ De la variabilité du caractère quantitatif mesuré ▪ De la taille des deux échantillons n1 et n2 D’H0 S’DH0 DH0 α = 5% SDH0 2,5% 2,5% -d2,5% Valeurs de toutes les différences observables sous H0 d’2,5% -d’2,5% d2,5% ▪ SDH0 quand la variabilité du caractère mesuré ▪ SDH0 quand n1 et/ou n2 9
Impact sur le rejet ou l’acceptation de H0 A partir de maintenant, on fixe α à 5% ! |dobs| a d’autant plus de chances d’être > d2,5% ( rejet de H0) que… ▪ La variabilité du caractère mesuré est faible (variabilité naturelle + variabilité instrument de mesure) ▪ La taille des deux échantillons n1 et n2 est importante 10
Pensez-vous qu’il existe une association réelle entre le port de lunettes de votre meilleur(e) ami(e) et la présence d’arthrose de votre grand-père ? ? 11
Dans un échantillon parfaitement tiré au sort de la population, quelles sont les chances (risques) d’observer une association significative entre le port de lunettes et la présence d’arthrose ? ▪ Nulles ▪ Infimes, mais non nulles ▪ Moins de 5% ▪ Pile 5% ▪ On ne peut pas savoir ? 12
Impact sur le rejet ou l’acceptation de H0 Si en vrai, H0 est vraie, il y aura toujours 5% de risques de rejeter (à tort, donc) H0, Quelles que soient la variabilité du caractère mesuré et la taille des échantillons !! 13
De quoi dépend la puissance statistique ? ▪ De Δ : plus Δ , plus la puissance statistique ▪ De dα/2 : plus dα/2 , plus la puissance statistique DHΔ DH0 Valeurs de toutes les différences observables -dα/2 dα/2 Δ puissance de l’étude 14
Puissance statistique de l’étude En résumé !... Au risque d’erreur α fixé (en général, 5%), S’il existe une réelle différence Δ entre les deux indicateurs comparés, On aura beaucoup plus de chances de le montrer statistiquement (en rejetant H0), que… ▪ La différence réelle (Δ) est grande ▪ La variabilité du caractère mesuré est faible ▪ La taille des échantillons est grande Puissance statistique de l’étude 15
Conséquences Pour avoir de grandes chances de montrer une différence significative (rejet de H0) lorsqu’il existe une réelle différence, avec… ▪ Une différence réelle (Δ) faible il va falloir des tailles d’échantillons importantes ▪ Des tailles d’échantillons faibles il faut espérer que la différence réelle soit importante La flamme de l’espoir… 16
Critères de mise en place d’une étude ▪ Etre faisable & ne pas coûter plus chère que les budgets ne le permettent ▪ Protocole acceptable d’un point de vue éthique ▪ Avoir de grandes chances de montrer statistiquement une différence que l’on pense réelle Sinon, il ne sert à rien de mettre en place cette étude si on est sûr d’aller « droit dans le mur » ! (Dépenses de temps et d’argent inutiles) 17
La taille des échantillons : un choix crucial ▪ Rappel : la puissance statistique d’une étude est élevée lorsque… - La différence réelle (Δ) est grande - La variabilité du caractère mesuré est faible - La taille des échantillons est grande ▪ Par quels moyens la puissance statistique d’une étude ? - la variabilité du caractère mesuré (ici, variabilité de l’instrument de mesure) - la taille des échantillons Mais il ne sert à rien d’avoir une taille d’échantillon trop importante On pourrait faire aussi bien, pour bien moins cher et en bien moins de temps ! Choix d’une taille d’échantillon optimale 18
Quantification a priori de la puissance d’une étude ▪ En pratique, mettre en place une étude qui « a de grandes chances de montrer statistiquement une différence réelle » 80% de chances, voire 90% (puissance statistique d’une étude qui va être mise en place) si < 80%, on se dirige vers un mur… ▪ Le nombre de sujets à inclure dans une étude doit être tel que… - Avec une différence réelle a priori égale à Δ - Avec une variabilité du caractère mesuré a priori égale à V On ait 80% de chances de montrer statistiquement cette différence réelle de Δ 19
Valeurs à connaître pour les calculs Pour calculer le nombre de sujets nécessaire, il faut avoir une idée… ▪ De la différence réelle attendue Δ ▪ De la variabilité du caractère quantitatif dans un groupe de référence (σ, écart-type dans l’échantillon, standard deviation) Caractère quantitatif Comparaison de 2 moyennes ▪ Des pourcentages attendus dans chacun des 2 groupes ( Δ attendue) Caractère binaire Comparaison de 2 % En pratique, comment a-t-on cette « idée » ? 20
Avoir une idée de l’écart attendu ▪ Par le biais de la revue de la littérature - Des études non comparatives (un seul groupe d’animaux) ont estimé les indicateurs que vous souhaitez tester - Des études comparatives ont estimé une différence qui n’était pas significative et vous souhaitez, vous, obtenir une différence significative 21
Avoir une idée de l’écart attendu ▪ Rien dans la littérature raisonnement du « mini pertinent / maxi réaliste » Différence pertinente minimale - Δmini telle que si la différence réelle est < Δmini, ça ne vaut pas le coup de la mettre en évidence statistiquement - Δmini représente l’efficacité pertinente minimale Différence maximale réaliste - Δmaxi telle que si la différence réelle est > Δmaxi, on peut se faire traiter au mieux d’utopiste, au pire d’une personne qui ne connait pas la réalité de terrain - Δmaxi représente l’efficacité maximale qu’il est réaliste d’attendre 22
Avoir une idée de l’écart-type ▪ Par le biais de la revue de la littérature ▪ Par la connaissance du « terrain » SI la distribution du caractère quantitatif dans la population suit une loi normale Vinf =- Vsup= + 16% DH0 68% ≈ 2/3 Si on a une idée des valeurs A et B telle qu’il y a 2/3 des individus qui ont une valeur comprise entre A et B (autour de la moyenne), = (B-A)/2 23
Calculs – critère de jugement quantitatif Notations ▪ Soit deux groupes A et B, tels que la taille du groupe B (nB) soit k fois plus grande que la taille du groupe A (nA) : nB = k.nA ▪ Soit un critère de jugement quantitatif dont on veut comparer les moyennes entre les deux groupes A et B ▪ σ = écart-type attendu dans l’un ou l’autre échantillon (on fait toujours l’hypothèse que la variabilité du critère de jugement quantitatif est la même dans les deux groupes) ▪ Δ = différence réelle attendue ▪ α = Risque d’erreur de 1ère espèce (fixé à 5%) ▪ β = Risque d’erreur de 2ème espèce (fixé à 20% si on souhaite une puissance à 80%, ou fixé à 10% si on souhaite une puissance à 90%) 24
Calculs – critère de jugement quantitatif Formules 25
Calculs – critère de jugement binaire Notations ▪ Soit deux groupes A et B, tels que la taille du groupe B (nB) soit k fois plus grande que la taille du groupe A (nA) : nB = k.nA ▪ Soit un critère de jugement binaire dont on veut comparer les pourcentages de présence* entre les deux groupes A et B ▪ A = pourcentage attendu de présence* du critère de jugement dans le groupe A ▪ B = pourcentage attendu de présence* du critère de jugement dans le groupe B ▪ α = Risque d’erreur de 1ère espèce (fixé à 5%) ▪ β = Risque d’erreur de 2ème espèce (fixé à 20% si on souhaite une puissance à 80%, ou fixé à 10% si on souhaite une puissance à 90%) * Ou absence 26
Calculs – critère de jugement binaire Formules Avec 27
En résumé, beaucoup de calculs… Mais heureusement, il y a … Internet ! https://www.sealedenvelope.com/ 28