Article très intéressant et surtout très convivial sur les qualités métrologiques des outils de mesure : Fortin, F. (1994). Propriétés métrologiques des instruments de mesure (fidélité – validité). Recherches en soins infirmiers, 39, GLOSSAIRE SUR LES QUALITÉS MÉTROLOGIQUES DES OUTILS D’ÉVALUATION Glossaire conçu par Michèle Hébert, PhD, Jacinthe Savard, PhD, Mary Egan, PhD et Claire-Jehanne Dubouloz, PhD, professeures au programme d’ergothérapie de l’Université d’Ottawa, 2010.
Évaluer les besoins et le statut du client avant, pendant ou après une intervention La première étape de l’intervention en ergothérapie est l’évaluation du statut du client et de ses besoins de réadaptation. L’ergothérapeute a une foule d’outils à sa disposition pour procéder à une évaluation rigoureuse et pour obtenir des résultats fiables. Le choix des outils d’évaluation doit relever d’une démarche de raisonnement clinique et d’une prise de décision fondée sur les faits scientifiques. L’idée de « outcome measure » peut inclure cette première démarche évaluative, mais elle est habituellement centrée sur une conception plus stricte de l’évaluation du changement pendant ou après l’intervention. Elle demande la prise de données avant le début de l’intervention, pendant l’intervention et à la fin de l’intervention. Souvent, les données à recueillir référeront à un état de santé assez global. Quelle que soit la perspective d’évaluation, l’ergothérapeute devra prendre en considération les qualités métrologiques de l’outil qui sera retenu. L’étude des qualités métrologiques d’un outil de mesure permettra de porter un jugement sur la rigueur des résultats qu’il pourra offrir à l’ergothérapeute et au chercheur. 2
4.7.2 GLOSSAIRE SUR LES QUALITÉS MÉTROLOGIQUES DES OUTILS D’ÉVALUATION (adapté de Evidence-Based Rehabilitation) OBJETS D’ÉVALUATION : Prédire une situation / un état / une évolution Classer les personnes / discriminer Comparer les personnes à des normes Regrouper les personnes selon une caractéristique Mesurer le changement / les résultats (outcome measure) RIGUEUR DES RÉSULTATS EST DÉPENDANTE DE : VALIDITÉ DE L’OUTIL : outil qui mesure ce qu’il prétend mesurer; FIDÉLITÉ DES RÉSULTATS : outil qui propose des résultats stables lorsque le domaine d’évaluation / la situation du client ne changent pas. 3
4.7.3 VALIDITÉ DES OUTILS D’ÉVALUATION VALIDITÉ DE CONTENU (content validity) L’échantillon des items qui composent le test est représentatif du domaine à mesurer; Relève habituellement du jugement d’experts; Validité apparente (face validity) : Est-ce que le test semble regrouper des items qui représentent bien le domaine à mesurer, aux yeux de non-experts, comme les personnes évaluées, les évaluateurs, etc. VALIDITÉ DE CRITÈRE (criterion validity) Validité concomitante (concurrent validity) : Les résultats obtenus à l’évaluation sont comparés aux résultats obtenus avec une mesure identique, reconnue pour bien mesurer le concept en question (gold standard); Validité convergente : les résultats sont comparés aux résultats obtenus avec un outil semblable; Validité prédictive : les résultats liés à l’apparition d’un état; Sensibilité et spécificité (sensitivity and specificity): une façon différente de quantifier la validité de critère qui offre une indication du pourcentage de personnes correctement classifiées avec le test et de celles incorrectement classifiées (vrais et faux positifs). VALIDITÉ DE CONSTRUIT (construct validity) La construction du test et de ses items traduit bien le domaine à mesurer. Le cadre théorique sous-jacent au test est clair et bien représenté dans les items qui le composent. Le concepteur doit démontrer son hypothèse initiale voulant que le test mesure bien ce qu’il prétend mesurer, soit les relations théoriques entre les composantes du domaine à mesurer et les items du test. 4
4.7.4 Sensibilité et spécificité 5 Sensibilité = 80 personnes détectées sur 90 atteintes = 88.9 % Spécificité = 90 personnes non atteintes correctement identifiées sur un total de 110 personnes non atteintes = 81.8 % Examen clinique positifExamen clinique négatif Test de dépistage positif 80 personnes dépistées et réellement atteintes 20 personnes dépistées qui ne sontt pas réellement atteintes (faux positifs) Test de dépistage négatif 10 personnes non dépistées mais atteintes (faux négatifs) 90 personnes non dépistées et non atteintes Total 90 personnes réellement atteintes 110 personnes réellement non atteintes La sensibilité et la spécificité de divers outils d’évaluation sont des concepts particulièrement importants dans les processus de dépistage de certaines atteintes. La sensibilité nous indique dans quelle mesure notre outil est capable de détecter tous les cas positifs et la spécificité nous indique dans quelle mesure notre outil est capable de ne détecter que les cas positifs. Le tableau qui suit peut vous aider à mieux saisir le sens de ces deux caractéristiques.
4.7.5 FIDÉLITÉ DES RÉSULTATS CONSISTANCE OU COHÉRENCE INTERNE (internal consistency) Stabilité des résultats pour l’ensemble des items d’un même test, supposant un domaine d’évaluation unique. Statistique : Alpha (α) de Cronbach. STABILITÉ TESTS-RETEST (test-retest reliability) Stabilité des résultats dans le temps alors que les paramètres demeurent stables (juge, sujet, condition) Statistiques : ICC (corrélation intra-classe) et Kappa STABILITÉ INTERJUGES (inter-rater reliability or inter-observer reliability) Stabilité des résultats quand deux juges différents mesurent le même sujet, au même moment. Statistiques : ICC, Kappa (2 juges), Fleiss (plus de 2 juges) STABILITÉ INTRAJUGE (intra-rater reliability) Stabilité des résultats quand le même juge mesure la même situation (le même moment d’évaluation) plus d’une fois. Se fait habituellement à l’aide d’enregistrements vidéo de l’évaluation. Statistiques : ICC, Cohen’ Kappa (2 mesures), Fleiss’ Kappa (plus de 2 mesures) 6
4.7.6 Sensibilité au changement et réactivité clinique (Responsiveness) Une indication de la grandeur du changement qui peut être détecté par l’outil, qui dépend principalement de deux éléments: La grandeur de l’erreur de mesure du test : Cette dernière est inversement proportionnelle à la fidélité du test (plus la fidélité est grande, moins les résultats varient en l’absence de changement (erreur) et plus une variation dans les résultats au test peut être interprétée comme un véritable changement; L’échelle de mesure utilisée: l’échelle doit être assez sensible pour détecter le type de changement qu’on s’attend d’obtenir. Par exemple, l’échelle « 0: autonome, 1 besoin d’aide, 2 incapable » peut être assez sensible pour détecter un changement chez une clientèle dont on s’attend à ce qu’elle récupère complètement d’une condition, alors que pour une clientèle atteinte d’une maladie dégénérative, les changements à prévoir relève plutôt du niveau d’aide nécessaire et une échelle plus spécifique pour les niveaux d’aide requis sera nécessaire pour détecter un changement après une intervention ergothérapique. 7