ITEM Response THEORY ET analyse du fonctionnement différentiel du SCORE EPICES : l’étude INDIA Adrien Guilloteau 22/11/2016
La théorie classique des tests (CTT) Comment mesurer un concept flou/latent ? (Ex: intelligence) Début du XXe : psychométrie et statistiques (Spearman) A été très utilisé en santé pour l’élaboration d’échelles/de score Basée sur une formule : X = T + ε X : valeur observée T : « vraie » valeur (théorie classique des tests = théorie du vrai score) ε : erreur aléatoire liée à la mesure
La théorie classique des tests (CTT) Hypothèses : Plus X est grand plus T l’est également ε suit une loi normale centrée sur 0 (pas de biais) ε est indépendant de T (l’erreur ne varie pas selon le niveau de la variable latente) Concept associés : Capacité discriminante des items (index de discrimination) Reliability (précision du test par rapport à la vraie valeur - alpha de Cronbach/SEM) Dimensionality (analyses factorielles)
La théorie classique des tests (CTT) Construction : Élaboration d’une liste de questions Sélection des items sur différents critères (« reliability », proportion de réponse « Oui », corrélation entre items…) Structuration (analyses factorielles, sélection des items au sein des sous-dimensions…) Répétition du processus jusqu’à obtention d’une échelle valide Critiques/limites : Score dépendant de l’échantillon Score dépendant de l’item (pour deux questions différentes, une augmentation d’une unité n’aura pas une significativité identique sur le trait latent)
La théorie de réponse aux items (IRT) IRT = Théorie moderne des tests, en opposition à la CTT Développée (années 1950-70) pour palier aux défauts de la CTT Idée de départ : Échelle de qualité = unidimensionnelle (homogénéité maximale du trait latent) + indépendante + sur une seule échelle (items et traits latents + une augmentation de 1 a vraiment la même signification quelque soit les conditions)
La théorie de réponse aux items (IRT) Principes : Centrée sur l’item Associe une probabilité de réponse à une caractéristique individuelle (le « trait latent » mesuré par le questionnaire, θ), pour chaque point d’un questionnaire : 𝒑 𝑿𝒋𝒊=𝟏 | 𝜽𝒋 =𝒇 ∆𝒊 Avec : Xji = donnée observée de l’individu j pour l’item i θj = variable latente (« vrai score ») pour l’individu j Δi = difficulté de l’item i
Différents développement de l’IRT
Les différents modèles IRT Il existe de nombreux modèles dans la famille IRT, dépendant du : type de réponses (binaires, ordinales, nominales) -> modèle binaire/polytomique modèle utilisé pour prendre en compte les items non binaires : Rating scale model, Partial credit model, Graded response model nombre de paramètres -> difficulté, pente, origine, minimum, maximum Le plus simple : Modèle de Rasch (items binaires, uniquement la difficulté), particulier par son interprétation Plus les modèles sont complexes, plus il y’a de paramètres, plus le NSN est important
Modèle de Rasch : ICC
Modèle avec 2 paramètres (difficulté, pente) : ICC
Modèle avec 3 paramètres (+ guessing) : ICC
Conditions d’applications Famille IRT : Unidimensionnalité (une seule dimension évaluée) Monotonicité (difficulté toujours (dé)croissante avec l’augmentation du trait latent) Indépendance locale (la réponse à la question 1 n’est pas liée à la réponse à la question 2, seul le trait latent détermine la probabilité de réponse) Modèle de Rasch : + Objectivité spécifique : violé par l’ajout de la pente comme paramètre (hiérarchisation des items variable selon le niveau de trait latent)
Le fonctionnement différentiel des items (DIF) Concept dérivé de la théorie de réponse aux items (IRT) Hypothèse de l’IRT : pour deux individus différents ayant un même niveau de trait latent, la probabilité de réponse est la même (quelque soit les différences de caractéristiques) pour le même item Mais hypothèse parfois discutable : Ex : est ce que la propriété a le même sens en terme de précarité entre ville et campagne ?
Evaluation du DIF Nombreux modèles existants pour évaluer ces différences Pour INDIA : package lordif, processus itératif complexe basé sur une régression logistique Principalement deux types de modèles : Basé sur une régression logistique (ou polytomique) Basé sur une autre méthode
Typologie du DIF Deux types : uniforme / non-uniforme Uniforme => Constant quelque soit le niveau de trait latent Ex : A niveau de qualité de vie identique les diabétiques répondront systématiquement « Oui » avec une probabilité plus faible que les individus sains à la question « Ajoutez vous des morceaux de sucre dans votre café ?» (au moins chez les observants au régime…) Non-uniforme => Variable selon le niveau de trait latent Ex : Les précaires de la campagne auront moins de difficultés que les précaires de la ville à répondre Oui à la question « Etes vous propriétaire de votre logement ?», alors que les gens aisés auront des probabilités de réponse semblable
Intensité du DIF L’Intensité du DIF est évalué sur ΔR² (en fait pseudo-R² car régression logistique - McFadden) sur 3 comparaisons : Modèle sans DIF vs Modèle avec DIF uniforme Modèle sans DIF vs Modèle avec DIF non-uniforme Modèle avec DIF uniforme vs Modèle sans DIF uniforme Règle de décision (Jodoin et al) : ΔR² < 0,035 : DIF négligeable 0,035 < ΔR² < 0,07 : DIF modéré ΔR² > 0,07 : DIF important
Au total IRT : Nombreuses conditions d’applications / nombreux modèles Beaucoup de questions non résolues (choix du modèle, vérification des conditions d’applications…) Processus d’estimation complexe, difficile d’abord (package lordif) Mais à priori bonne évaluation des items comportant un DIF Résultats cohérents avec le contexte Score EPICES : construction à revoir ?
Merci de votre attention !