La théorie classique des tests

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Indicateurs de Suivi, Risques & Mesure d’Associations
Analyse d’items Ensemble de procédés statistiques dont le but est d ’évaluer la qualité d’un instrument de mesure et des items qui le composent. Ensemble.
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
But de la lecture critique
Risques d’erreur statistique et test statistique
RECONNAISSANCE DE FORMES
Test statistique : principe
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
5 critères de qualité d'un test
Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Les TESTS STATISTIQUES
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Système formel Nous avons introduit : signes de variables (x, y, z, …), de constantes (0, 1), d’opérations (+, ), de relations (=, ) Axiomes : ce sont.
11/02/20051 Internet Intranet Le portail UNSS. 11/02/20052 Qui peut accéder à Intranet ? Les services UNSS Les coordonnateurs de district Les AS.
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie Cours 6
Chapitre VII :Commande par retour d’état
Cours d’Automatique MASTER OIV
Un neurone élémentaire
Master Université de Bourgogne
Objectifs du chapitre 8: Mesures verbales en psychologie
Paul-Marie Bernard Université Laval
FERRAFIAT Nicolas Le logiciel d’estimation statistique en fiabilité
Partie 5 Les échelles de mesure.
La Régression Multiple
Régression linéaire simple
Groupe 1: Classes de même intervalle
Partie 3 La psychophysique.
L’observation directe du comportement
Howell, Chap. 1 Position générale
DU MOTEUR THERMIQUE A 4 TEMPS
Comprendre la variation dans les données: Notions de base
B Souda Abdelhafidh Mai 2006 Lévaluation est-elle une innovation en Tunisie B souda Abdelhafidh Élève inspecteur au CENAFFE.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Etape « 6. Correction et discussion »
Psychométrie et édumétrie
Objectifs Chapitre 8: Mesure en psychologie
Objectifs du chap. 5: Plans de recherche classiques
Présentation de la méthode des Eléments Finis
DEMARCHE ERGONOMIQUE.
REGLAGE ECONOMIQUE DES PRODUCTIONS Le réglage tertiaire.
Théorème de la limite centrale l’inférence statistique
Test d'hypothèse pour des proportions:
Programmation linéaire en nombres entiers
Micro-intro aux stats.
Intervalles de confiance pour des proportions L’inférence statistique
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Méthode des moindres carrés (1)
Chapitre 4 Variables aléatoires discrètes
Études de Marché Dess communication de masse
Résolution des équations différentielles
L2S4M3 Méthode clinique 1 : Examen psychologique et tests CM N°2
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
Examen psychologique de l‘adulte et du sujet âgé Examen psychologique de l‘adulte et du sujet âgé UPJV Département de Psychologie Cours du 6 novembre 2013.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Transcription de la présentation:

La théorie classique des tests Partie 4 La théorie classique des tests

Partie 4 – Théorie classique des tests Chapitre 1 : Introduction Chapitre 2 : Théorie (classique) des scores de test Chapitre 3: Fidélité des mesures Chapitre 4: Validité des mesures Chapitre 5: L’analyse classique d’items Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Introduction Test: situation expérimentale standardisée servant de stimulus à un comportement. Ce comportement est évalué par une comparaison statistique avec celui d'autres individus placés dans la même situation, permettant ainsi de classer le sujet examiné soit quantitativement, soit typologiquement (Pichot, 1954). standardisé, fidèle, valide et étalonné Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Introduction Item: chacune des questions d'un test, d'un questionnaire, ou chacune des propositions auxquelles il est demandé de réagir dans les échelles d'attitude Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005

La nature des scores obtenus grâce aux tests Si on considère les scores obtenus, au départ d'un test, par un groupe de sujets, à quel type de mesures sommes-nous confrontés ? Sont-ce des mesures de rapport, d'intervalles égaux ou, à la limite, ne sont-ce que des mesures ordinales ? Master Université de Bourgogne, 17-20 janvier 2005

La nature des scores obtenus grâce aux tests Si le nombre d'items réussis peut être traduit en un nombre, il s'agit d'un nombre d'items. Le passage à l'expression d'une compétence particulière sous la forme d'un nombre, à partir du nombre d'items réussis, n'est pas aussi simple, nous ne savons pas: si l'échec à tous les items conduit à une estimation d'une compétence nulle (zéro vrai pour la compétence), si chaque item traduit bien un saut égal sur l'échelle de compétence (égalité des intervalles). Nous devons nous assurer que tous les items mesurent bien la même chose. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Problèmes relatifs à la composition en un score des résultats obtenus à des items de test Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Problèmes relatifs à la composition en un score des résultats obtenus à des items de test Série 1 Série 2 2 x 4 = 11 x 17 = 3 x 8 = 8 x 13 = 5 x 6 = 124 x 32 = 2 x 10 = 6 x 37 = 7 x 11 = 14 x 74 =  Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Echelles d’âge mental Les échelles d'âge mental, en tant que mesures psychologiques, ne rencontrent pas beaucoup de présupposés de la mesure (zéro vrai, intervalles égaux). En effet, il s'agit de mesures composites dont la nature varie d'un niveau d'âge à un autre, comme nous l'avons précisé dans la première partie (chapitre 1). Les items étant calibrés, on pourrait avoir l'impression que la distance psychologique entre des tests destinés à des enfants âgés de 9 et 10 ans est égale à celle existant entre 14 et 15 ans. C'est pourtant faux ! Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Vitesse et puissance Puissance intellectuelle (Piéron, 1992): « la capacité de résoudre des problèmes de difficulté croissante, sans limite de temps, par opposition à la capacité de résoudre, en temps limité, le plus grand nombre de problèmes posés, où intervient une vitesse intellectuelle » Master Université de Bourgogne, 17-20 janvier 2005

Scores-seuils et probabilité de réussite Problème de définition des seuils de coupure Probabilité de réussite et non certitude de réussite ou d’échec Importance de la qualité de l’instrument (l’erreur de mesure est fonction inverse de la qualité) Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 Stabilité des scores L’une des qualités d’un instrument est la stabilité des résultats obtenus, pour un même sujet, à travers le temps (si le sujet ne s’est pas « modifié ») Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Lorsqu'on parle de fidélité, on se réfère à la précision avec laquelle un score représente l'aptitude du sujet observé. Il s'agit donc d'une qualité technique du test. Les scores observés ne sont pas exempts d’erreurs. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Xt= score observé, score total au test X= valeur vraie (compétence des sujets) Xe= composante d’erreur On peut écrire: Xt = X+ Xe Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité X= valeur vraie le score qu’un individu aurait obtenu dans des conditions idéales avec un instrument parfait . la moyenne des scores obtenus par un sujet au départ d'un nombre infini d'administrations indépendantes du même instrument. Cette définition suppose cependant que les erreurs qui entachent les performances à chaque essai soient non corrélées, c'est-à-dire qu'elles résultent de biais non systématiques. Mais, difficulté de reproduire un grand nombre de fois la même mesure (contrairement au domaine de la psychophysique ou du contrôle de qualité en industrie) Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat I e = 0 La moyenne des erreurs commises aux différents items d'un test est nulle. Dit autrement, il n’existe pas de biais systématiques dans la situation de test, le facteur d'erreur conduisant tantôt à une sur-estimation, tantôt à une sous-estimation des résultats à chaque item, mais en moyenne, les erreurs "s'annulent". Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat II  e = 0 La corrélation entre les scores vrais et les scores d'erreur vaut zéro. Il n'existe donc pas un mécanisme qui conduirait à accroître ou à réduire l'ampleur des erreurs en fonction de la compétence vraie du sujet. Dit autrement, les sujets les plus compétents ne voient pas leur score affecté d'une erreur plus grande ou plus petite que celui des sujets les moins compétents. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat III e1e2 = 0 La corrélation entre les erreurs (par exemple, e1 et e2) aux différents items vaut zéro. On n'observe donc pas des erreurs d'autant plus grandes à certains items qu'elles sont grandes à d'autres items. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité D’où t =  + e (où e=0, d'où t = ) MAIS Avec le postulat II ( e = 0 ): = 0 Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On définit la fidélité comme la proportion de variance vraie par rapport à la variance des scores observés Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut aussi écrire: Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut estimer la variance vraie: Et donc: Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut estimer la variance d’erreur: Et donc, l’erreur standard de mesure: Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Effet de la longueur (si on double la longueur et si tous les items mesurent la même chose) Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La fidélité De manière plus générale (Spearman-Brown): Où m est un coefficient d’allongement (2, si double de la longueur, 0,5 si moitié de la longueur initiale) Master Université de Bourgogne, 17-20 janvier 2005

Grandes méthodes d’estimation de la fidélité Méthodes basées sur la consistance interne Méthodes basées sur le test-retest Méthodes mixtes (formes parallèles) Master Université de Bourgogne, 17-20 janvier 2005

Grandes méthodes d’estimation de la fidélité Les méthodes basées sur le postulat de consistance interne prennent comme pré-supposé de base l’une des deux idées suivantes : (a) tous les items du test mesurent le même chose (comme dans le cas du calcul des coefficient KR 20 ou KR21) (b) différentes parties du test mesurent la même chose (voir  de Cronbach et méthodes basées sur les scores obtenus aux items pairs-impairs). Master Université de Bourgogne, 17-20 janvier 2005

Grandes méthodes d’estimation de la fidélité Les méthodes basées sur le test-retest ne postulent nullement l'existence d'une consistance interne. En fait, les différentes parties du test pourraient, à la limite, avoir une inter-corrélation nulle et, cependant, la corrélation entre une première et une seconde administration du test (fidélité test-retest) pourrait être élevée. Le concept-clé est ici celui de la stabilité dans le temps. Une corrélation élevée signifie donc que les individus demeurent plutôt stables à travers le temps et qu’ils obtiennent un score total identique ou très proche lors de plusieurs passations consécutives, s’ils n’ont pas suivi un enseignement en rapport avec l’objet du test ou eu l’occasion de s’y entraîner. Un coefficient bas signifie, au contraire, qu'il y a fluctuation du score total, et donc de l'estimation de la compétence, à travers le temps. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005   Variance vraie Variance d'erreur Consistance interne Covariance entre items ou groupes d'items à l’intérieur d’un même test Les items (ou groupes d'items) ne mesurent pas la même chose Test-retest Covariance entre les résultats du test présenté à deux occasions (test et retest) A deux occasions, des résultats supposés identiques diffèrent en raison de conditions extérieures (fatigue différente = aléatoire car variable d’un sujet à l’autre / effet de testing = systématique, la mémorisation jouant plus ou moins fortement selon la nature du test Formes parallèles Covariance entre les deux formes à deux moments différents A deux occasions, les résultats diffèrent (cf. test-retest) Les résultats aux deux formes diffèrent (cf. différences à l’intérieur d’un même test, comme dans l’étude de la consistance interne) Master Université de Bourgogne, 17-20 janvier 2005

Méthodes basées sur la consistance interne Méthodes « items pairs-impairs » La formule de Rulon Les formules de Kuder-Richardson L’alpha de Cronbach L’approche de l’analyse de la variance Master Université de Bourgogne, 17-20 janvier 2005

Méthodes « items pairs-impairs » Calcul du score items pairs Calcul du score items impairs Calcul de la corrélation (Bravais-Pearson, soit pi) entre les deux scores Correction de la corrélation (car longueur ½) par Spearman-Brown: Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La formule de Rulon Calcul du score items pairs Calcul du score items impairs Calcul, pour chaque sujet, de la différence entre les deux scores Calcul de 2d assimilé à la variance d’erreur, soit 2e Calcul de la fidélité par la formule « classique » (sans correction) Master Université de Bourgogne, 17-20 janvier 2005

Les formules de Kuder-Richardson Deux formules KR20 KR21(sans statistiques d’items, formule moins précise et valeur plus faible ou égale à KR20) Où k est le nombre d’items Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 L’alpha de Cronbach La formule de Cronbach constitue une généralisation du KR20 pour les items non dichotomiques. Elle s’écrit : Master Université de Bourgogne, 17-20 janvier 2005

L’erreur standard de mesure L'erreur standard de mesure, notée ESM, permet de déterminer le degré de confiance que l'on peut accorder au score obtenu à un test donné par un sujet particulier. Elle est fonction de la qualité de l’instrument utilisé et donc de sa fidélité. Elle s’établit de la manière suivante. où t est l’écart-type des résultats du test et tt la fidélité du test telle qu'elle a été calculée par l’une des méthodes abordées dans ce chapitre. Master Université de Bourgogne, 17-20 janvier 2005

Interprétation de la valeur des coefficients de fidélité Valeur de tt Appréciation 0,95 à 1,00 Instrument parfait, les mesures sont pratiquement sans erreur. 0,85 à 0,95 Instrument excellent, les mesures contiennent peu d'erreur. 0,70 à 0,85 Bon test, il est prudent d'évaluer une seconde fois le sujet. 0,50 à 0,70 Instrument imprécis, peut contenir de l'information utile. 0,00 à 0,50 Instrument peu utile, ne pas l'employer pour classer un sujet. Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Conditions optimales de difficulté Fidélité des tests de vitesse Fidélité et dispersion des aptitudes dans la population (corriger par ) Fidélité des QCM Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Fidélité des scores composites formule de Mosier: Fidélité des scores différentiels Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005   Représentation des variances dans le test 1. dans le test 2. des variances du score X1 - X2 Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La validité Le concept de validité se rapporte à ce que le test mesure réellement. Le plus souvent, le degré de validité s'indique par un coefficient de corrélation entre les scores obtenus au test et un critère extérieur au test. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La validité Approche factorielle: Communauté Spécificité Unicité Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La validité Un score est valide s'il prédit « quelque chose » et si ce « quelque chose » n'inclut pas le score lui-même. En effet, une auto-prédiction concerne la fidélité et non la validité. Nous avons ainsi noté la mesure de la fidélité par tt. Master Université de Bourgogne, 17-20 janvier 2005

Signification du terme validité Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale Master Université de Bourgogne, 17-20 janvier 2005

Les procédures de validation Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Problème de prédictions multiples et d’idiosyncrasie (échantillon / =>validation croisée) Correction pour atténuation (corrélation entre scores vrais) où  est la corrélation entre les composantes vraies des deux tests (on les indicera  et  de manière à les distinguer), t1t2 est la corrélation entre les scores observés et t1t1 et t2t2 sont les coefficients de fidélité des tests T1 et T2. Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Correction pour atténuation où x est la corrélation corrigée pour la variance d'erreur existant dans le critère y et xy est la corrélation entre le score au test x et le critère y. Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Validité et longueur du test où mx.y est la validité d’un test m fois plus long que le test x initial ; xy est la corrélation entre le score au test x et le critère y, c’est-à-dire la validité du test initial ; xx est la fidélité du test x initial ; m est le coefficient d’allongement du test (par exemple, m = 2 si on double la longueur du test, m = 0,5 si on diminue le test de moitié). Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Effet de la dispersion des aptitudes sur la validité faible dispersion du critère => faible validité (ex. le problème des concours) Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Où j>i La variance du score total est donc égale à la somme des variances aux différents items augmentée du double produit des covariances entre toutes les paires d'items. Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Dans le cas d’items dichotomiques Où j>i Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items La variance des scores totaux obtenus à un test sera maximale à une double condition : 1. que tous les pi - les proportions de réussite aux différents items - soient égaux à 0,50 (on obtient donc une variance maximale si tous les items sont de difficulté moyenne pour l'ensemble des sujets); 2. que tous les ij= 1 (tous les items mesurent exactement la même chose). Si le test compte k items, tous les sujets auront donc un score total égal à 0 ou à k. Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Si les pourcentages de réussite aux différents items pi sont élevés, alors la distribution des scores des sujets prendra la forme d'une courbe en j (beaucoup de scores élevés; peu de scores bas). Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Si, inversement, les pourcentages de réussite aux différents items pi sont faibles, alors la distribution des scores des sujets prendra la forme d'une courbe en i (beaucoup de scores faibles, peu de scores élevés). Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Si les pi sont de difficulté moyenne (et que les inter-corrélations sont faibles), la distribution prendra la forme d'une courbe de Gauss : beaucoup de scores moyens, peu de scores élevés, peu de scores faibles. Master Université de Bourgogne, 17-20 janvier 2005

Le score total: composition de scores à des items Si ic correspond à la corrélation moyenne des items avec le critère externe et it la corrélation moyenne des items avec le score total au test, alors on peut écrire l’estimation de Humphreys où la corrélation test-critère externe vaut, dans le cas d'items de même niveau de difficulté: Ce coefficient de validité est donc le rapport entre la corrélation moyenne des items avec le critère et la corrélation moyenne des items avec le score total. Master Université de Bourgogne, 17-20 janvier 2005

Homogénéité et hétérogénéité des tests Un test parfaitement homogène est un test qui mesure le même facteur commun chez tous les individus et pour tous les items. Formule de Loevinger Approche factorielle Master Université de Bourgogne, 17-20 janvier 2005

Homogénéité et hétérogénéité des tests Master Université de Bourgogne, 17-20 janvier 2005

Homogénéité et hétérogénéité des tests Loevinger présente une formule permettant de définir l'homogénéité. où Ht est l’indice d'homogénéité, Vt est la variance des scores totaux, Vho est la variance d'un test parfaitement homogène ayant la même distribution de pi que le test en question, Vhe est la variance d'un test parfaitement hétérogène ayant la même distribution de pi que le test en question. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La discrimination S'il y a k items, les scores totaux possibles vont de 0 à k. Il y a donc (k+1) scores possibles : ce nombre de différences sera maximal si, à tous les scores possibles, correspondent des fi égales, c’est-à-dire si un nombre identique de sujets obtient chacun des scores possibles, comme l'indique la figure ci-dessous. Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005 La discrimination Ferguson définit le coefficient de discrimination  de la manière suivante : Discrimination maximale si  = 1, minimale si  = 0 Où k est le nombre d’items et donc k+1 le nombre de scores possibles, N le nombre de sujets et fi la proportion de sujets qui obtiennent le score i. Master Université de Bourgogne, 17-20 janvier 2005

Relations entre vitesse et puissance Thurstone (1937) a défini la puissance d'un individu pour une tâche déterminée comme le niveau de difficulté des tâches où sa probabilité de réussite est 0,5 en un temps infini. Cela implique donc qu'on n'impose aucune limite de temps de réponse. On peut tenter de raisonner sur les deux schémas suivants Master Université de Bourgogne, 17-20 janvier 2005

Relations entre vitesse et puissance T1, T2… = temps attribué à la passation du test = Aptitude vraie du sujet Master Université de Bourgogne, 17-20 janvier 2005

Relations entre vitesse et puissance D1, D2… = difficulté du test = Aptitude vraie du sujet Master Université de Bourgogne, 17-20 janvier 2005

Introduction à l’analyse classique d’items Indices de difficulté des items Indice de discrimination des items Mais, importance de l’analyse a priori Master Université de Bourgogne, 17-20 janvier 2005

Indices de difficulté des items Si l'item est corrigé de manière dichotomique (0 ou 1), l'indice de difficulté le plus élémentaire est le pourcentage de réponses correctes (pi). A cet indice correspond la probabilité qu'un « sujet moyen » appartenant à la population a de réussir l'item i. L'indice pi constitue un indice de difficulté moyen pour l'ensemble des individus testés. Master Université de Bourgogne, 17-20 janvier 2005

Indices de difficulté des items Mais, attention aux réponses « au hasard » ! Plusieurs techniques pour les neutraliser: augmentation du nombre de distracteurs, ajout de distracteurs du type « toutes les réponses sont correctes », « toutes les réponses sont fausses », « la question présente une aberration logique »… pénalisation des réponses fausses par une coefficient négatif, utilisation de degrés de certitude qui créditerons de manière plus ou moins généreuse ou sévère les bonnes et les mauvaises réponses des sujets en fonction de la confiance qu'ils déclarent accorder à leurs propres réponses. Master Université de Bourgogne, 17-20 janvier 2005

Pénalisation des réponses fausses par une coefficient négatif Pénalité (si bonne réponse = 1 point) Si bonne réponse = 2 points ? Master Université de Bourgogne, 17-20 janvier 2005

Pénalisation des réponses fausses par une coefficient négatif Et pour le score total d’un test: Mais, problèmes liés à la vitesse (items non atteints) Master Université de Bourgogne, 17-20 janvier 2005

Indices de discrimination des items Master Université de Bourgogne, 17-20 janvier 2005

Indices de discrimination des items Indices de discrimination entre groupes « forts » et « faibles »: Corrélation bisériale de point ou rpbis Master Université de Bourgogne, 17-20 janvier 2005

Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Effet de recouvrement (l’item constitue une partie du score / attention si très peu d’items) Effet de la chance sur le rpbis Effet de la vitesse Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Amélioration de la validité Choix des items en vue de la construction de formes parallèles Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Facteurs susceptibles d’introduire des biais dans les réponses Facteurs liés au sujet et à ses dispositions mentales Facteurs liés à la situation d’évaluation Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Facteurs liés au sujet et à ses dispositions mentales: Tendance à deviner / goût du risque Interprétation sémantique Impulsivité Tendance à acquiescer Vitesse et exactitude Désirabilité sociale Fatigue, stress et altération de l’état mental du sujet Effet de testing / habitude / entrainement Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Facteurs liés à la situation d’évaluation : Présentation de l’épreuve Conditions de passation Perturbations fortuites Langage, situations proposées Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Quelques solutions : Identification des dispositions susceptibles d'intervenir. Structuration suffisante du test. Précision dans les consignes. Présentation adéquate des items. Exemple : la réponse correcte doit être présentée aléatoirement dans différentes positions de manière à éviter de faciliter les déductions et les choix construits sur d'autres bases que la compétences à mesurer. Formulation correcte des questions (voir par exemple Leclercq, 1986, pour les questions à choix multiples) et utilisation d'un système de correction fiable dans le cas du recours à des questions à réponses rédigées. Master Université de Bourgogne, 17-20 janvier 2005

Problèmes spécifiques Quelques solutions : Utilisation d'une formule adéquate de correction pour choix au hasard et information des sujets testés. Mise en condition des sujets, accueil correct, positionnement confortable et adéquat dans la salle de test. Lorsqu'il s'agit de tests collectifs, vérification des conditions optimales pour chacun des sujets. Recours à d'autres instruments (par exemple, l'observation en milieu naturel) lorsque des biais trop importants sont susceptibles d'invalider les résultats de tests. Master Université de Bourgogne, 17-20 janvier 2005