La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Partie 4 La théorie classique des tests. Master Université de Bourgogne, 17-20 janvier 20052 Partie 4 – Théorie classique des tests Chapitre 1 : Introduction.

Présentations similaires


Présentation au sujet: "Partie 4 La théorie classique des tests. Master Université de Bourgogne, 17-20 janvier 20052 Partie 4 – Théorie classique des tests Chapitre 1 : Introduction."— Transcription de la présentation:

1 Partie 4 La théorie classique des tests

2 Master Université de Bourgogne, janvier Partie 4 – Théorie classique des tests Chapitre 1 : Introduction Chapitre 2 : Théorie (classique) des scores de test Chapitre 3: Fidélité des mesures Chapitre 4: Validité des mesures Chapitre 5: Lanalyse classique ditems

3 Master Université de Bourgogne, janvier Introduction Test: situation expérimentale standardisée servant de stimulus à un comportement. Ce comportement est évalué par une comparaison statistique avec celui d'autres individus placés dans la même situation, permettant ainsi de classer le sujet examiné soit quantitativement, soit typologiquement (Pichot, 1954). standardisé, fidèle, valide et étalonné

4 Master Université de Bourgogne, janvier Introduction Item: chacune des questions d'un test, d'un questionnaire, ou chacune des propositions auxquelles il est demandé de réagir dans les échelles d'attitude

5 Master Université de Bourgogne, janvier 20055

6 6

7 7 La nature des scores obtenus grâce aux tests Si on considère les scores obtenus, au départ d'un test, par un groupe de sujets, à quel type de mesures sommes-nous confrontés ? Sont-ce des mesures de rapport, d'intervalles égaux ou, à la limite, ne sont- ce que des mesures ordinales ?

8 Master Université de Bourgogne, janvier La nature des scores obtenus grâce aux tests Si le nombre d'items réussis peut être traduit en un nombre, il s'agit d'un nombre d'items. Le passage à l'expression d'une compétence particulière sous la forme d'un nombre, à partir du nombre d'items réussis, n'est pas aussi simple, nous ne savons pas: si l'échec à tous les items conduit à une estimation d'une compétence nulle (zéro vrai pour la compétence), si chaque item traduit bien un saut égal sur l'échelle de compétence (égalité des intervalles). Nous devons nous assurer que tous les items mesurent bien la même chose.

9 Master Université de Bourgogne, janvier Probl è mes relatifs à la composition en un score des r é sultats obtenus à des items de test

10 Master Université de Bourgogne, janvier Probl è mes relatifs à la composition en un score des r é sultats obtenus à des items de test Série 1Série 2 2 x 4 =11 x 17 = 3 x 8 =8 x 13 = 5 x 6 =124 x 32 = 2 x 10 =6 x 37 = 7 x 11 =14 x 74 =

11 Master Université de Bourgogne, janvier

12 Master Université de Bourgogne, janvier Echelles d âge mental Les échelles d'âge mental, en tant que mesures psychologiques, ne rencontrent pas beaucoup de présupposés de la mesure (zéro vrai, intervalles égaux). En effet, il s'agit de mesures composites dont la nature varie d'un niveau d'âge à un autre, comme nous l'avons précisé dans la première partie (chapitre 1). Les items étant calibrés, on pourrait avoir l'impression que la distance psychologique entre des tests destinés à des enfants âgés de 9 et 10 ans est égale à celle existant entre 14 et 15 ans. C'est pourtant faux !

13 Master Université de Bourgogne, janvier Vitesse et puissance Puissance intellectuelle (Piéron, 1992): « la capacité de résoudre des problèmes de difficulté croissante, sans limite de temps, par opposition à la capacité de résoudre, en temps limité, le plus grand nombre de problèmes posés, où intervient une vitesse intellectuelle »

14 Master Université de Bourgogne, janvier Scores-seuils et probabilit é de r é ussite Problème de définition des seuils de coupure Probabilité de réussite et non certitude de réussite ou déchec Importance de la qualité de linstrument (lerreur de mesure est fonction inverse de la qualité)

15 Master Université de Bourgogne, janvier Stabilit é des scores Lune des qualités dun instrument est la stabilité des résultats obtenus, pour un même sujet, à travers le temps (si le sujet ne sest pas « modifié »)

16 Master Université de Bourgogne, janvier La fidélité Lorsqu'on parle de fidélité, on se réfère à la précision avec laquelle un score représente l'aptitude du sujet observé. Il s'agit donc d'une qualité technique du test. Les scores observés ne sont pas exempts derreurs.

17 Master Université de Bourgogne, janvier La fidélité X t = score observé, score total au test X = valeur vraie (compétence des sujets) X e = composante derreur On peut écrire: X t = X + X e

18 Master Université de Bourgogne, janvier La fidélité X = valeur vraie le score quun individu aurait obtenu dans des conditions idéales avec un instrument parfait. la moyenne des scores obtenus par un sujet au départ d'un nombre infini d'administrations indépendantes du même instrument. Cette définition suppose cependant que les erreurs qui entachent les performances à chaque essai soient non corrélées, c'est-à-dire qu'elles résultent de biais non systématiques. Mais, difficulté de reproduire un grand nombre de fois la même mesure (contrairement au domaine de la psychophysique ou du contrôle de qualité en industrie)

19 Master Université de Bourgogne, janvier La fidélité Trois postulats Postulat I e = 0 La moyenne des erreurs commises aux différents items d'un test est nulle. Dit autrement, il nexiste pas de biais systématiques dans la situation de test, le facteur d'erreur conduisant tantôt à une sur-estimation, tantôt à une sous-estimation des résultats à chaque item, mais en moyenne, les erreurs "s'annulent".

20 Master Université de Bourgogne, janvier La fidélité Trois postulats Postulat II e = 0 La corrélation entre les scores vrais et les scores d'erreur vaut zéro. Il n'existe donc pas un mécanisme qui conduirait à accroître ou à réduire l'ampleur des erreurs en fonction de la compétence vraie du sujet. Dit autrement, les sujets les plus compétents ne voient pas leur score affecté d'une erreur plus grande ou plus petite que celui des sujets les moins compétents.

21 Master Université de Bourgogne, janvier La fidélité Trois postulats Postulat III e1e2 = 0 La corrélation entre les erreurs (par exemple, e1 et e2) aux différents items vaut zéro. On n'observe donc pas des erreurs d'autant plus grandes à certains items qu'elles sont grandes à d'autres items.

22 Master Université de Bourgogne, janvier La fidélité D o ù t = + e (où e =0, d'où t = ) MAIS Avec le postulat II ( e = 0 ): = 0

23 Master Université de Bourgogne, janvier La fidélité On définit la fidélité comme la proportion de variance vraie par rapport à la variance des scores observés

24 Master Université de Bourgogne, janvier La fidélité On peut aussi écrire:

25 Master Université de Bourgogne, janvier La fidélité On peut estimer la variance vraie: Et donc:

26 Master Université de Bourgogne, janvier La fidélité On peut estimer la variance derreur: Et donc, lerreur standard de mesure:

27 Master Université de Bourgogne, janvier La fidélité Effet de la longueur (si on double la longueur et si tous les items mesurent la même chose)

28 Master Université de Bourgogne, janvier La fidélité De manière plus générale (Spearman-Brown): Où m est un coefficient dallongement (2, si double de la longueur, 0,5 si moitié de la longueur initiale)

29 Master Université de Bourgogne, janvier Grandes méthodes destimation de la fidélité Méthodes basées sur la consistance interne Méthodes basées sur le test-retest Méthodes mixtes (formes parallèles)

30 Master Université de Bourgogne, janvier Grandes méthodes destimation de la fidélité Les méthodes basées sur le postulat de consistance interne prennent comme pré-supposé de base lune des deux idées suivantes : (a) tous les items du test mesurent le même chose (comme dans le cas du calcul des coefficient KR 20 ou KR21) (b) différentes parties du test mesurent la même chose (voir de Cronbach et méthodes basées sur les scores obtenus aux items pairs-impairs).

31 Master Université de Bourgogne, janvier Grandes méthodes destimation de la fidélité Les méthodes basées sur le test-retest ne postulent nullement l'existence d'une consistance interne. En fait, les différentes parties du test pourraient, à la limite, avoir une inter- corrélation nulle et, cependant, la corrélation entre une première et une seconde administration du test (fidélité test-retest) pourrait être élevée. Le concept-clé est ici celui de la stabilité dans le temps. Une corrélation élevée signifie donc que les individus demeurent plutôt stables à travers le temps et quils obtiennent un score total identique ou très proche lors de plusieurs passations consécutives, sils nont pas suivi un enseignement en rapport avec lobjet du test ou eu loccasion de sy entraîner. Un coefficient bas signifie, au contraire, qu'il y a fluctuation du score total, et donc de l'estimation de la compétence, à travers le temps.

32 Master Université de Bourgogne, janvier Variance vraieVariance d'erreur Consistance interneCovariance entre items ou groupes d'items à lintérieur dun même test Les items (ou groupes d'items) ne mesurent pas la même chose Test-retestCovariance entre les résultats du test présenté à deux occasions (test et retest) A deux occasions, des résultats supposés identiques diffèrent en raison de conditions extérieures (fatigue différente = aléatoire car variable dun sujet à lautre / effet de testing = systématique, la mémorisation jouant plus ou moins fortement selon la nature du test Formes parallèlesCovariance entre les deux formes à deux moments différents A deux occasions, les résultats diffèrent (cf. test-retest) Les résultats aux deux formes diffèrent (cf. différences à lintérieur dun même test, comme dans létude de la consistance interne)

33 Master Université de Bourgogne, janvier Méthodes basées sur la consistance interne Méthodes « items pairs-impairs » La formule de Rulon Les formules de Kuder-Richardson Lalpha de Cronbach Lapproche de lanalyse de la variance

34 Master Université de Bourgogne, janvier Méthodes « items pairs- impairs » Calcul du score items pairs Calcul du score items impairs Calcul de la corrélation (Bravais-Pearson, soit pi ) entre les deux scores Correction de la corrélation (car longueur ½) par Spearman-Brown:

35 Master Université de Bourgogne, janvier La formule de Rulon Calcul du score items pairs Calcul du score items impairs Calcul, pour chaque sujet, de la différence entre les deux scores Calcul de 2 d assimilé à la variance derreur, soit 2 e Calcul de la fidélité par la formule « classique » (sans correction)

36 Master Université de Bourgogne, janvier Les formules de Kuder- Richardson Deux formules KR20 KR21(sans statistiques ditems, formule moins précise et valeur plus faible ou égale à KR20) Où k est le nombre ditems

37 Master Université de Bourgogne, janvier Lalpha de Cronbach La formule de Cronbach constitue une généralisation du KR20 pour les items non dichotomiques. Elle sécrit :

38 Master Université de Bourgogne, janvier Lerreur standard de mesure L'erreur standard de mesure, notée ESM, permet de déterminer le degré de confiance que l'on peut accorder au score obtenu à un test donné par un sujet particulier. Elle est fonction de la qualité de linstrument utilisé et donc de sa fidélité. Elle sétablit de la manière suivante. où t est lécart-type des résultats du test et tt la fidélité du test telle qu'elle a été calculée par lune des méthodes abordées dans ce chapitre.

39 Master Université de Bourgogne, janvier Interprétation de la valeur des coefficients de fidélité Valeur de tt Appréciation 0,95 à 1,00Instrument parfait, les mesures sont pratiquement sans erreur. 0,85 à 0,95Instrument excellent, les mesures contiennent peu d'erreur. 0,70 à 0,85Bon test, il est prudent d'évaluer une seconde fois le sujet. 0,50 à 0,70Instrument imprécis, peut contenir de l'information utile. 0,00 à 0,50Instrument peu utile, ne pas l'employer pour classer un sujet.

40 Master Université de Bourgogne, janvier Problèmes spécifiques Conditions optimales de difficulté Fidélité des tests de vitesse Fidélité et dispersion des aptitudes dans la population (corriger par ) Fidélité des QCM

41 Master Université de Bourgogne, janvier Problèmes spécifiques Fidélité des scores composites formule de Mosier: Fidélité des scores différentiels

42 Master Université de Bourgogne, janvier Représentation des variances dans le test 1. Représentation des variances dans le test 2. Représentation des variances du score X 1 - X 2

43 Master Université de Bourgogne, janvier La validité Le concept de validité se rapporte à ce que le test mesure réellement. Le plus souvent, le degré de validité s'indique par un coefficient de corrélation entre les scores obtenus au test et un critère extérieur au test.

44 Master Université de Bourgogne, janvier La validité Approche factorielle: Communauté Spécificité Unicité

45 Master Université de Bourgogne, janvier La validité Un score est valide s'il prédit « quelque chose » et si ce « quelque chose » n'inclut pas le score lui-même. En effet, une auto- prédiction concerne la fidélité et non la validité. Nous avons ainsi noté la mesure de la fidélité par tt.

46 Master Université de Bourgogne, janvier Signification du terme validité Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale

47 Master Université de Bourgogne, janvier Les procédures de validation Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale

48 Master Université de Bourgogne, janvier Problème de prédictions multiples et didiosyncrasie (échantillon / =>validation croisée) Correction pour atténuation (corrélation entre scores vrais) où est la corrélation entre les composantes vraies des deux tests (on les indicera et de manière à les distinguer), t1t2 est la corrélation entre les scores observés et t1t1 et t2t2 sont les coefficients de fidélité des tests T1 et T2. Problèmes spécifiques

49 Master Université de Bourgogne, janvier Problèmes spécifiques Correction pour atténuation où x est la corrélation corrigée pour la variance d'erreur existant dans le critère y et xy est la corrélation entre le score au test x et le critère y.

50 Master Université de Bourgogne, janvier Problèmes spécifiques Validité et longueur du test où mx.y est la validité dun test m fois plus long que le test x initial ; xy est la corrélation entre le score au test x et le critère y, cest-à-dire la validité du test initial ; xx est la fidélité du test x initial ; m est le coefficient dallongement du test (par exemple, m = 2 si on double la longueur du test, m = 0,5 si on diminue le test de moitié).

51 Master Université de Bourgogne, janvier Effet de la dispersion des aptitudes sur la validité faible dispersion du critère => faible validité (ex. le problème des concours) Problèmes spécifiques

52 Master Université de Bourgogne, janvier Le score total: composition de scores à des items

53 Master Université de Bourgogne, janvier Le score total: composition de scores à des items La variance du score total est donc égale à la somme des variances aux différents items augmentée du double produit des covariances entre toutes les paires d'items. Où j>i

54 Master Université de Bourgogne, janvier Le score total: composition de scores à des items Dans le cas ditems dichotomiques Où j>i

55 Master Université de Bourgogne, janvier Le score total: composition de scores à des items La variance des scores totaux obtenus à un test sera maximale à une double condition : 1. que tous les pi - les proportions de réussite aux différents items - soient égaux à 0,50 (on obtient donc une variance maximale si tous les items sont de difficulté moyenne pour l'ensemble des sujets); 2. que tous les ij = 1 (tous les items mesurent exactement la même chose). Si le test compte k items, tous les sujets auront donc un score total égal à 0 ou à k.

56 Master Université de Bourgogne, janvier Le score total: composition de scores à des items Si les pourcentages de réussite aux différents items p i sont élevés, alors la distribution des scores des sujets prendra la forme d'une courbe en j (beaucoup de scores élevés; peu de scores bas).

57 Master Université de Bourgogne, janvier Le score total: composition de scores à des items Si, inversement, les pourcentages de réussite aux différents items p i sont faibles, alors la distribution des scores des sujets prendra la forme d'une courbe en i (beaucoup de scores faibles, peu de scores élevés).

58 Master Université de Bourgogne, janvier Le score total: composition de scores à des items Si les p i sont de difficulté moyenne (et que les inter-corrélations sont faibles), la distribution prendra la forme d'une courbe de Gauss : beaucoup de scores moyens, peu de scores élevés, peu de scores faibles.

59 Master Université de Bourgogne, janvier Le score total: composition de scores à des items Si ic correspond à la corrélation moyenne des items avec le critère externe et it la corrélation moyenne des items avec le score total au test, alors on peut écrire lestimation de Humphreys où la corrélation test-critère externe vaut, dans le cas d'items de même niveau de difficulté: Ce coefficient de validité est donc le rapport entre la corrélation moyenne des items avec le critère et la corrélation moyenne des items avec le score total.

60 Master Université de Bourgogne, janvier Homog é n é it é et h é t é rog é n é it é des tests Un test parfaitement homogène est un test qui mesure le même facteur commun chez tous les individus et pour tous les items. Formule de Loevinger Approche factorielle

61 Master Université de Bourgogne, janvier Homog é n é it é et h é t é rog é n é it é des tests

62 Master Université de Bourgogne, janvier Homog é n é it é et h é t é rog é n é it é des tests Loevinger présente une formule permettant de définir l'homogénéité. où H t est lindice d'homogénéité, V t est la variance des scores totaux, V ho est la variance d'un test parfaitement homogène ayant la même distribution de p i que le test en question, V he est la variance d'un test parfaitement hétérogène ayant la même distribution de p i que le test en question.

63 Master Université de Bourgogne, janvier La discrimination S'il y a k items, les scores totaux possibles vont de 0 à k. Il y a donc (k+1) scores possibles : ce nombre de différences sera maximal si, à tous les scores possibles, correspondent des f i égales, cest-à-dire si un nombre identique de sujets obtient chacun des scores possibles, comme l'indique la figure ci- dessous.

64 Master Université de Bourgogne, janvier La discrimination Ferguson définit le coefficient de discrimination de la manière suivante : Discrimination maximale si = 1, minimale si = 0 Où k est le nombre ditems et donc k+1 le nombre de scores possibles, N le nombre de sujets et f i la proportion de sujets qui obtiennent le score i.

65 Master Université de Bourgogne, janvier Relations entre vitesse et puissance Thurstone (1937) a défini la puissance d'un individu pour une tâche déterminée comme le niveau de difficulté des tâches où sa probabilité de réussite est 0,5 en un temps infini. Cela implique donc qu'on n'impose aucune limite de temps de réponse. On peut tenter de raisonner sur les deux schémas suivants

66 Master Université de Bourgogne, janvier Relations entre vitesse et puissance T 1, T 2 … = temps attribué à la passation du test = Aptitude vraie du sujet

67 Master Université de Bourgogne, janvier Relations entre vitesse et puissance = Aptitude vraie du sujet D 1, D 2 … = difficulté du test

68 Master Université de Bourgogne, janvier Introduction à lanalyse classique ditems Indices de difficulté des items Indice de discrimination des items Mais, importance de lanalyse a priori

69 Master Université de Bourgogne, janvier Indices de difficulté des items Si l'item est corrigé de manière dichotomique (0 ou 1), l'indice de difficulté le plus élémentaire est le pourcentage de réponses correctes (p i ). A cet indice correspond la probabilité qu'un « sujet moyen » appartenant à la population a de réussir l'item i. L'indice p i constitue un indice de difficulté moyen pour l'ensemble des individus testés.

70 Master Université de Bourgogne, janvier Indices de difficulté des items Mais, attention aux réponses « au hasard » ! Plusieurs techniques pour les neutraliser: augmentation du nombre de distracteurs, ajout de distracteurs du type « toutes les réponses sont correctes », « toutes les réponses sont fausses », « la question présente une aberration logique »… pénalisation des réponses fausses par une coefficient négatif, utilisation de degrés de certitude qui créditerons de manière plus ou moins généreuse ou sévère les bonnes et les mauvaises réponses des sujets en fonction de la confiance qu'ils déclarent accorder à leurs propres réponses.

71 Master Université de Bourgogne, janvier Pénalisation des réponses fausses par une coefficient négatif Pénalité (si bonne réponse = 1 point) Si bonne réponse = 2 points ?

72 Master Université de Bourgogne, janvier Pénalisation des réponses fausses par une coefficient négatif Et pour le score total dun test: Mais, problèmes liés à la vitesse (items non atteints)

73 Master Université de Bourgogne, janvier Indices de discrimination des items

74 Master Université de Bourgogne, janvier Indices de discrimination des items Indices de discrimination entre groupes « forts » et « faibles »: Corrélation bisériale de point ou r pbis

75 Master Université de Bourgogne, janvier

76 Master Université de Bourgogne, janvier Problèmes spécifiques Effet de recouvrement (litem constitue une partie du score / attention si très peu ditems) Effet de la chance sur le r pbis Effet de la vitesse

77 Master Université de Bourgogne, janvier Problèmes spécifiques Amélioration de la validité Choix des items en vue de la construction de formes parallèles

78 Master Université de Bourgogne, janvier Problèmes spécifiques Facteurs susceptibles dintroduire des biais dans les réponses Facteurs liés au sujet et à ses dispositions mentales Facteurs liés à la situation dévaluation

79 Master Université de Bourgogne, janvier Problèmes spécifiques Facteurs liés au sujet et à ses dispositions mentales: Tendance à deviner / goût du risque Interprétation sémantique Impulsivité Tendance à acquiescer Vitesse et exactitude Désirabilité sociale Fatigue, stress et altération de létat mental du sujet Effet de testing / habitude / entrainement

80 Master Université de Bourgogne, janvier Problèmes spécifiques Facteurs liés à la situation dévaluation : Présentation de lépreuve Conditions de passation Perturbations fortuites Langage, situations proposées

81 Master Université de Bourgogne, janvier Problèmes spécifiques Quelques solutions : Identification des dispositions susceptibles d'intervenir. Structuration suffisante du test. Précision dans les consignes. P résentation adéquate des items. Exemple : la réponse correcte doit être présentée aléatoirement dans différentes positions de manière à éviter de faciliter les déductions et les choix construits sur d'autres bases que la compétences à mesurer. Formulation correcte des questions (voir par exemple Leclercq, 1986, pour les questions à choix multiples) et utilisation d'un système de correction fiable dans le cas du recours à des questions à réponses rédigées.

82 Master Université de Bourgogne, janvier Problèmes spécifiques Quelques solutions : Utilisation d'une formule adéquate de correction pour choix au hasard et information des sujets testés. Mise en condition des sujets, accueil correct, positionnement confortable et adéquat dans la salle de test. Lorsqu'il s'agit de tests collectifs, vérification des conditions optimales pour chacun des sujets. Recours à d'autres instruments (par exemple, l'observation en milieu naturel) lorsque des biais trop importants sont susceptibles d'invalider les résultats de tests.


Télécharger ppt "Partie 4 La théorie classique des tests. Master Université de Bourgogne, 17-20 janvier 20052 Partie 4 – Théorie classique des tests Chapitre 1 : Introduction."

Présentations similaires


Annonces Google