La théorie classique des tests Partie 4 La théorie classique des tests
Partie 4 – Théorie classique des tests Chapitre 1 : Introduction Chapitre 2 : Théorie (classique) des scores de test Chapitre 3: Fidélité des mesures Chapitre 4: Validité des mesures Chapitre 5: L’analyse classique d’items Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Introduction Test: situation expérimentale standardisée servant de stimulus à un comportement. Ce comportement est évalué par une comparaison statistique avec celui d'autres individus placés dans la même situation, permettant ainsi de classer le sujet examiné soit quantitativement, soit typologiquement (Pichot, 1954). standardisé, fidèle, valide et étalonné Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Introduction Item: chacune des questions d'un test, d'un questionnaire, ou chacune des propositions auxquelles il est demandé de réagir dans les échelles d'attitude Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005
La nature des scores obtenus grâce aux tests Si on considère les scores obtenus, au départ d'un test, par un groupe de sujets, à quel type de mesures sommes-nous confrontés ? Sont-ce des mesures de rapport, d'intervalles égaux ou, à la limite, ne sont-ce que des mesures ordinales ? Master Université de Bourgogne, 17-20 janvier 2005
La nature des scores obtenus grâce aux tests Si le nombre d'items réussis peut être traduit en un nombre, il s'agit d'un nombre d'items. Le passage à l'expression d'une compétence particulière sous la forme d'un nombre, à partir du nombre d'items réussis, n'est pas aussi simple, nous ne savons pas: si l'échec à tous les items conduit à une estimation d'une compétence nulle (zéro vrai pour la compétence), si chaque item traduit bien un saut égal sur l'échelle de compétence (égalité des intervalles). Nous devons nous assurer que tous les items mesurent bien la même chose. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Problèmes relatifs à la composition en un score des résultats obtenus à des items de test Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Problèmes relatifs à la composition en un score des résultats obtenus à des items de test Série 1 Série 2 2 x 4 = 11 x 17 = 3 x 8 = 8 x 13 = 5 x 6 = 124 x 32 = 2 x 10 = 6 x 37 = 7 x 11 = 14 x 74 = Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Echelles d’âge mental Les échelles d'âge mental, en tant que mesures psychologiques, ne rencontrent pas beaucoup de présupposés de la mesure (zéro vrai, intervalles égaux). En effet, il s'agit de mesures composites dont la nature varie d'un niveau d'âge à un autre, comme nous l'avons précisé dans la première partie (chapitre 1). Les items étant calibrés, on pourrait avoir l'impression que la distance psychologique entre des tests destinés à des enfants âgés de 9 et 10 ans est égale à celle existant entre 14 et 15 ans. C'est pourtant faux ! Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Vitesse et puissance Puissance intellectuelle (Piéron, 1992): « la capacité de résoudre des problèmes de difficulté croissante, sans limite de temps, par opposition à la capacité de résoudre, en temps limité, le plus grand nombre de problèmes posés, où intervient une vitesse intellectuelle » Master Université de Bourgogne, 17-20 janvier 2005
Scores-seuils et probabilité de réussite Problème de définition des seuils de coupure Probabilité de réussite et non certitude de réussite ou d’échec Importance de la qualité de l’instrument (l’erreur de mesure est fonction inverse de la qualité) Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Stabilité des scores L’une des qualités d’un instrument est la stabilité des résultats obtenus, pour un même sujet, à travers le temps (si le sujet ne s’est pas « modifié ») Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Lorsqu'on parle de fidélité, on se réfère à la précision avec laquelle un score représente l'aptitude du sujet observé. Il s'agit donc d'une qualité technique du test. Les scores observés ne sont pas exempts d’erreurs. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Xt= score observé, score total au test X= valeur vraie (compétence des sujets) Xe= composante d’erreur On peut écrire: Xt = X+ Xe Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité X= valeur vraie le score qu’un individu aurait obtenu dans des conditions idéales avec un instrument parfait . la moyenne des scores obtenus par un sujet au départ d'un nombre infini d'administrations indépendantes du même instrument. Cette définition suppose cependant que les erreurs qui entachent les performances à chaque essai soient non corrélées, c'est-à-dire qu'elles résultent de biais non systématiques. Mais, difficulté de reproduire un grand nombre de fois la même mesure (contrairement au domaine de la psychophysique ou du contrôle de qualité en industrie) Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat I e = 0 La moyenne des erreurs commises aux différents items d'un test est nulle. Dit autrement, il n’existe pas de biais systématiques dans la situation de test, le facteur d'erreur conduisant tantôt à une sur-estimation, tantôt à une sous-estimation des résultats à chaque item, mais en moyenne, les erreurs "s'annulent". Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat II e = 0 La corrélation entre les scores vrais et les scores d'erreur vaut zéro. Il n'existe donc pas un mécanisme qui conduirait à accroître ou à réduire l'ampleur des erreurs en fonction de la compétence vraie du sujet. Dit autrement, les sujets les plus compétents ne voient pas leur score affecté d'une erreur plus grande ou plus petite que celui des sujets les moins compétents. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Trois postulats Postulat III e1e2 = 0 La corrélation entre les erreurs (par exemple, e1 et e2) aux différents items vaut zéro. On n'observe donc pas des erreurs d'autant plus grandes à certains items qu'elles sont grandes à d'autres items. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité D’où t = + e (où e=0, d'où t = ) MAIS Avec le postulat II ( e = 0 ): = 0 Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On définit la fidélité comme la proportion de variance vraie par rapport à la variance des scores observés Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut aussi écrire: Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut estimer la variance vraie: Et donc: Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité On peut estimer la variance d’erreur: Et donc, l’erreur standard de mesure: Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité Effet de la longueur (si on double la longueur et si tous les items mesurent la même chose) Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La fidélité De manière plus générale (Spearman-Brown): Où m est un coefficient d’allongement (2, si double de la longueur, 0,5 si moitié de la longueur initiale) Master Université de Bourgogne, 17-20 janvier 2005
Grandes méthodes d’estimation de la fidélité Méthodes basées sur la consistance interne Méthodes basées sur le test-retest Méthodes mixtes (formes parallèles) Master Université de Bourgogne, 17-20 janvier 2005
Grandes méthodes d’estimation de la fidélité Les méthodes basées sur le postulat de consistance interne prennent comme pré-supposé de base l’une des deux idées suivantes : (a) tous les items du test mesurent le même chose (comme dans le cas du calcul des coefficient KR 20 ou KR21) (b) différentes parties du test mesurent la même chose (voir de Cronbach et méthodes basées sur les scores obtenus aux items pairs-impairs). Master Université de Bourgogne, 17-20 janvier 2005
Grandes méthodes d’estimation de la fidélité Les méthodes basées sur le test-retest ne postulent nullement l'existence d'une consistance interne. En fait, les différentes parties du test pourraient, à la limite, avoir une inter-corrélation nulle et, cependant, la corrélation entre une première et une seconde administration du test (fidélité test-retest) pourrait être élevée. Le concept-clé est ici celui de la stabilité dans le temps. Une corrélation élevée signifie donc que les individus demeurent plutôt stables à travers le temps et qu’ils obtiennent un score total identique ou très proche lors de plusieurs passations consécutives, s’ils n’ont pas suivi un enseignement en rapport avec l’objet du test ou eu l’occasion de s’y entraîner. Un coefficient bas signifie, au contraire, qu'il y a fluctuation du score total, et donc de l'estimation de la compétence, à travers le temps. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Variance vraie Variance d'erreur Consistance interne Covariance entre items ou groupes d'items à l’intérieur d’un même test Les items (ou groupes d'items) ne mesurent pas la même chose Test-retest Covariance entre les résultats du test présenté à deux occasions (test et retest) A deux occasions, des résultats supposés identiques diffèrent en raison de conditions extérieures (fatigue différente = aléatoire car variable d’un sujet à l’autre / effet de testing = systématique, la mémorisation jouant plus ou moins fortement selon la nature du test Formes parallèles Covariance entre les deux formes à deux moments différents A deux occasions, les résultats diffèrent (cf. test-retest) Les résultats aux deux formes diffèrent (cf. différences à l’intérieur d’un même test, comme dans l’étude de la consistance interne) Master Université de Bourgogne, 17-20 janvier 2005
Méthodes basées sur la consistance interne Méthodes « items pairs-impairs » La formule de Rulon Les formules de Kuder-Richardson L’alpha de Cronbach L’approche de l’analyse de la variance Master Université de Bourgogne, 17-20 janvier 2005
Méthodes « items pairs-impairs » Calcul du score items pairs Calcul du score items impairs Calcul de la corrélation (Bravais-Pearson, soit pi) entre les deux scores Correction de la corrélation (car longueur ½) par Spearman-Brown: Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La formule de Rulon Calcul du score items pairs Calcul du score items impairs Calcul, pour chaque sujet, de la différence entre les deux scores Calcul de 2d assimilé à la variance d’erreur, soit 2e Calcul de la fidélité par la formule « classique » (sans correction) Master Université de Bourgogne, 17-20 janvier 2005
Les formules de Kuder-Richardson Deux formules KR20 KR21(sans statistiques d’items, formule moins précise et valeur plus faible ou égale à KR20) Où k est le nombre d’items Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 L’alpha de Cronbach La formule de Cronbach constitue une généralisation du KR20 pour les items non dichotomiques. Elle s’écrit : Master Université de Bourgogne, 17-20 janvier 2005
L’erreur standard de mesure L'erreur standard de mesure, notée ESM, permet de déterminer le degré de confiance que l'on peut accorder au score obtenu à un test donné par un sujet particulier. Elle est fonction de la qualité de l’instrument utilisé et donc de sa fidélité. Elle s’établit de la manière suivante. où t est l’écart-type des résultats du test et tt la fidélité du test telle qu'elle a été calculée par l’une des méthodes abordées dans ce chapitre. Master Université de Bourgogne, 17-20 janvier 2005
Interprétation de la valeur des coefficients de fidélité Valeur de tt Appréciation 0,95 à 1,00 Instrument parfait, les mesures sont pratiquement sans erreur. 0,85 à 0,95 Instrument excellent, les mesures contiennent peu d'erreur. 0,70 à 0,85 Bon test, il est prudent d'évaluer une seconde fois le sujet. 0,50 à 0,70 Instrument imprécis, peut contenir de l'information utile. 0,00 à 0,50 Instrument peu utile, ne pas l'employer pour classer un sujet. Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Conditions optimales de difficulté Fidélité des tests de vitesse Fidélité et dispersion des aptitudes dans la population (corriger par ) Fidélité des QCM Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Fidélité des scores composites formule de Mosier: Fidélité des scores différentiels Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 Représentation des variances dans le test 1. dans le test 2. des variances du score X1 - X2 Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La validité Le concept de validité se rapporte à ce que le test mesure réellement. Le plus souvent, le degré de validité s'indique par un coefficient de corrélation entre les scores obtenus au test et un critère extérieur au test. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La validité Approche factorielle: Communauté Spécificité Unicité Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La validité Un score est valide s'il prédit « quelque chose » et si ce « quelque chose » n'inclut pas le score lui-même. En effet, une auto-prédiction concerne la fidélité et non la validité. Nous avons ainsi noté la mesure de la fidélité par tt. Master Université de Bourgogne, 17-20 janvier 2005
Signification du terme validité Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale Master Université de Bourgogne, 17-20 janvier 2005
Les procédures de validation Validité prédictive ou critérielle Validité de contenu Validité manifeste ou apparente Validité de construct ou conceptuelle Validité concourante ou corrélationnelle Validité incrémentale Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Problème de prédictions multiples et d’idiosyncrasie (échantillon / =>validation croisée) Correction pour atténuation (corrélation entre scores vrais) où est la corrélation entre les composantes vraies des deux tests (on les indicera et de manière à les distinguer), t1t2 est la corrélation entre les scores observés et t1t1 et t2t2 sont les coefficients de fidélité des tests T1 et T2. Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Correction pour atténuation où x est la corrélation corrigée pour la variance d'erreur existant dans le critère y et xy est la corrélation entre le score au test x et le critère y. Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Validité et longueur du test où mx.y est la validité d’un test m fois plus long que le test x initial ; xy est la corrélation entre le score au test x et le critère y, c’est-à-dire la validité du test initial ; xx est la fidélité du test x initial ; m est le coefficient d’allongement du test (par exemple, m = 2 si on double la longueur du test, m = 0,5 si on diminue le test de moitié). Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Effet de la dispersion des aptitudes sur la validité faible dispersion du critère => faible validité (ex. le problème des concours) Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Où j>i La variance du score total est donc égale à la somme des variances aux différents items augmentée du double produit des covariances entre toutes les paires d'items. Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Dans le cas d’items dichotomiques Où j>i Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items La variance des scores totaux obtenus à un test sera maximale à une double condition : 1. que tous les pi - les proportions de réussite aux différents items - soient égaux à 0,50 (on obtient donc une variance maximale si tous les items sont de difficulté moyenne pour l'ensemble des sujets); 2. que tous les ij= 1 (tous les items mesurent exactement la même chose). Si le test compte k items, tous les sujets auront donc un score total égal à 0 ou à k. Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Si les pourcentages de réussite aux différents items pi sont élevés, alors la distribution des scores des sujets prendra la forme d'une courbe en j (beaucoup de scores élevés; peu de scores bas). Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Si, inversement, les pourcentages de réussite aux différents items pi sont faibles, alors la distribution des scores des sujets prendra la forme d'une courbe en i (beaucoup de scores faibles, peu de scores élevés). Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Si les pi sont de difficulté moyenne (et que les inter-corrélations sont faibles), la distribution prendra la forme d'une courbe de Gauss : beaucoup de scores moyens, peu de scores élevés, peu de scores faibles. Master Université de Bourgogne, 17-20 janvier 2005
Le score total: composition de scores à des items Si ic correspond à la corrélation moyenne des items avec le critère externe et it la corrélation moyenne des items avec le score total au test, alors on peut écrire l’estimation de Humphreys où la corrélation test-critère externe vaut, dans le cas d'items de même niveau de difficulté: Ce coefficient de validité est donc le rapport entre la corrélation moyenne des items avec le critère et la corrélation moyenne des items avec le score total. Master Université de Bourgogne, 17-20 janvier 2005
Homogénéité et hétérogénéité des tests Un test parfaitement homogène est un test qui mesure le même facteur commun chez tous les individus et pour tous les items. Formule de Loevinger Approche factorielle Master Université de Bourgogne, 17-20 janvier 2005
Homogénéité et hétérogénéité des tests Master Université de Bourgogne, 17-20 janvier 2005
Homogénéité et hétérogénéité des tests Loevinger présente une formule permettant de définir l'homogénéité. où Ht est l’indice d'homogénéité, Vt est la variance des scores totaux, Vho est la variance d'un test parfaitement homogène ayant la même distribution de pi que le test en question, Vhe est la variance d'un test parfaitement hétérogène ayant la même distribution de pi que le test en question. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La discrimination S'il y a k items, les scores totaux possibles vont de 0 à k. Il y a donc (k+1) scores possibles : ce nombre de différences sera maximal si, à tous les scores possibles, correspondent des fi égales, c’est-à-dire si un nombre identique de sujets obtient chacun des scores possibles, comme l'indique la figure ci-dessous. Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005 La discrimination Ferguson définit le coefficient de discrimination de la manière suivante : Discrimination maximale si = 1, minimale si = 0 Où k est le nombre d’items et donc k+1 le nombre de scores possibles, N le nombre de sujets et fi la proportion de sujets qui obtiennent le score i. Master Université de Bourgogne, 17-20 janvier 2005
Relations entre vitesse et puissance Thurstone (1937) a défini la puissance d'un individu pour une tâche déterminée comme le niveau de difficulté des tâches où sa probabilité de réussite est 0,5 en un temps infini. Cela implique donc qu'on n'impose aucune limite de temps de réponse. On peut tenter de raisonner sur les deux schémas suivants Master Université de Bourgogne, 17-20 janvier 2005
Relations entre vitesse et puissance T1, T2… = temps attribué à la passation du test = Aptitude vraie du sujet Master Université de Bourgogne, 17-20 janvier 2005
Relations entre vitesse et puissance D1, D2… = difficulté du test = Aptitude vraie du sujet Master Université de Bourgogne, 17-20 janvier 2005
Introduction à l’analyse classique d’items Indices de difficulté des items Indice de discrimination des items Mais, importance de l’analyse a priori Master Université de Bourgogne, 17-20 janvier 2005
Indices de difficulté des items Si l'item est corrigé de manière dichotomique (0 ou 1), l'indice de difficulté le plus élémentaire est le pourcentage de réponses correctes (pi). A cet indice correspond la probabilité qu'un « sujet moyen » appartenant à la population a de réussir l'item i. L'indice pi constitue un indice de difficulté moyen pour l'ensemble des individus testés. Master Université de Bourgogne, 17-20 janvier 2005
Indices de difficulté des items Mais, attention aux réponses « au hasard » ! Plusieurs techniques pour les neutraliser: augmentation du nombre de distracteurs, ajout de distracteurs du type « toutes les réponses sont correctes », « toutes les réponses sont fausses », « la question présente une aberration logique »… pénalisation des réponses fausses par une coefficient négatif, utilisation de degrés de certitude qui créditerons de manière plus ou moins généreuse ou sévère les bonnes et les mauvaises réponses des sujets en fonction de la confiance qu'ils déclarent accorder à leurs propres réponses. Master Université de Bourgogne, 17-20 janvier 2005
Pénalisation des réponses fausses par une coefficient négatif Pénalité (si bonne réponse = 1 point) Si bonne réponse = 2 points ? Master Université de Bourgogne, 17-20 janvier 2005
Pénalisation des réponses fausses par une coefficient négatif Et pour le score total d’un test: Mais, problèmes liés à la vitesse (items non atteints) Master Université de Bourgogne, 17-20 janvier 2005
Indices de discrimination des items Master Université de Bourgogne, 17-20 janvier 2005
Indices de discrimination des items Indices de discrimination entre groupes « forts » et « faibles »: Corrélation bisériale de point ou rpbis Master Université de Bourgogne, 17-20 janvier 2005
Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Effet de recouvrement (l’item constitue une partie du score / attention si très peu d’items) Effet de la chance sur le rpbis Effet de la vitesse Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Amélioration de la validité Choix des items en vue de la construction de formes parallèles Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Facteurs susceptibles d’introduire des biais dans les réponses Facteurs liés au sujet et à ses dispositions mentales Facteurs liés à la situation d’évaluation Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Facteurs liés au sujet et à ses dispositions mentales: Tendance à deviner / goût du risque Interprétation sémantique Impulsivité Tendance à acquiescer Vitesse et exactitude Désirabilité sociale Fatigue, stress et altération de l’état mental du sujet Effet de testing / habitude / entrainement Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Facteurs liés à la situation d’évaluation : Présentation de l’épreuve Conditions de passation Perturbations fortuites Langage, situations proposées Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Quelques solutions : Identification des dispositions susceptibles d'intervenir. Structuration suffisante du test. Précision dans les consignes. Présentation adéquate des items. Exemple : la réponse correcte doit être présentée aléatoirement dans différentes positions de manière à éviter de faciliter les déductions et les choix construits sur d'autres bases que la compétences à mesurer. Formulation correcte des questions (voir par exemple Leclercq, 1986, pour les questions à choix multiples) et utilisation d'un système de correction fiable dans le cas du recours à des questions à réponses rédigées. Master Université de Bourgogne, 17-20 janvier 2005
Problèmes spécifiques Quelques solutions : Utilisation d'une formule adéquate de correction pour choix au hasard et information des sujets testés. Mise en condition des sujets, accueil correct, positionnement confortable et adéquat dans la salle de test. Lorsqu'il s'agit de tests collectifs, vérification des conditions optimales pour chacun des sujets. Recours à d'autres instruments (par exemple, l'observation en milieu naturel) lorsque des biais trop importants sont susceptibles d'invalider les résultats de tests. Master Université de Bourgogne, 17-20 janvier 2005