Validité et fiabilité. des échelles à multiples items. Définitions. 1 Validité et fiabilité des échelles à multiples items 0. Définitions 1. Test-retest 2. Études similaires 3. Coefficient alpha 4. Méthode des deux moitiés 5. La validité de contenu 6. La validité de critère (prédictive) 7. La validité de critère (concomitante, concurrente) 8. La validité de construit (nomologique) 9. La validité de construit (concurrente) 10. La validité de construit (discriminante)
0. Definitions Construct development and scale measurement The measurement process consists of two distinctly different development processes and can be labeled : Construct development and Scale measurement To achieve the overall goal of obtaining high-quality data, researchers must understand what they are attempting to measure before developing the appropriate scale measurement. The goal of the construct development process is to precisely identify and define what is to be measured. The goal of the scale measurement process is to determine how to precisely measure each construct. Source : Schmidt (2006) slides ch. 06
Reliability and validity in measurement Researchers must determine measurement error, which is the difference between the information sought and the information actually obtained in the measurement process. Every measurement includes true, accurate information plus some degree of error. Measurement results = True measurement + Measurement error Two potential sources of error exist in the measurement process: systematic error and random error. = True measurement + (Systematic error + Random error) Validity Reliability … ! Source : Schmidt (2006) slides ch. 06
Reliability and validity in measurement (Continued) Systematic error is caused by a constant bias in the design or implementation of the measurement situation. (Bias = error in samples where the findings are either consistently higher or consistently lower than the actual value of the population parameter being measured) Systematic error is also referred to as non-sampling error, because it encompasses all types of errors except those brought about by random sampling. Source : Schmidt (2006) slides ch. 06
Illustration of reliability and validity Source: Hollensen: Global Marketing – A Decision-oriented Approach, © Pearson Education Limited Source : Schmidt (2006) slides ch. 06
Reliability and validity in measurement (Continued) Scale evaluation Reliability Validity Stability Internal Consistency 5. Content Criterion Construct 6. Predictive 8. Nomological 1. Test-retest 3. Coefficient 9. Convergent 7. Concurrent 2. Alternative Forms 4. Split-Half 10. Discriminant
Les notions de fiabilité et de validité La fiabilité est la capacité de la mesure à éviter les erreurs aléatoires (mais éventuellement pas les erreurs constantes) ex : un chronomètre à retard systématique c/ex : un chronomètre déclenché par un humain La validité est la capacité de la mesure à évaluer correctement ce que l’on se propose d’évaluer (sans erreur constante) ex : une balance pour mesurer une masse c/ex : un mètre pour mesurer une masse
1. Le test- retest Une questionnaire est administré deux fois au même répondant en laissant s’écouler un certain laps de temps entre les deux collectes. Si l’on obtient les mêmes réponses (mesurées par de fortes corrélations) on conclura à la stabilité du test. Cette méthode risque cependant de faire naître plusieurs effets pervers liés aux enquêtes en deux temps (effet d’interaction, d’histoire, de maturation, de mortalité …)
2. Les études similaires Lorsque la chance offre l’opportunité de retrouver une étude similaire dans des mêmes conditions, il est intéressant de comparer les résultats. Les réplications d’études offrent cet avantage.
3. Coefficient (Cronbach) Bohrenstedt (1977) p.89 = k / (k-1) (1 - ( 2i / ( 2i + 2 i j)) où k = le nombre d’énoncés 2i = la variance de l’énoncé i 2i + 2 i j = la variance totale de l’échelle Pour la création d’un construit (recherche fondamentale), on recherchera un coefficient de 0.80 Pour l’utilisation d’un construit antérieur (recherche appliquée), il faudra au moins 0.90
3. Coefficient (Cronbach) An exemple of « Competitiveness Desirability » scale Bohrenstedt (1977) p.89 Salary increases would be strictly a matter of how much you accomplished for the company The company is know to be involved in heavy competition Persons are supposed to « get the boot » if they don’t make good and keep making good There are opportunities to earn bonus Competition would be opened and encouraged The supervisor might be highly critical There is emphasis on the actual production record Salary increases would be a matter of how much effort you put in The reward could be great, but many people are known to fail or quit
3. Coefficient (Cronbach) Bohrenstedt (1977) p.89 2i = somme de la diagonale = 4.680 2i + 2 i j = la diagonale + les deux triangles = 4.680 + 2 x 3.914 = 12.508 = k / (k-1) (1 - ( 2i / 2i + 2 i j ) = 9/8 (1 – 4.68012.508) = 0.70
4. La méthode des deux moitiés Diviser l’échantillon en deux parties et procéder de manière identique au « test-retest » Si cette méthode élimine le problèmes du retest, il reste cependant qu’elle peut nous donner des résultats différents selon le découpage choisi. Le chercheur se trouvera alors confronté au choix du « vrai » coefficient de fiabilité (en fait, l’ en est la moyenne).
5. La validité de contenu Le contenu de cette mesure représente-t-il l’univers que l’on est en train de représenter ? Outils Ex-ante : Revue de littérature, jugement d’expert, avis de managers Ex-post : un taux élevé (>10%) de « sans réponse » ou « non applicable » serait mauvais signe
6. La validité de critère (prédictive) L’instrument de mesure est-il capable de prédire un critère futur attendu ? (Par exemple, test prédictifs de résultats scolaires) Ce critère est peu adapté aux études descriptives L’instrument de mesure est-il en corrélation avec autre instrument adéquat ? 7. La validité de critère (concomitante, concurrente)
8. La validité de construit (nomologique) L’instrument de mesure est-il théoriquement solide ? Se comporte-t-il comme la théorie aurait tendance à l’affirmer ? Plusieurs instruments de mesures différents du même concept arrivent–ils bien aux mêmes résultats (forte corrélation) ? (Par exemple, proposer une nouvelle échelle, remplaçant une précédente déjà bien validée : Radar et double fil au sol) Deux mesures conçues pour des construits différents ne peuvent pas avoir de forte corrélation entre elles. (ex : amour/amitié) 9. La validité de construit (convergente) 10. La validité de construit (discriminante)
Development of a multi-item scale Source : Malhotra (2003) slides ch. 12