Evaluation concepts & Histoire mireille.prodeau@univ-paris8.fr
Types d’évaluation Centrées sur le formateur Centrées sur l’apprenant Globale (laissée à la seule appréciation de l’enseignant: thème/version, dictée, questions/réponses, exercices à trous, …) Mécaniciste et analytique (utilisant la psychométrie: tests conçus par des experts qui prennent pour objet les quatre habiletés) Normative Centrées sur l’apprenant Sommative et formative (mesure de la performance globale) Critériée (selon les compétences qui forment la compétence de communication: linguistique, discursive, sociolinguistique: situations tirées de l’expérience quotidienne) Holistique (en relation avec le sujet et la société)
Evaluation globale En usage dans la période préscientifique: L’évaluation porte sur le code linguistique et l’enseignant enlève un point par faute, indépendamment de la faute commise. L’évaluation est élaborée par l’enseignant seul et les questions sont élaborées indépendamment les unes des autres. l’évaluation se fait de façon intuitive et subjective. La période préscientifique démarre à la fin du 19ème siècle au moment où sont introduits les premiers tests d’intelligence et d’aptitude verbale et non verbale développés aux Etats-Unis. Il s’agit de dépister les déficiences ou les difficultés d’apprentissage. En langue, après une période où l’intérêt primordial était les universaux du langage et l’étude des langues mortes, on entre dans une période où on se préoccupe des sons et des règles de grammaire. L’évaluation comme l’apprentissage se réduit à l’étude du lexique, de la phonétique et de la grammaire (création de l’association de phonétique internationale qui va inventer l’IPA, international phonetical alphabet).
Evaluation mécaniciste En usage dans la période psychométrique- structuraliste L’évaluation porte toujours sur le code linguistique mais le test étant standardisé, il doit être vérifié auprès d’une population importante. Le formateur n’est plus le concepteur de l’évaluation. Un test psychométrique doit maximiser les différences individuelles à partir des éléments mesurés à des fins de classement. l’évaluation se fait de façon scientifique et objective. L'objectif de la docimologie est d'abord de rechercher les facteurs qui entrent en jeu dans l'évaluation qui sera faite d'un travail écrit ou oral fourni par un élève, indépendamment de la valeur intrinsèque de ce travail ou de l'élève en question. Plusieurs types de facteurs sont donc supposés intervenir : liés à l'évaluateur ; aux conditions de l'évaluation ; à la nature de l'énoncé. On entre donc dans l’ère des tests (examens standardisés) que l’on oppose aux examens (instrument de mesure ponctuel utilisé à un moment précis mais dont on ne connaît pas ni le degré de fiabilité, ni la validité. L’évaluation périodique de la validité et l’ajustement des tests sont des critères essentiels pour justifier de leur l'efficacité et de leur utilité. Les critères pour évaluer un test: Fiabilité ou fidélité: en référence à la façon dont un test mesure une dimension donnée (stabilité des résultats, cohérence de la mesure) ; les items d’un test doivent mesurer la même dimension (coefficient de consistance interne) et fidélité test-retest qui indique le degré de répétabilité dans le temps des scores à un test. Validité du test: il s'agit de savoir dans quelle mesure le test proposé permet d'identifier de manière certaine le construit mesuré (construct validity). Pour cela, il faut vérifier que les questions d'un test sont en rapport avec le construit qui est censé être mesuré et savoir si seul le construit mesuré est mesuré par le test. Un des plus anciens tests est Le Cooperative French Listening Comprehension Test mise en place en 1955 par l’université de Princeton. On voit bien que ce qui est mesuré sont les éléments spécifiques de la langue: phonologie, syntaxe, lexique mais le problème tient au fait que la vérification se fait sur des éléments isolés et donc qu’il est difficile à partir des résultats de prédire de la capacité à communiquer en situations réelles de communication. Ceci ne doit pas pour autant impliquer le rejet total de ce type d’évaluation, car ils permettent à l’enseignant de vérifier l’état des connaissances de l’apprenant et évitent aussi à celui-ci d’appliquer des sanctions qui pourraient être injustifiées (côté objectif de l’évaluation).
Evaluation normative Après la deuxième guerre mondiale: avec l’enseignement obligatoire pour tous, nécessité de rendre des comptes à la société Une évaluation qui situe les individus les uns par rapport aux autres, en fonction des scores obtenus par les membres d’un groupe de référence. Il s’agit d’expliquer la sélection et le passage ou non d’un niveau à un autre: multiplication des examens d’entrée, des concours d’admission, des examens de certification La caractéristique principale des dispositifs d’évaluation normative est d’être des classements le plus souvent déguisés. Un professeur qui enseigne de manière « classique », entendons par là non individualisée, dans une classe « ordinaire », c’est à dire où les élèves présentent une certaine hétérogénéité de niveau, est généralement conduit à adopter un degré de difficulté qui correspond à ce qu’il estime être le niveau moyen de cette classe. Si l’ajustement est correct il y aura donc environ une bonne moitié de la classe qui va obtenir des notes moyennes, un quart qui va obtenir des notes inférieures et l’autre quart des notes supérieures à la moyenne (http://eric.auziol.free.fr/old/Mod2.pdf).
Evaluation analytique En usage dans la période psycholinguistique L’examinateur note séparément un certain nombre d’éléments distincts de la performance. Lorsque la langue est considérée comme un système de communication, l’apprentissage peut être divisé en macro-habiletés distinctes: savoir-lire; savoir- écrire; savoir-écouter; savoir-parler et pour chaque créer des sous-sections pour mesurer le lexique, la syntaxe, la prononciation. C’est ce que suggère Lado en 1961 lorsqu’il publie Language Testing. A la même époque, Carroll, psycholinguiste, va un peu plus loin en proposant un cadre permettant d’évaluer l’ensemble des aspects langagiers en utilisant une grille avec 16 cases: sur l’axe horizontal on trouve la phonologie, la morphologie, la syntaxe, le lexique; et sur l’axe vertical on trouve les quatre habiletés: compréhension orale, production orale, lecture, écriture.
Evaluation sommative En usage dans la période psycholinguistique- sociolinguistique L’évaluation ne peut plus se limiter à des traits superficiels de la langue mais doit promouvoir des tâches d’évaluation axées sur la communication. Se repose le problème de la fidélité inter- correcteurs. En 1949, Tyler un éducateur américain publie un ouvrage : Basic Principles of curriculum and instructions dans lequel il indique que le : curriculum should be dynamic, a program under constant evaluation and revision. Curriculum had always been thought of as a static, set program, and in an era preoccupied with student testing, he offered the innovative idea that teachers and administrators should spend as much time evaluating their plans as they do assessing their students. Il s’agit alors d’introduire un processus éducatif axé sur des objectifs clairement définis pour l’apprentissage, objectifs qui peuvent bien évidemment être décomposés en sous-objectifs et donc l’évaluation consiste à certifier que les apprenants maîtrisent les objectifs. Benjamin Bloom, psychologue américain spécialiste en pédagogie, propose à la suite de conférences dans lesquels sont réunis 34 autres universitaires, une taxonomie : niveau de la connaissance (reproduire), de la compréhension (maîtriser) de l’application (transférer), de l’autonomie (mobiliser). A chaque niveau correspond des opérations cognitives précises, allant du plus simple au complexe ce qui implique que chaque niveau englobe les niveaux précédents. On a donc ainsi une progression dans l’apprentissage avec des objectifs à chaque niveau du curriculum. L’idée de départ est que les apprenants sont différents et donc ont besoin d’un accompagnement différencié selon leurs profils. Le plus souvent cela débouche sur une décision d'acceptation ou de refus dans un niveau supérieur, ou sur une décision de classement. Voilà ce que dit un rapport de l’OCDE à propos de l’évaluation sommative (http://www.education.gouv.fr/archives/2012/refondonslecole/wpcontent/uploads/2012/07/rapport_ocde_ceri_evaluer_l_apprentissage_l_evaluation_formative_2008.pdf) : « Elles sont utilisées pour mesurer ce que les élèves ont appris à la fin d’une unité de formation, pour faire passer les élèves d’une classe à l’autre, pour s’assurer qu’ils ont le niveau requis pour obtenir un diplôme de fin d’études ou pour accéder à certains postes ou encore pour sélectionner les élèves à l’entrée de l’enseignement supérieur. Les ministères de l’Éducation se servent de l’évaluation sommative pour contraindre les établissements publics à répondre de la qualité de l’enseignement qu’ils dispensent. Enfin, les évaluations sommatives internationales – telles le PISA, le Programme international de l’OCDE pour le suivi des acquis des élèves – servent de plus en plus à comparer les systèmes d’éducation nationaux.
Evaluation critériée En usage dans la période communicative et méta cognitive Pour répondre à une double interrogation: 1) comment s’assurer que l’évaluation soit la plus encadrée possible afin de maîtriser la subjectivité inhérente ? 2) comment juger des réussites de l’apprentissage pour un individu particulier avec des compétences spécifiques ? Elle est basée sur la mesure de l’écart par rapport à la compétence recherchée, grâce à des objectifs d’apprentissage clairement définis, c-à-d prévoyant les critères de réussite et les conditions de la mesure. Chacun est évalué indépendamment des autres. Il est nécessaire alors de construire une grille d’évaluation avec trois éléments bien précis: Des critères que l’on peut définir de la manière suivante: caractéristique d’une dimension d’une performance qui peut prendre différentes valeurs Des niveaux qualitatifs que l’on peut traduire en échelons pour chaque critère Tous les auteurs avertissent qu’il faut choisir des critères indépendants de la tâche spécifique d’où résulte la performance et éviter les critères trop généraux ou trop abstraits qu’il est impossible de vérifier sur une tâche donnée. Tout le monde s’accorde à dire aussi que l’évaluation critériée et la construction d’échelles descriptives est difficile à faire. Voire à ce propos les échelles du Cadre Commun de Référence pour les Langues.
Evaluation formative Pour répondre à la question: l’apprentissage se passe-t-il comme prévu ? Hétéro évaluation: l’enseignant peut adapter l’enseignement selon la progression, identifier les causes d’échec et y remédier Auto évaluation : l’élève peut s’auto-évaluer et identifier ses lacunes, se motiver pour travailler et ainsi éviter d’aller à l’échec (échec qui contribuerait à le démotiver pour la suite). Effet secondaire : l’institution peut diminuer les taux d’échec en évaluation sommative l’évaluation est intégrée à l’apprentissage Le concept d’évaluation formative a été introduit en 1971 par Bloom, Hastings et Maddaus (BLOOM, B.S., HASTINGS, J.T. and MADAUS, G.F. Handbook on formative and summative evaluation of student learning, New-York, McGraw Hill, 1971.) Toujours dans ce même rapport de l’OCDE, l’évaluation formative développe les compétences du « savoir apprendre » : en mettant l’accent sur les processus qui sont mis en œuvre dans l’enseignement et dans l’apprentissage et en y associant activement les élèves; en développant leurs compétences en matière d’évaluation entre pairs et d’auto-évaluation; en les aidant à élaborer des stratégies adaptées pour « apprendre à apprendre ». Six composantes ont été relevées dans l’observation des situations où l’évaluation formative a été mise en place: 1. Instauration d’une culture de classe qui encourage l’interaction et l’utilisation d’outils d’évaluation. 2. Définition d’objectifs d’apprentissage et suivi des progrès individuels des élèves vers ces objectifs. 3. Utilisation de méthodes d’enseignement variées pour répondre aux besoins diversifiés des élèves. 4. Recours à des méthodes diversifiées pour évaluer les acquis des élèves. 5. Feedback sur les performances de l’élève et adaptation de l’enseignement pour répondre aux besoins identifiés. 6. Implication active des élèves dans le processus d’apprentissage.
l’évaluation : perspectives récentes L’évaluation est complètement intégrée à l’apprentissage. Les tâches ou les problèmes exigent de l’individu la construction d’une réponse élaborée Les problèmes à résoudre sont signifiants L’observation est contextualisée On s’intéresse à ce que l’individu sait faire mais aussi à la façon dont il s’y prend L’individu évalué peut donc interagir avec l’évaluateur et participer pleinement à l’évaluation de ses apprentissages. A un pôle se situe le contrôle, à l’autre pôle, les valeurs sont en débat pour un questionnement sur le sens de ce qu’on fait, dans une relation cette fois, d’accompagnement. an attempt to make sense of human actions in singular situations Définition de pratique située: l’action est en étroite dépendance avec les circonstances matérielles et sociales de l’environnement. Les sujets utilisent leur environnement comme un ensemble de ressources. Ces éléments de l’environnement participent à la construction de l’activité. Ils peuvent se présenter non seulement comme des ressources, mais aussi comme des contraintes de l’activité. D’autre part, cet environnement n’est pas indépendant du sujet, mais continuellement transformé et ajusté, construit lors de leur interaction mutuelle. Comme exemple de l’approche holistique de l’évaluation, le Canada a construit en 2009 un index d’apprentissage composite avec intégration des l’apprentissage des connaissances, Learning to Know (school-based learning); l’apprentissage de savoir-faire, Learning to Do (work-related learning); l’apprentissage de savoir-vivre en groupe, Learning to Live Together (community and inter-personal learning); et l’apprentissage de savoir-être, Learning to Be (personal development). C’est vers cette approche que tendent la plupart des recherches récentes. C’est ce que défend Vial quand il parle d’évaluation formatrice. Cependant voici ce qu’en dit Philippe Mérieu Le handicap est, ici, une forme limite de l’altérité à laquelle est confronté tout adulte qui veut aider un " autre " à grandir. La folie, elle, est le malheur de cet adulte quand, découvrant les difficultés de l’autre à grandir, il décide de grandir à sa place, de le faire grandir en lui.
Références bibliographiques Bloom, B.S., Madaus, G.F. & Hastings, J.T. 1981. Evaluation to improve learning, McGraw-Hill. Lado, R. 1961. Language Testing: The Construction and Use of Foreign Language Tests, Longman. Lussier, D. & Turner, C.E. 1995. Le Point sur l’Evaluation en didactique des langues, Centre Educatif Culturel. Principles for Fair Student Assessment Practices for Education in Canada. (1993). Edmonton, Alberta: Joint Advisory Committee. (http://www.bced.gov.bc.ca/classroom_assessment /fairstudent.pdf) Tyler, R.W. 1949. Basic Principles of Curriculum Instructions, U of Chicago Press. Vial, M. 1987. Evaluer n’est pas mesurer. Les Cahiers pédagogiques n° 256, p. 16.