Validation théorique et évaluation/testing: un débat déjà ancien

Validation théorique et évaluation/testing: un débat déjà ancien
Patrick Doucet Université de Poitiers Jean-Paul Narcy-Combes Sorbonne nouvelle-Paris 3 Diltec Paris - UPMC

Point de départ épistémologique
: Doxa = certitude = contrôle => automaticité et accès universel (TIC) => risque rigidité/dictature Epistémè = incertitude = adaptation permanente (local vs global) = fluidité => risque : le désordre/l’anarchie CECR = Bible (P. Delahaye, Grenoble, 2010)= doxa…

Cadre épistémologique organisateur
- Bachelard (1938) et obstacles épistémologiques => objet de recherche créé en fonction des théories scientifiques et non en fonction de l’expérience. Pratique et recherche en didactique des langues  illusion ontologique. Cinq obstacles épistémologiques clés: Expérience première, Connaissance générale, Obstacle verbal, Connaissance pragmatique, Connaissance quantitative. L’ « expérience première » qui a pour effet que l’on s’attache aux aspects impressionnants d’un phénomène en négligeant les aspects essentiels du point de vue de la connaissance. La « connaissance générale » qui conduit à une généralisation hâtive qui fait oublier les caractéristiques essentielles d’un phénomène (cf. la motivation). L’ « obstacle verbal » où nommer un objet le fait exister et l’explique (nominalisme) (cf. le terme « FLE ») La connaissance pragmatique qui explique un objet à partir de son utilité (il a le mérite d’exister) La connaissance quantitative selon laquelle la précision de la mesure donne la possession de l’objet (QCM).

Conséquences sur l’évaluation en langues
- Evaluation selon Théories d’acquisition (RAL) ou théories sur traitement langagier (psycholinguistique, neurolinguistique) - Compétence  performance Compétences = savoir => Est-il pertinent de mesurer le savoir ? Le passage de théories symboliques à des théories non-symboliques => épreuves doivent avoir une validité processuelles et sociales… Théories symbolistes représentent le savoir comme une collection de symboles accompagnés de règles qui spécifient les relations entre ces symboles. Théories non-symbolistes: Randall, 2007 = modèles basés sur Micro tâches ou items isolés.

Théories non-symbolistes
- Herdina et Jessner: 157 dans la théorie connectionniste le savoir est un comportement dirigé par des règles qui résultent de l’apprentissage (pas une somme de petits détails mais des modèles d’activation dans des réseaux neuronaux (Dörnyei: 79)  Théories à base d’instances . Autres exemples: Competition model Theories des systèmes dynamiques Emergentisme Pour ces théories : apprentissage résulte d’interactions entre des processus biologiques et sociaux. Les théories symbolistes brouillaient les pistes et donnaient une idée fausse de la compétence.

Pourquoi faut-il une certification (critériée)?
Les questions clés en amont – Pourquoi évaluer? Qu’est ce qu’évaluer ? l’évaluation / la certification? Dans quel but? Quels acteurs, quels enjeux? L’état des lieux sans le DCL/CLES – que fait-on actuellement? Cette évaluation correspond-elle aux questions précédentes? Comment évaluer? Quel type de test? Quelles types de “questions”? Pourquoi les universités ressentent-elles (si vraiment elles le ressentent !!!) le besoin d’avoir une certification nationale validant l’apprentissage des langues dans leurs établissements ? Tout d’abord, quelle(s) différence(s) entre évaluation et certification ? Donc revenir aux fonctions de l’évaluation Mais d’abord qu’est ce qu’évaluer? Problème de l’évaluation locale qui est courant dans les établissements tertiaires et non pas dans les lycées ou dans d’autres situations (comme le CAPES etc.) •Les questions clés en amont – –Pourquoi évaluer? Dans quel but? Quels acteurs, quels enjeux? Les fonctions donc de l’évaluation et de la certification. Prise de décision – il a son année, ou non. Il peut accéder à un niveau supérieur ou non. Les différents acteurs – stakeholders – tous devraient être inclus dans l’équation, mais nous avons tendance à ignorer ou à supprimer de l’équation la plupart de ces acteurs, et de ne focaliser que sur les besoins de l’institution. Les enjeux – – L’état sans le CLES – que fait-on actuellement? Cette évaluation correspond-elle aux questions précédentes? Le roi TOEIC ***PD connais-tu le pourcentage de universités françaises qui proposent le TOEIC ???*** Si le CLES ne fait pas partie de la gamme de certification proposée, l’évaluation reprends des allures du Bac, c'est-à-dire compétences séparées et aucune évaluation de la compétence la plus importante car la plus négligée, l’interaction - avec dans beaucoup de cas, un doc textuel ou, peut-être, un doc sonore à comprendre, des questions appelées « compétence grammaticale » mais le plus souvent dépourvu de contexte et non lié au texte, et une rédaction encore une fois non-lié au texte. Reprenons les questions vues auparavant Les tests ne permettent pas la prise de décision par rapport à la compétence Les différents acteurs ne sont pas vraiment pris en compte. –Comment évaluer? Quel type de test? Quelles types de “questions”? La situation du test – du meilleur au pire Les conditions du test Les types de test (TOEIC – paper and pencil (Même si c’est fait par ordi !), questions fermées, QCM, reconnaissance et non pas connaissance, VERSUS On se tourne vers la théorie pour trouver des réponses à ces questions. L’évaluation critériée Évaluation: collecte systématique de données dans le but de prendre une décision Evaluation critériée: permet de réduire les zones à l’intérieur desquelles nos observations sont le fruit de nos impressions

Degré d’utilité d’un test (Bachman)
Fonction combinée de validité théorique authenticité (validité faciale + validité du contenu) fiabilité interactivité impact faisabilité Donc une équation dont nous allons expliciter et analyser les termes Il est clair que l’accent est fortement mis sur la / les validités authenticité renvoie à la fois à la validité du contenu et à la crédibilité du test l’interactivité est ce en quoi les tâches proposées permettent l’investissement des caractéristiques des candidats (de l’apprenant). Il regroupe ces caractéristiques en quatre catégories : caractéristiques personnelles, connaissances spécifiques / spécialités, compétence en langues, et réactions affectives. Les caractéristiques personnelles comprenne l’âge, le sexe, la nationalité, la langue maternelle, le niveau d’études, et les types de tests déjà préparés. Les sources d’erreur correspondantes sont notamment les réactions affectives des candidats, la nervosité, la fatigue, les erreurs de production, les erreurs d’interprétation des consignes, et les erreurs stratégiques (ex réponses au hasard). Les connaissances spécifiques correspondant à des domaines de spécialité doivent être prises en compte. En effet si la compétence dans le domaine de spécialité n’est pas homogène, il y a là une source de biais dans l’évaluation. Or le souci qui doit guider l’évaluateur est bien de chercher à identifier ces sources de biais, d’erreurs dans la mesure, pour tenter de les neutraliser.

L’évaluation d’hier et d’aujourd’hui
On cherche à évaluer la compétence linguistique la compétence de communication On a de cette compétence une vision plutôt Analytique globale la focalisation est sur la forme la pertinence pragmatique l’accent est mis sur la correction linguistique l’utilisation de la langue En conséquence, on va tester en priorité la connaissance déclarative la connaissance procédurale le test est conçu à partir d’une analyse de la langue d’une analyse des besoins sur laquelle on se base pour établir un échantillon langagier un échantillon ciblé / fonctionnel la norme de référence choisie est établie en fonction de la production “idéalisée” d’un locuteur natif éduqué de l’observation des performances d’apprenants (données brutes) Adaptée de Davies : A. Davies: Principles of language testing. Blackwell Oxford 1990: Perspective historique, donc sans jugement de valeur Peut servir de base à rappels de notions et de problématiques Par liens hyper texte de ces 2 diapos sur les autres Illustrations par l’exemple du DCL notamment Compétence de communication

L’évaluation d’hier et d’aujourd’hui (cont)
la démarche d’évaluation est plutôt Sommative formative La modalité privilégiée par le test sera de préférence la réception la production Le type de test choisi est un test à items discrets un test intégré dans lequel les tâches ont tendance à être décontextualisées contextualisées L’évaluation est Indirecte directe Normative critériée la notation le plus souvent “objective” “subjective” Le plus grand soin est apporté à assurer la fiabilité du test la validité du test (principalement validité théorique et crédibilité) Objectif et Subjectif: La distinction entre les termes d’objectif et de subjectif repose essentiellement sur des processus de notation. On dira qu’une notation est objective si le correcteur n’a pas de jugement à porter quand il s’agit d’accepter ou de refuser une réponse donnée, ou quand il s’agit d’attribuer un score à une réponse donnée. Lors de la correction d’un QCM, par exemple, l’attribution d’un point par bonne réponse est automatique, et ce processus peut même être effectué par une machine (un ordinateur qui reconnaît la position sur une feuille de petits cercles noircis au crayon). Inversement on dira qu’une notation est subjective si le correcteur a un jugement à effectuer avant d’attribuer un score, ce qui est le cas s’il doit par exemple évaluer l’intelligibilité d’une production. Objectivité et subjectivité sont des concepts relatifs: plutôt qu’une opposition binaire, il faut voir là un continuum. A une extrémité du spectre, si l’on peut par exemple arriver à un consensus sur la grammaticalité d’un énoncé, cela ne doit pas occulter le fait que les normes peuvent changer d’un lieu géographique à l’autre, d’un milieu socio-cuturel à l’autre, et que dans cette mesure, il y a des cas où un jugement a tout de même lieu. A l’autre extrémité, il y a de toute évidence différents degrés de subjectivité, mais le fait d’avoir à porter un jugement ne doit pas invalider pour autant le processus: si l’on évalue une production, par exemple, selon le critère de fluidité, ce processus est par nature subjectif en temps réel, mais il est possible d’objectiver ce critère en conditions expérimentales en choisissant comme indicateur le nombre de pauses sonores, puis leur fréquence, ou en mesurant la durée effective des pauses et leur fréquence. Dans des conditions non expérimentales, il est également possible d’obtenir des corrections “subjectives” qui soient fiables. On peut y parvenir au moyen de descriptions appropriées de différents niveaux (ou bandes) de performance, et par une formation adéquate des examinateurs. D’une façon générale on associe objectivité à mesures quantitatives et subjectivité à mesures qualitatives. Les deux types de mesure sont nécessaires dans le domaine. Ce point fera l’objet d’un développement dans le cours de ce chapitre

Tri sélectif des données
Evaluation Critériée Collecte de données Tâche(s) Grille d’évaluation spécifique Tri sélectif des données Détermination du niveau démontré par critère Pondération Conversion Traitement Placement sur une échelle de référence: niveaux de compétence Décision il s’agira dans un premier temps de collecter des données servant de corpus d’observation ; cette collecte se fait au moyen de tâches proposées à l’apprenant, tâches destinées à lui permettre de fournir un échantillon représentatif du comportement langagier que l’on souhaite observer. Les données sont ensuite[1] observées par le biais des filtres que sont les grilles d’évaluation, outils qu’il faut construire. Ce filtrage permet de sélectionner les éléments devant servir de base à la mesure. Toute sélection se fait en fonction de critères de tri, et les critères de tri sont autant de filtres qui peuvent fonctionner indépendemment ou en interaction. Les données sélectionnées sont interprétées : chaque tri permet, par un acte de référence, un placement sur une échelle de mesure, attestant d’un niveau[2] démontré. Il y a formulation de résultats. L’étape suivante est une étape de traitement des données sélectionnées : Les résultats font l’objet d’une conversion permettant de compacter différentes valeurs sur une échelle unique. [1] Ensuite ou immédiatemment si l’évaluation a lieu ‘en direct’, en synchrone, en temps réel (différents termes plus ou moins équivalents) [2] La notion de niveaux renvoie à une hiérarchie de catégories distinctes et ordonnées: série croissante de niveaux de de capacités compétence (mais pas d’unité identifiable: il y a un intervalle variable entre les niveaux!) Il faut graduellement davantage pour passer d’un niveau à l’autre. Le traitement qu’est la pondération permet la prise de décision : Le placement sur une échelle de référence destinée aux différentes parties prenantes justifie l’attribution d’un degré de compétence, ou l’attribution d’un score final[1] qui détermine la certification (ex : ajourné / admis / sans ou avec mention). Précisons que dans la pratique certaines étapes de ce modèle ne sont pas toujours respectées : par exemple si la publication du résultat est celle d’un profil de compétence, en évaluation formative, la pondération n’est pas utile. Tout dépend de l’objectif initial. Ce modèle est naturellement réducteur mais il nous fournit un cadre général où situer les différentes notions Notation score niveau de compétence …profil de compétence Publication du résultat

Principes de TBLA Définition de Brindley, 1994
Langue = outil de communication Évaluation intégrée indices pour une rétroaction, sur progrès, et réussite Résultat accessible à acteurs externes et compétences nécessaires pour un contexte réel McNamara: on juge la performance en rapport à critères acceptés Langue < ou > réalisation de la tâche?

Jemma Buck, Patrick Doucet,
Le scénario Mots-clés: authentique, vraisemblable, integré Concept de rôle(s) à jouer Concept de mission à accomplir Le déroulement Typologie des activités, exercices, tâches (CdeE, CdeO) CLES Médiatisables (copier-coller, cocher, V/F, Oui/Non, complétez avec 1 ou 2 mots) (Faisabilité) Permettant le repérage des informations pertinentes (Faisabilité) Ne nécessitant aucune interprétation de la part du correcteur (Faisabilité) Typologie des activités, exercices, tâches (PE, PO, IO): Plus vague (en équation avec la mission) Parfois de vraisemblance douteuse Jemma Buck, Patrick Doucet, DILEM, Rennes 4 / 12/ 2009

DCL: un test intégré Scenario: compétence globale de communication
Evaluation directe: logique actionnelle Critères et indicateurs Evaluation des composantes linguistique / pragmatique / socioculturelle de la compétence de communication Rôle de l’examinateur Prise de décision compétence globale de communication et simulation globale : SCENARIO Macro tâche contextualisée par une mise en situation Micro tâches  accomplissement de la mission Ancrage : monde professionnel Evaluation directe: logique actionnelle Extrapolation minimale Evaluation des composantes linguistique / pragmatique / socioculturelle de la compétence de communication « langue ce communication à usage professionnel » Rôle de l’examinateur : placement sur une grille critériée avec « tuilage », compilation reposant sur une hiérachisation des critères Prise de décision : les indications données par les examinateurs (identifier cases … ) sont affectées d’un score Qui représente une hiérachisation par niveau et dans les critères ( ex : prise en compte Prag / Ling + ou - ) pondération Score global  attribution d’un degré

Questions de validité / fiabilité
Validité faciale ou apparente Validité du contenu et de la réponse Validité criterielle / concourante Validité prédictive Validité théorique Fiabilité des critères Fiabilité entre deux tests (fidelité CECRL) Fiabilité des décisions prises Fiabilité intra et inter examinateurs Hughes (89) précise qu’ “en dépit du caractère changeant des performances humaines, nous cherchons à concevoir administrer et corriger des tests de façon à ce que les scores obtenus en une occasion soient le plus semblables possible aux scores que l’on obtiendrait si l’on administrait le test à des apprenants ayant les mêmes compétences mais en une autre occasion. Plus les scores sont semblables et plus on dira que le test est fiable.” La notion de fiabilité renvoie à un accord entre des mesures similaires d’un même élément (“ trait ”) ; on l’établit par exemple en calculant la corrélation entre les scores obtenus à des tests parallèles. La fiabilité est donc une qualité des résultats aux tests. Brown cite trois façons principales de mesurer la fiabilité d’un test: test - retest: on administre le même test 2 fois à un groupe de sujets et on calcule le coefficient de corrélation entre les différentes paires de scores obtenues tests équivalents ou parallèles: forme A et forme B d’un test et coefficient de corrélation . cohérence interne: parmi de multiples façons, la plus simple à concevoir est “split half”: par exemple 1) toutes les questions paires sont notées séparément de toutes les question impaires; 2) on calcule la corrélation entre ces deux sub-tests; 3) on procède à un ajustement du coefficient obtenu pour obtenir la fiabilité du test dans son entier , en utilisant la formule “Spearman-Brown prophecy”. Il est également possible d’utiliser les formules Kuder-Richardson 20 et 21 (K-R 20, K-R 21) ou la formule Cronbach alpha (a). L’avantage de la méthode dite “Split half” est qu’une seule forme de test est administrée une seule fois! (naturellement) ce qui permet de contrôler de nombreuses variables.

Questions de faisabilité DCL/CLES
Faisabilité institutionelle Faisabilité de la part du candidat Faisabilité de la part de l’examinateur Intro : Pour qu’un test soit accepté par tous les acteurs, il doit faire ses preuves par rapport à sa faisabilité – notion qui se déclne en plusieurs concepts, dont trois qui semblent très pertinents. •Faisabilité institutionelle DEFINITION - CLES? •Faisabilité de la part du candidat •Faisabilité de la part de l’examinateur

Quelques problèmes DCL / CLES
Facteurs pouvant influer sur la performance Conditions Interaction orale : Avec examinateur / interlocuteur binômes (CLES 2) Planification Caractéristiques de la tâche Accomplissement ou non? Qui décide? Jemma Buck, Patrick Doucet, DILEM, Rennes 4 / 12/ 2009

Impact : l’effet retour du DCL/CLES
“Washback” positif Comportement des apprenants Dispositifs mis en oeuvre par les enseignants Démarches adoptées par les enseignants Décisions politiques des institutions Jemma Buck, Patrick Doucet, DILEM, Rennes 4 / 12/ 2009

Le DCL/CLES vecteurs de changement
Le dilemme critères/grands nombres pas résolus (contradictions internes) Evaluation automatisée (postionnement, etc.) redevient normative (Dialang) Certification des individus ou des modules? Pragmatisme… « Davies : « Le destin d’un test normatif est de devenir le test sommatif de formations subséquentes » Jemma Buck, Patrick Doucet, DILEM, Rennes 4 / 12/ 2009

Bibliographie selective
Wigglesworth, G 2008 Task and performance-based assessment Language Testing and Assessment Brindley, G, 2009 Task-based assessment in Language Learning programs: pieces of the puzzle TBLT 2009 Bachman, L.F, 2002 Some reflections on task-based language performance assessment Language Testing Brown, Hudson, Norris et Bonk, 2002 An investigation of second language task based performance tasks UHP Elder, Iwashita, McNamara, 2002 Estimating the difficulty of oral proficiency tasks: what does the test-taker have to offer? Language Testing Kunnan, A.J Test-taker characteristics and test performance, CUP Underhill, N Testing Spoken Performance CUP Bourguignon et al, 2007, Evaluer dans une perspective actionnelle …

Merci de votre attention

Validation théorique et évaluation/testing: un débat déjà ancien

Présentations similaires

Présentation au sujet: "Validation théorique et évaluation/testing: un débat déjà ancien"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Validation théorique et évaluation/testing: un débat déjà ancien

Présentations similaires

Présentation au sujet: "Validation théorique et évaluation/testing: un débat déjà ancien"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back