Méthodologie dévaluation dun système interactif Évaluation et processus de R&D Des principes à la réalité Définir une problématique Sortes dévaluations Analytique ou heuristique (juges) Empirique (usagers) Procédure dexpérimentation Exemples Atelier : Évaluation empirique dun site avec des usagers Évaluation avec les vrais usagers Expérimentation
Pas le temps dévaluer.. Le développement coûte trop cher Je connais le domaine, je sais que cest bien Nous avons fait des tests à linterne Je préfère concevoir un nouveau système Personne naime les critiques Le système nest pas fini Nous avons fait passer un questionnaire, tout le monde aime ça
Évaluation et processus de R&D orientée vers le support aux activités
Critères dévaluation et processus de R&D orientée vers le support aux activités Évaluation heuristique Analyse de besoins Évaluation empirique Technique Ergonomique Fonctionnelle Implantation Innovation
Des principes à la réalité Lévaluation doit porter sur le contexte réel avec des usagers représentatifs Ressources rares - technique, temps, personnes Contraintes pratiques au niveau des choix, des versions, de laccès aux usagers Barrière dutilité.. difficile « dimaginer » si ça sera intéressant ou difficile. Ne pas interrompre le processus Complexité et multiples possibilités Confidentialité Difficulté à se rappeler (Verbalisations rétrospectives) Évaluation à froid nest pas valide Effet Hawthorn : « Usagers qui cherchent à répondre pour satisfaire le chercheur » Avant Durant Après
Quest-ce quévaluer un système ? Validation des systèmes de communication informatisés Validation de construit Répondent-ils aux spécifications Français, erreurs sur le fond dans le contenu Fiabilité, efficacité - erreurs, temps de réaction Utilisabilité - Répondent-ils aux critères ergonomiques. Évaluation selon une norme Standards Évaluation selon un objectif Utilisation, efficacité, rend services, Input/output Nouveaux clients, Ventes, Nombre dappels téléphoniques
Définir une problématique 1/3 TOUJOURS Préciser dabord les objectifs de lévaluation …. Évaluer un système = adapter aux activités et au contexte Valeur ajoutée du système Recherche - les systèmes, les usagers, les théories, les expériences Comparer un système à un autre ou à une version antérieure observer les différences Utilisabilité Critères ergonomiques Impact - notion d utilité (apprentissage, vente, échange) À quoi ça sert, qui, pourquoi différents usagers - attentes - appréçiation des éléments
Définition dune problématique 2/3 Organisationnel - Design Socio-technique Compatibilité - avec les autres tâches, entre applications. Spécifications minimales - minimise les opérations Socio-technique - efficace au plan technique, mais aussi utilisabilité, pas trop de stress, valorisation, complexité, responsabilité, … Valeurs humaines - éthique Multifonctionnel - sert plusieurs buts Séparation - pas trop dinterdépendance entre les tâches Flux - ne crée pas de ralentissements Supporte la congruence - pas derreurs dans le système
Définition dune problématique 3/3 Facilité dApprentissage du système Facile à apprendre ? pour qui ? Développement dexpertise ? pourcentage dutilisation, mémorisation Quen pensent les experts ? Conception Identifier les problèmes ergonomiques Focus et réorientation Bœdker Goulots détranglement - échantillonnage des problèmes Évaluation des différentes fonctions et cas dutilisation.
Sortes dévaluation 1.Évaluation analytique ou heuristique (en phase de conception Ch 8) 1.Basée sur lanalyse des tâches ou des activités - GOMS 2.Parcours cognitif (Cognitive walkthough) 3.Évaluation heuristique des principes ergonomiques (par des juges) 2.Évaluation empirique avec des usagers - Ex: Utilisabilité 1.Procédure dexpérimentation et dobservation 2.Méthodologie danalyse des observations 3.Méthodologie danalyse des traces 4.Vérification dhypothèses 5.Utilisation des questionnaires
1.1 Évaluation basée sur lanalyse des tâches et des activités Aussi appelé analyse hiérarchique des tâches Utile pour analyser un système à développer,analyse des activités existantes Utile pour développer la documentation structure de tâche structure dinterface Exemple de recherche sur Amazon
1.1 Évaluation basée sur lanalyse des tâches Modèle - GOMS - Goal Operators Methods and Selection rules Buts: Intentions, Mémoire de la tâche à faire, structure à explorer (Cas dutilisation) Opérateurs: éléments d'actions, composantes, effets, input, output Méthode: organisation de la tâche, des buts et des opérateurs, suite dactions Règles de sélection: procédure générale de choix entre les méthodes Lexemple … Comment ouvrir un fichier ?
Application du modèle GOMS Utile lorsque la tâche est organisée sous formes de plans Décrit le comportement idéal Permet de caractériser les différences entre modèles usagers et tâches prévues Permet de distinguer les novices, les experts et les méthodes efficaces pour la formation Permet de choisir des versions ou options dans le système Permet de considérer des variables comme la distance des éléments, le nombre dopérations, le temps de celles-ci, la difficulté et l'imbriquation Peut servir à décrire un système a priori et à le valider sur papier
1.2 Parcours cognitif (Cognitive walkthough) Différent de GOMS..car regarde moins la structure quun processus typique… on parle de lapproche des scénarios Déterminer les séquences dutilisation Identifier les buts et extraire les états par lesquels passeront les usagers Explorer les multiples chemins possibles Évaluer lutilisabilité des séquences Pour chaque action dans la séquence se mettre dans la peau dun usager Que veut faire lusager ? Laction requise est-elle suffisamment évidente ? Lusager reconnaît-il que laction répondra à ses buts ? Lusager reconnaît-t-il que la réponse du système répond à ses besoins, quil a fait le bon choix.
1.3 Évaluation heuristique par des juges Évaluation heuristique… sort les principaux problèmes et les solutions. Utilise des experts dutilisabilité Si on utilise des experts du domaine il faut leur donner des exemples de problèmes et les inciter à commenter leurs observations Fait a priori avant de mettre le système en utilisation Grille selon critères ergonomiques en adaptant les grilles au problème. Planifier la consigne et une série de tâches avec support papier Couvrir l ensemble de l application ou du moins les cas dutilisation les plus fréquents Compte-rendu systématique sur les problèmes (Nielsen) Neutralité et entraînement des juges
En résumé Différentes sortes dévaluation 1.Évaluation analytique (en phase de conception) 1.Basée sur lanalyse des tâches ou des activités - GOMS 2.Parcours cognitif (Cognitive walkthough) 3.Évaluation heuristique des principes ergonomiques (par des juges) 2.Évaluation empirique avec des usagers - Ex: Utilisabilité 1.Procédure dexpérimentation et dobservation 2.Méthodologie danalyse des observations 3.Méthodologie danalyse des traces 4.Vérification dhypothèses 5.Utilisation des questionnaires
1-3 Évaluation heuristique selon une grille théorique Évaluation heuristique… sort les principaux problèmes et les solutions. Grille selon critères ergonomiques - experts fait a priori sur le système lui-même en adaptant les grilles au problème. Importance de donner des exemples de problèmes et de commenter Couvrir l ensemble de l application Compte-rendu systématique Les juges peuvent aussi coder l observation de vrais usagers Autres grilles théoriques : Présence sociale, Feedback jeux, types dinteraction, niveau dautorité, etc. Neutralité et entraînement des juges
2. Évaluation empirique avec des usagers a.Procédure dexpérimentation et dobservation b.Méthodologie danalyse des observations c.Méthodologie danalyse des traces d.Vérification dhypothèses e.Utilisation des questionnaires Pour développer un système qui communique bien… ou pour la recherche …pour comprendre ce qui est important
Différents tests - Système de messagerie Olympiques 84 Imprimer les écrans et le montrer aux responsables Tester le guide dutilisation Prototype de clavier avec Sorcier dOz Démos pour usagers naïfs Inviter un Olympien dans léquipe de direction Entrevues avec athlètes et famille pour savoir si correspond aux besoins Test - Café et beignes gratuits Tests dutilisabilité auprès de 100 personnes « Try to destroy it » Test dans situation similaire avant lévènement Test de fiabilité en situation de surcharge. Grandes différences culturelles.. Watching helplessnness and hopelessness Corriger avant, vrais problèmes pas imaginaires, accélère, vente sans excuse. Preece, J., Rogers, Y., & Sharp, H. (2002). Interaction design: beyond human-computer interaction. New York: J. Wiley & Sons.
Un autre cas… Hutch V-Chat 1 Collaboration dans la communauté dun Centre sur le Cancer Permettre plus de communication asynchrone Vérifier sil y a quelquun R&D et Évaluation de V-Chat
Un autre cas… Hutch V-Chat 2 Collaboration dans la communauté dun Centre sur le Cancer Identité perception communication Trouve information Plaisir Tâches… Pointez sur vous, trouvez la carte, changez la couleur de votre chemise Postez un message, faites signe, murmurez, Trouvez quelque chose à faire à Seatle..allez sur yahoo Trouvez un cadeau, envoyez le à.. Problèmes Mouvements difficiles avec la souris Ne peuvent trouver la carte Babillard pas clair.. Ne voient pas boutons de navigation Ne voient pas la zone de chat
ExploraGraph Interface de télé-apprentissage - Éditeur de soutien
Exemple : Marcelo Maina Problématique Évaluer linterface du Campus Virtuel par rapport aux habiletés et aux contraintes reliées à l'accomplissement des activités visées par les tuteurs, et identifier celles que lenvironnement ne permet pas daccomplir. Modéliser lactivité des tuteurs et la décomposer en actions et en opérations à fin de spécifier les caractéristiques dune interface ergonomique pour ces tâches. Maina, M. (1999). Analyse de l'interface du Campus Virtuel par rapport aux activités du tuteur. Montréal: Université de Montréal.
Exemple danalyse Activité : support et animation Action 6 : répondre à un message Opération : choisir icone de réponse Problème : difficulté à différencier la réponse à la conférence, de la réponse à la personne Solution : uniformiser les icones et les placer à proximité de façon à favoriser la comparaison et le choix dun type de réponse. Réponse à la personne Réponse à la conférence
Outils dévaluation auprès des usagers Observations et analyse des observations Analyse des traces dutilisation Journal, feuille de route (BBM) Problèmes et commentaires positifs Utilisation des fonctions Réseaux de communication Questionnaires Entrevues et focus groupe Analyse des variables externes (liées à lefficacité)
Journal, feuille de route (BBM) Ne doit pas interrompre - outil, concentration minimale Ex.de la feuille de route et du journal de bord -> Feuille à cocher Permet de noter des activités Quelle tâche, Communiquer avec qui Tâches (temps) Permet de noter des commentaires Problèmes, changements, besoins,
2.1 Procédure dexpérimentation et dobservation Préparation - hypothèses, tâche, choisir un contexte réel dactivité. Tâche - choisir une séquence représentative, raccourcie Sujets, échantillonnage représentatif, au hasard, mesure répétées, schème contrebalancé Installation vidéo, audio, tester l application, le questionnaire Déroulement consigne pratiquer verbalisation sur un problème différent intervenir le moins possible, pas sur les causes démontrer un minimum, observer, faire verbaliser Questionner à la fin, vidéo revisité. Questionnaires formels et informels Sur quoi..?
2.1 Procédure dexpérimentation et dobservation Préparation - hypothèses, tâche, choisir un contexte réel dactivité. Tâche - choisir une séquence représentative, raccourcie Sujets, échantillonnage représentatif, au hasard, mesure répétées, schème contrebalancé Installation vidéo, audio, tester l application, le questionnaire Déroulement consigne pratiquer verbalisation sur un problème différent intervenir le moins possible, pas sur les causes démontrer un minimum, observer, faire verbaliser Questionner à la fin, vidéo revisité. Questionnaires formels et informels Sur quoi..? Schème contrebalancé Groupe Temps 1 Temps 2 A condition1 condition2 B condition2 condition 1 pour comprendre ce qui est important influence de lhumour dans les interfaces de soutien à lapprentissage
Objectifs de lévaluation Au moment de la conception Appliquer les critères ergonomiques - corriger les erreurs Cohérence interne et externe Réversibilité Protection contre les erreurs Etc. Appliquer les normes dinterfaces Utilisation des contrôles, groupes et position des boutons Tests techniques et corrections des bugs
Méthodologie dexpérimentation Évaluation avec des utilisateurs potentiels, pour des activités représentatives Sujets Dix sujets (3 pré-test) professeurs experts en TA, professeurs novices en TA des chercheurs en TA (apporter de nouvelles idées) Tâche Décrire un scénario de cours Ajouter quelques règles de soutien Commenter un prototype papier Observations, entretiens
Procédure dexpérimentation Préparer les tâches et les consignes Vérifier les installations Consigne, consentement Observer et noter Temps mis pour réaliser une tâche Notices dutilisation utilisées Questions posées Erreurs commises Satisfaction de lutilisateur Actions de lutilisateur Diagnostic des problèmes ergonomiques Suggestions sur le vif Ne pas interrompre Ne pas lui parler Aider un minimum
LORIT- Exemple de laboratoire dobservation
Salle de contrôle et dobservation Voir les postes et les caméras Contrôle des postes Contrôle des caméras Contrôle des liens avec Internet Contrôle des enregistrements Supervision des expériences Simuler linteraction à distance Sorcier dOz - simuler les interactions dun système en développement, aide, questions suggestions.
Expérimentation à distance au
Types de données Exemple dun bulletin de nouvelles diffusé à la télévision Annotations Clinton running for senateSpeaking at rallyImproving Medicare Reconnaissance vocale Clinton spoke with reportersArrived in New YorkOlder citizens who have Identification de la personne qui parle Lynne RussellHillary Clinton Sous-titrage >>Hillary Clinton spoke with reporters when she arrived in New York about her proposal for older citizens… Timecode 08:26:1208 :34 :2908 :40 :00 Reconnaissance de lécrit dans limage Special ReportMedicare Issues Identification de la personne à lécran Lynne RussellHillary Clinton Timbres postes Vidéo encodé Virage - Indexation vidéo Déroulement dans le temps
2.2 Transcription et analyse de vidéos analyse de protocole verbalisations, buts et structures dactions problèmes, erreurs, conséquences, correction possible et solutions (design, formation ou aide, procédure) - Reed in Kirwan and Ainsworth 92 codage des observations et des commentaires des usagers selon cette grille ergonomique, faire ensuite la synthèse selon les grandes catégories Structure des activités, compatibilité.. soutien, difficulté dapprentissage cohérence interne et externe lisibilité, sens ambigu en contexte contrôle, feedback, flexibilité etc... utilité Seule façon de voir le lien avec les activités
Grilles danalyse liées aux usages grilles liées au contenu grilles basées sur les catégories dactes de language. Communication Audit - Qui communique avec qui ? actes de langage impliqués dans les informations échangées ou consultées, par exemple - information, analyse, question, ludique, artistique,... sémiotique - quête, reconnaissance... présence sociale types d humour, de soutien, d information cherchée dans un site
2.3 Analyse des traces nombre de visites dans les différents environnements temps passé dans les différents environnements contexte du temps passé (en revenant ou en avançant, en venant doù ?) erreurs, appel à laide et autres fonctions méta Statistiques descriptives sur les données tableau des fréquences, des moyennes, % tests de comparaison entre les groupes. Analyse statistique - séries temporelles, analyse des séquences cartes cognitives (aussi avec observations)- séquence, association, cause… contenu de page X commentaires média X commentaires Contenu de page X temps de consultation contenu de l aide X temps de consultation, réaction
Réingénierie Réviser globalement l atteinte des objectifs du système et fixer des priorités pour les ajustements Repenser la structure des activités, de la navigation, des boîtes de dialogue Faire la liste des corrections à apporter au niveau du vocabulaire et des icones Réviser systématiquement les écrans, les boîtes de dialogues, les commandes et corriger en assurant la cohérence. Il faut proposer une solution globale.. Et non pas morcelée
2.4 Questionnaires après mais le plus vite possible, mise en situation si nécessaire pas de mesures centrales questions adaptées et claires Questions fermées (et ouvertes à la fin) Structuré de plus en plus détaillé, éviter les biais dans l ordre Attirant plusieurs questions sur un thème…éparpillées pré-tester les questions et modifier celles qui ne sont pas claires ou inutiles, lorsque tout le monde a la même réponse. faire la moyenne par thème ou alors distribution dans les réponses avec histogramme. très daccord, daccord,....ordre naturel: 1= moins, 6 = mieux, 0 ne sait pas alterner positif et négatif en évitant les formes négatives (linterface est difficile à comprendre...on sait tout de suite ce quil faut faire) - inverser les réponses pour lanalyse
Problèmes dans les questionnaires Faulkner Effet Hawthorn Réponses à connotation émotionnelle Suggérer la réponse Embarrasser les sujets Manque de précision Questions imprécises Questions trop complexes Effets d ordre dans les questions
Types de questionnaires Questions fermées Liste à cocher Échelle multi-points Échelle de Likert (valeurs à chaque niveau) Différentiel sémantique (valeur opposée aux extrêmes Rang - Par exemple ordonner les problèmes Questions ouvertes Principaux problèmes..et solutions Points pour la gravité Ce que vous avez préféré
Discussion et interprétation comparer les résultats de différentes méthodes qualifier et regrouper ce qui est le plus significatif dire ce que ca apporte et ce quil faut faire ensuite Proposer des solutions Changer linterface - rapport très structuré Former les utilisateurs Changer la procédure dutilisation du système
Exemple - R&D Interface pour non-voyant Gregory Petit Développer une interface de transposition des images des manuels scolaires en graphiques tactiles. Utiliser un dispositif de lecture dynamique des images Le STReSS - Haptic Laboratory à McGill
Exemple - R&D Interface pour non-voyant Gregory Petit Définir le modèle de transposition et lexpérimenter avec des non-voyants Protocole expérimental et formulaires de consentement Certificat déthique
Exemple - R&D Interface pour non-voyant Hypothèses Dessins avec ou sans texture dans les formes Synthèse vocale vs Voix enregistrée Voyants vs Non-voyants Adultes vs enfants Méthodologie Choix des sujets Formulaire de consentement Essais, exploration des images, questions de contenu Questions sur lexpérience Résultats Enthousiasme, réussite Les sons qui dérangent
Analyse des résultats
Atelier Vous devez évaluer le site de Problématique : Voir si les usagers trouvent facilement ce quils cherchent ? Sassurer que les touristes occasionnels et les gens daffaires seront bien servis Choisissez des tâches typiques ? Préparez la consigne et quelques phrases pour encourager la verbalisation Questionnaire - Préparez des questions selon la problématique ? Grille de lanalyse de linteraction observée
Atelier - Pour évaluer une maquette quelle différence ? Plusieurs méthodes possibles Questions sur les cas dutilisation ? Proposer les cas et demander de réagir ? Méthode des cartes - comparer à la structure prévue Simuler un cas (cogntive walkthrough) Montrer les écrans Laisser naviguer sans intervenir Prendre des notes Retour sur lexpérience Questionnaires fermés - utilisabilité, utilité Questions ouvertes - positif, problèmes triés, ce qui manque Focus group.. Ce quon peut améliorer