La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les expériences contrôlées

Présentations similaires


Présentation au sujet: "Les expériences contrôlées"— Transcription de la présentation:

1 Les expériences contrôlées

2 Les expériences Une partie fondamentale de la méthode scientifique
Permettent de trouver des relations causales entres des conditions et leurs effets En IHM, permettent de trouver si une interface A est plus rapide/cause moins d’erreurs/etc. qu’une interface B

3 Les expériences On varie (manipule) au moins une variable (exemple: l’interface à utiliser). C’est la variable indépendante. Chacune de ses valeurs correspond à une condition. On mesure au moins une variable (exemples: le temps, le nombre d’erreurs, la satisfaction subjective). C’est la variable dépendante. On analyse les résultats pour voir s’il y a des différences significatives.

4 Exemple d’expérience Les « expanding targets » Référence: M. McGuffin, R. Balakrishnan (2002). Acquisition of Expanding Targets. Proceedings of ACM Conference on Human Factors in Computing Systems (CHI) 2002, pages 57-64,

5 Exemple: Mac OS X This is a backup slide, in case the movie doesn’t work. Est-ce que ce genre de grossissement rend la sélection plus facile ?

6 D’autres exemples Furnas Generalized fisheye views CHI 1986
There are also less recent examples of schemes where a widget or some portion of a widget expands in response to the user’s focus: From left to right we have a fisheye calendar, the perspective wall, and a fisheye menu. The common theme for all of these strategies is an attempt to make better use of available screen space by displaying more information when and where it is needed. However, this talk will focus on the effects that this kind of thing has on selection of targets. // Various widgets have been proposed that expand dynamically in response to the user’s focus. // to make better use of screen space, and display more information when and where it’s needed. // Here are some examples where the expansion is used to display more information: // Furnas’ calendar, etc. Mackinlay, Robertson, Card The Perspective Wall CHI 1991 Bederson Fisheye Menus UIST 2000

7 Fitts’ Law A Target Cursor W
A good place for us to start is with Fitts’ Law. Fitts’ Law describes the average time required to select a target. There are a few different formulations of Fitts’ Law; the one that is popular now is the Shannon formulation which looks like this … // … to answer this question, a good place to start is Fitts’ Law. // … // This is the Shannon formulation of Fitts’ Law that is generally accepted in the HCI community. Target Cursor W

8 Fitts’ Law Target 1 Target 2 Same ID → Same Difficulty
This part could be skipped over. So Fitts’ Law tells us that ID is scale invariant. How is this possible ? How is it that a target farther away takes the same time to acquire ? The answer is that, although the user has farther to travel to acquire the 2nd target, they also have more distance over which they can accelerate. Furthermore, because the target is bigger, the user doesn’t have to be as precise about when to stop. Target 2 Same ID → Same Difficulty

9 Fitts’ Law Target 1 Target 2 Smaller ID → Easier
Now, on the other hand, if the target somehow covers more than the cone, … Target 2 Smaller ID → Easier

10 Fitts’ Law Target 1 Target 2 Larger ID → Harder ----------------------
Likewise, if the target is strictly within the cone, … Target 2 Larger ID → Harder

11 La loi de Fitts Largeur W Mouvements à boucle ouverte (sans retour)
Mouvements à boucle fermée (avec retour) Vitesse “undershoot” (trop court) “overshoot” (trop loin) As a final point about Fitts’ Law, I would like to show you a velocity profile of a user’s movement toward a target. Imagine the user starting on the left and having to move onto the target. Ideally, … However, in practice, the user may for example not move quite far enough … … one or more small corrective movements … The average number of corrective movements increases as the target becomes smaller or harder to select. Now, 2 points: -The current prevailing model is that the initial movement is open-loop, while the corrective motions at the end are closed-loop. -If the initial movement really is open-loop, then the target size doesn’t matter initially, and we may be able to take advantage of this fact when designing targets that expand dynamically. (Actually, when I stated this at CHI 2002, someone pointed out that the width can be important, i.e. users may perform a shorter initial movement if they know that the width is large, since they won’t be expecting to have to move all the way to the centre of the target.) Distance

12 Expanding Targets Basic Idea:
Big targets can be acquired faster, but take up more screen space So: keep targets small until user heads toward them Click Me ! Okay Well, what exactly do I mean by an “expanding target” ? The basic idea is that Fitts’ Law tells us bigger buttons are easier to select, however if we make all of our buttons big we run out of screen space. So, as a compromise, let’s try to keep buttons small until the user wants to select one of them; Somewhat like this … Unfortunately, Fitts’ Law does not tell us a priori that such a target would be easier to select, because the expansion occurs after the user has already started to move towards the target. So, as a first step, we wanted to establish that expanding targets are in fact easier to select. // Now since Fitts’ law tells us that bigger targets are faster to acquire, why not make all our buttons and widgets bigger ? // Well, because they would take up too much screen space. Etc. Cancel

13 Experimental Setup W Target Start Position A
… to do this, we reduced things to a 1-dimensional, single target selection task … First, we wanted to confirm that expanding targets were easier to acquire. We reduced the problem to a single target, 1-dimensional selection task, to eliminate confounding factors. In our experiments, we have each user do the following: …

14 Experimental Setup Expansion: How ? Animated Expansion
Now, for expanding targets, there were a few different parameters that we wanted to explore. First, …

15 Experimental Setup Expansion: How ? Fade-in Expansion
Repeat diff between two, Point out that with fade-in expansion, the full target size is immediately available (in the motor domain); this is not the case with animated expansion.

16 Experimental Setup Expansion: How ? When ? P = 0.25
P is confusing; say “expansion point P”.

17 Experimental Setup Expansion: How ? When ? P = 0.5

18 Experimental Setup Expansion: How ? When ? P = 0.75
Why do we care about p ?

19 Pilot Study 7 conditions: No expansion (to establish a, b values)
Expanding targets Either animated growth or fade-in P is one of 0.25, 0.5, 0.75 (Expansion was always by a factor of 2) Mention why a factor of 2 was used: because we thought it would be a reasonable value for designers to use in a real UI.

20 Pilot Study 7 conditions x 16 (A,W) values x 5 repetitions x 2 blocks
x 3 participants = 3360 trials Slower

21 Pilot Study: Results Time (seconds) ID (index of difficulty)

22 Pilot Study: Results Time (seconds) ID (index of difficulty)

23 Pilot Study: Results Time (seconds) ID (index of difficulty)
I’ve shown you how long it took to select static targets. What about the expanding targets ? Well, before I show you that data, let’s try to predict what the results might look like. By doubling the size of a target, we reduce its ID by approximately 1. This is approximately the same as shifting the base line to the right by 1. So, at best, we should expect the time to select expanded targets to coincide with the dashed line. So the dashed line is a lower bound on performance with expanding targets. Now, what we actually expected was for the selection time to fall somewhere in between these two lines. We expected the expansion to yield some advantage, but not achieve the lower bound. To our surprise, … ID (index of difficulty)

24 Pilot Study: Results Time (seconds) P = 0.25 ID (index of difficulty)
To do: find out if the measured red lines are for fade-in or animated expansion. There was a significant difference between the base condition and the expanding conditions. There was no significant difference between any of the expanding conditions (i.e. between animated growth and fade-in, and also between the 3 P values). ID (index of difficulty)

25 Pilot Study: Results Time (seconds) P = 0.5 ID (index of difficulty)

26 Pilot Study: Results Time (seconds) P = 0.75 ID (index of difficulty)

27 Implications Pilot Study suggests the advantage of expansion doesn’t depend on P So, set P = 0.9 and perform a more rigorous study If any P value will do, let’s choose a value close to 1. From a designer’s perspective, a large P value is better (because it allows us to delay expansion until the very end of the trajectory). Mention that we performed a small 1-person study that confirmed there was still an effect with P=0.9.

28 Full Study 2 conditions: No expansion (to establish a, b values)
Expanding targets, with Animated growth P = 0.9 Expansion factor of 2 Quickly mention again why the factor of 2.

29 Full Study 2 conditions x 13 (A,W) values x 5 repetitions x 5 blocks
x 12 participants = 7800 trials

30 Results Time (seconds) A, W values Statistically significant
For simplicity, refer to the x-axis as “different ID values”. A, W values

31 Results Time (seconds) ID (index of difficulty)

32 Results Time (seconds) ID (index of difficulty)

33 Results Time (seconds) ID (index of difficulty)

34 Results Time (seconds) P = 0.9 ID (index of difficulty)
Since our measured MT approximately coincides with the lower bound, we have essentially shown that the advantage of expansion is about as good as you could possibly expect. And this is with an expansion point P of 0.9, so the expansion only happens at the very end of the trajectory. Note that we can therefore use the lower bound as a predictive tool. ID (index of difficulty)

35 Implications For single-target selection task,
Expansion yields a significant advantage, even when P=0.9 What about multiple targets ? Expansion point p

36 (Fin des diapos sur les « expanding targets »)

37 Les variables dans une expérience
À retenir! Variables indépendantes: celles qu’on manipule (on les appelle aussi les facteurs); correspondent aux conditions (ou traitements ou niveaux) Variables dépendantes: celles qu’on mesure (souvent le temps et les erreurs) Variables de contrôle: celles qu’on contrôle, c.-à-d. qu’on essaie de garder constantes entre les conditions Variables aléatoires: celles qu’on laisse varier, de manière le plus aléatoire possible. Exemples: âge, sexe, profil socio-économique, etc. Comment assurer une variation aléatoire entre les conditions ? Affectation aléatoire des participants aux conditions Désavantage: Ces variables vont introduire plus de variabilité dans nos résultats Avantage: Nos résultats seront plus généraux; nos conclusions vont s’appliquer à plus de situations Variables confondantes: celles qui varient de manière systématique entre les conditions. On veut éliminer ces variables!

38 Régression linéaire Y X Résultats du calcul: pente, intersection, et coéfficient de corrélation de Pearson r qui est dans l’intervalle [-1,1]

39 Un lien causal … Dans une expérience bien contrôlée, s’il n’y a pas de variables confondantes, et on trouve que les variable dépendantes changent lorsqu’on change les variables indépendantes, on peut conclure qu’il y a un lien causal: le changements dans les variables indépendantes cause le changement dans les variables dépendantes. Dans ce cas, une corrélation impliquerait un lien causal.

40 … versus une corrélation simple
Par contre, si on ne fait qu’observer une corrélation entre deux variables X et Y, sans contrôler les conditions, cela n’implique pas un lien causal entre eux. Il se pourrait que X a un effet sur Y Y a un effet sur X Une troisième variable, Z, a un effet sur X et Y C’est pour ça qu’on essaie d’éliminer les variables confondantes dans les expériences

41 Exemple Des chercheurs voulaient savoir quelle variable pourrait prédire les chances qu’un conducteur de motocyclette ait un accident de moto. Ils ont cherché des corrélations entre le nombre d’accidents, et l’âge, le niveau socio-économique, etc. Ils ont trouvé que la plus forte corrélation était avec le nombre de tatouages du conducteur. Évidemment, les tatouages ne causent pas les accidents, ni l’inverse.

42 Exemples de questions qu’on peut chercher à répondre avec une expérience
Parmi 3 interfaces, A, B, C, laquelle permet de compléter une tâche donnée la plus vite ? Est-ce que l'amphétamine a un effet sur la performance des gens à attacher des lacets de souliers ? Est-ce que la fréquence des annonces de type X à la télévision a un effet sur les élections ? Est-ce que le fait de jeter un sort à des dés peut avoir un effet sur les résultats de lancer les dés ?

43 Éléments d’une expérience
Population L’ensemble de tous les participants possibles Échantillon (“sample”) Sous-ensemble de la population choisi pour une étude; un ensemble de participants Participants (anciennement, on disait sujets) Les gens ou les utilisateurs qui effectuent des tâches Observations / Variable(s) dépendente(s) Données qui sont mesurées Exemples: temps pour compléter une tâche, nombre d’erreurs commises, préférences subjectives Condition(s) / Traîtement(s) / Variable(s) independente(s) Quelque chose qui distingue les échantillons (exemple: prendre un médicament vs un placebo, ou utiliser l’interface A vs B) Le but de l’expérience est souvent de déterminer si les conditions ont un effet sur les observations

44 Étapes dans la planification et l’exécution d’une expérience
Le plan de l’expérience (“experimental design”) Choisir les variable(s) indépendente(s) Choisir les variable(s) dépendente(s) Développer une hypothèse Choisir un paradigme croisé = “within subjects” OU emboîté = “between subjects” Choisir une manière de contrôler les variables Choisur la taille de l’échantillon Expérience pilote Une première expérience, souvent pour explorer plusieurs conditions pour sonder l’effet de chaque variable La “vraie” expérience Se concentre plus sur l’effet soupçonné; essaie de recueillir beaucoup de données à des conditions optimales pour obtenir un effet prononcé et de conclusions confiantes Analyser les données En utilisant un test statitisque comme le ANOVA (analysis of variance) Interpréter les résultats

45 Hypothèse Énoncé, à tester, concernant la relation entre les variables indépendentes et dépendentes L’hypothèse nulle dit que les variables indépendentes n’ont pas d’effet sur les variables dépendentes

46 Les plans expérimentaux ("experimental design")
Between subjects or within subjects manipulation (emboîté vs croisé) Example: designs with one independent variable Between subjects design (emboîté) One independent variable with 2 or more levels Subjects randomly assigned to groups Each subject tested under only 1 condition Within subject design (croisé) Each subject tested under all conditions Order of conditions randomized or counterbalanced (why?)

47 Choses à contrôler Les caractéristiques des participants Les tâches
Sexe, droitier vs gaucher, etc. Habileté Expérience (professionnelle, de vie, ou autre) Les tâches Directives données aux participants Matériel / équipment utilisé L’environnement Toujours le même local Bruit, lumière ambiente, etc. Effets dûs à l’ordonnancement des conditions dans une expérience “within subjects” L’amélioration du participant dû au pratique de la tâche La détérioration dû à la fatigue

48 Comment contrôler pour les effets d’ordonnancement
Contrebalancement Plan factoriel Plan en carré latin

49 ↓Nombre de conditions = N
Plans expérimentaux contrebalancés pour une variable indépendente avec N niveaux A, B, ... ↓Plan expérimental ↓Nombre de conditions = N 2 3 4 →Emboîté ("between subjects"): chaque participant passe par seulemeunt une condition. Avantage: pas d'effets de transfert. 1/2: A 1/2: B (chaque moitié des participants fait une condition) 1/3: A 1/3: B 1/3: C 1/4: A 1/4: B 1/4: C 1/4: D →Croisé ("within subjects"): chaque participant passe par toutes les conditions. Avantage: plus de données recueillies pour le même nombre de participants. →Factoriel: tous les (N!) ordonnancements possibles de conditions 1/2: AB 1/2: BA 1/6: ABC 1/6: ACB 1/6: BAC 1/6: BCA 1/6: CAB 1/6: CBA 1/24: ABCD 1/24: ... ... →Carré latin: chaque condition apparaît une fois dans chaque position (colonne) possible. (même chose que factoriel) 1/3: ABC 1/3: BCA 1/3: CAB 1/4: ABCD 1/4: BCDA 1/4: CDAB 1/4: DABC Carré latin versus plan factoriel: si le nombre de conditions est N, le nombre de participants avec un carré latin a seulemeunt besoin d'être un multiple de N, au lieu d'un multiple de N!

50 Exemple de plan expérimental avec une variable indépendente (diapo 1/2)
Variable indépendente MENU avec trois niveaux (c.-à-d. trois conditions) A, B, C, soient trois sortes de menus Plan expérimental croisé par rapport à MENU, contrebalancé avec un carré latin 3×3 C.-à-d.: un tiers des participants font A suivi de B suivi de C; un tiers font B,C,A; un tiers font C,A,B Il y aura des effets de transfert, mais on espère qu'ils seront symmétriques Variable dépendente: TEMPS de selection À la fin de l'expérience, on pourra faire un ANOVA pour savoir si MENU a un effet significatif (p < 0.05) sur TEMPS

51 Exemple de plan expérimental avec une variable indépendente (diapo 2/2)
On peut aussi définir une deuxième variable ORDRE, qui sera emboîtée, avec trois niveaux (un pour chaque tiers des participants) 1/3: MENU = A, B, C; ORDRE = 1 1/3: MENU = B, C, A; ORDRE = 2 1/3: MENU = C, A, B; ORDRE = 3 Donc, notre plan a deux variables indépendentes: MENU qui est croisé, et ORDRE qui est emboîté À la fin de l'expérience, on fait un ANOVA pour savoir si ORDRE a un effet significatif sur TEMPS Si non, les effets de transfert sont symmétriques (bonne nouvelle!) Si oui, on peut simplement supprimer toutes les données recueillies après le premier niveau de MENU; notre plan expérimental se réduit donc à un plan emboîté par rapport à MENU avec seulement un tiers des données qui restent (et donc moins de puissance statistique pour le ANOVA), mais nous n'avons plus d'effets de transfert On fait un ANOVA pour savoir si MENU a un effet significatif sur TEMPS

52 Exemple de plan expérimental avec deux variables indépendentes (1/2)
Disons qu'on veut évaluer deux techniques de visualisation de données (TECHNIQUE = A ou B). On ne veut pas demander aux participants de faire des tâches avec le même jeu de données pour les deux techniques, donc on aura deux jeux JEU = J1 ou J2 Un plan possible: 1/4: (TECHNIQUE, JEU) = (A, J1), (B, J2) 1/4: (TECHNIQUE, JEU) = (A, J2), (B, J1) 1/4: (TECHNIQUE, JEU) = (B, J1), (A, J2) 1/4: (TECHNIQUE, JEU) = (B, J2), (A, J1) Notre plan et donc croisé par rapport à TECHNIQUE et JEU avec contrebalancement factoriel (ce qui est équivalent au carré latin, dans ce cas) Peut-être, pour chaque technique, on a une série de tâches TÂCHE = T1, T2, T3, T4. Cela rajoute une troisième variable. Si on contrebalance l'ordonnancement de TÂCHE avec un carré latin 4×4, ça donne 4 ordonnancements de tâches. Combiné avec nos 4 ordonnancements de (TECHNIQUE, JEU), ça donnerait 16 ordonnancements, ce qui est beaucoup.

53 Exemple de plan expérimental avec deux variables indépendentes (2/2)
Une autre approche serait de fixer l'ordre des tâches, de la plus facile à la plus difficile, par exemple. On pourrait aussi définir une variable ORDRE Un plan possible serait donc 1/4: (TECHNIQUE, JEU) = (A, J1), (B, J2); ORDRE = 1 1/4: (TECHNIQUE, JEU) = (A, J2), (B, J1); ORDRE = 2 1/4: (TECHNIQUE, JEU) = (B, J1), (A, J2); ORDRE = 3 1/4: (TECHNIQUE, JEU) = (B, J2), (A, J1); ORDRE = 4 ... où TÂCHE = T1, T2, T3, T4 pour chaque combinaison de (TECHNIQUE, JEU). Notre plan serait donc croisé par rapport à TECHNIQUE et JEU, emboîté par rapport à ORDRE, et avec un ordonnancement fixe pour TÂCHE. Il va sûrement y avoir des effets de transfert asymmétriques entre les tâches, nous empêchant de comparer les tâches avec un ANOVA, mais cela peut être acceptable si notre objectif principal est de comparer les techniques A et B de visualisation. Une autre approche aurait été de dire que l'ordonnancement de TÂCHE sera alléatoire À la fin de l'expérience, on fait un ANOVA pour savoir si ORDRE a un effet significatif sur TEMPS, et ensuite un autre ANOVA pour savoir si TECHNIQUE a un effet significatif sur TEMPS

54 ANOVA “Analysis of Variance”
A statistical test that compares the distributions of multiple samples, and determines the probability that differences in the distributions are due to chance In other words, it determines the probability p that we would observe the given distributions if the null hypothesis is correct If probability is below 0.05 (i.e. 5 %), then we reject the null hypothesis, and we say that we have a (statistically) significant result Why 0.05 ? Dangers of using this value ?

55 Techniques for Making Experiment more “Powerful” (i. e
Techniques for Making Experiment more “Powerful” (i.e. able to detect effects) Reduce noise (i.e. reduce variance) Increase sample size Control for random variables E.g. psychologists often use in-bred rats for experiments ! Increase the magnitude of the effect E.g. give a larger dosage of the drug

56 Une petite différence entre les moyennes des échantillons
Une petite différence entre les moyennes des échantillons. Est-ce significative, ou simplement dû au hasard ? Une plus grande différence entre les moyennes des échantillons. Est-ce significative, ou simplement dû au hasard ?

57 … et la différence plus grande ici est significative.
Avec une variance plus petite (que sur le diapo précedent), on est plus sûr que la très petite différence ici est dû au hasard …

58 … et la différence plus grande ici est significative.
Avec une taille d’échantillon plus large (que sur les diapos précedents), on est plus sûr que la très petite différence ici est dû au hasard … … et la différence plus grande ici est significative.

59 Uses of Controlled Experiments within HCI
Evaluate or compare existing systems/features/interfaces Discover and test useful scientific principles Examples ? Establish benchmarks/standards/guidelines

60 Exemple d’un plan d’expérience …
Pour chaque participant … Pour chaque condition majeure ... * On fait des essais de réchauffement On a un certain nombre de blocs, séparés par des pauses Pour chaque bloc … On répète chaque condition mineure un certain nombre de fois * * Comment ordonner ces choses ?


Télécharger ppt "Les expériences contrôlées"

Présentations similaires


Annonces Google