La perception subjective de la corrélation dans les nuages de points Alexandre THIL M2 SIP IHM
Présentation de l’article « The Perception of Correlation Scatterplots », Ronald A. Rensink, Gideon Baldrige, Eurovis 2010
Les nuages de points Utilisé en statistiques pour : Représenter visuellement des données dépendant de plusieurs variables Représenter la corrélation de données Permettent de déterminer visuellement : Tendances Relations Dispersion Valeurs aberrantes Nuage de point : scatterplot Les points sont placés sans être reliés Utile lorsque y dépend de x Souvent utilisé en statistiques : car permettent de montrer la corrélation Il est difficile de comparer l’efficacité de deux modèles, ou d’un en particulier
La corrélation
Problématique Difficile de représenter visuellement des données Difficile de déterminer le meilleur choix possible Des tests sont nécessaires Difficulté de représenter visuellement des données : il faut choisir le type de graphique, la taille, les types d’éléments, l’échelles des axes Il est difficile de déterminer le meilleur choix possible entre plusieurs configurations
Résultats des études réalisées Des résultats expérimentaux obtenus Mais ne sont pas validés scientifiquement Pour 2 < |r| < 6 : sous-estimation de la corrélation Pour 0 < |r| < 2 : pratiquement aucune corrélation percue
Problèmes rencontrés Exactitude Précision Erreur systématique Erreur systématique : si l’erreur sous-évalue ou sur-évalue toujours la mesure
Loi de Webber-Fechner La perception humaine des grandeurs physiques (ex: poids, luminosité…) n’est pas linéaire. La sensation varie comme le logarithme de l'excitation S = k.log(I) S : sensation perçue I : intensité de la stimulation k : constante ΔI/I = k ΔI : seuil différentiel ΔI /I: seuil différentiel relatif
Méthodologie But : déterminer l’évaluation subjective de la corrélation g(r) comme une fonction de la corrélation objective r. Générer des nuages de points de corrélation différentes (100 points selon une loi de distribution normale bivariée) Sélectionner un panel de testeurs Utiliser des méthodologies de test
Méthodologie 1 : Discrimination JND : Just Noticeable Difference (75%) Stimulus double Mesure : précision Chaque observateur voit deux nuages de points (l’un plus corrélé que l’autre) et doit sélectionner celui qui est le + corrélé. La différence initiale des corrélations était de 1. Lorsqu’une réponse correcte est donnée, on soustrait 0,01 à la différence La tâche devient plus difficile Lors d’une réponse incorrecte, la différence est augmentée de 0,03 tâche moins difficile Pour s’assurer une bonne qualité (de réponse***) les graphiques sont remplacés chaque fois par de nouveaux. Le test se poursuit jusqu’une JND est trouvée (75% de succès des cas).
Méthodologie 2 : Estimation directe 1ère idée : chaque observateur assigne une note pour chaque graphique d’une série de test Mesure : précision Mauvaise précision si utilisation d’une échelle
Méthodologie 2 : Estimation directe Stimulus triple : deux images de référence, une de test L’observateur doit ajuster (au clavier) l’image de test pour que sa corrélation soit à mi-chemin de la corrélation des deux images de référence.
Méthodologie du test 20 observateurs (âge moyen 24 ans, tous habitués aux nuages de points) Méthodologies : discrimination et estimation directe Pas de limite de temps L’accent est mis sur la « précision » Entraînement : séance de 50 essais
Suppression des valeurs aberrantes Ecart-type > 0,19 Beaucoup d’estimations < 0,2 4 observateurs défaillants remplacés par de nouveaux observateurs
Résultats : Discrimination Temps moyen de décision : 1,6 secondes
Résultats : Discrimination
Résultats : Estimation directe g(r) = ln(1–b.r) / ln(1-b) avec b = 0,875 Les résultats concordent avec d’autres études Il y’a une forte sous-estimation de la corrélation pour 0,2 < |r| < 0,6
Comparaison Précision Exactitude
Conclusion de l’étude But de l’étude : proposer une méthodologie rigoureuse pour évaluer la capacité des observateurs à percevoir la corrélation dans les nuages de points, et pouvoir représenter mathématiquement la perception subjective de la corrélation On sait que l’activité cérébrale humaine augmente lorsque que la corrélation baisse Certains graphiques complexes peuvent compliquer la perception de la corrélation Il est préférable de présenter des graphiques clairs et simples pour la visualisation et l’analyse de données
Projets futurs Evaluer d’autres facteurs (ex: taille des points, formes et couleurs) pour déterminer leur impact sur la perception subjective Evaluer d’autres types de graphiques pour d’autres phénomènes (ex: graphiques en barres, courbes…) Evaluer d’autres perceptions (ex: moyennes, variances…)
Bibliographie « The Perception of Correlation in Scatterplots », Ronald A. Rensink and Rideon Baldridge, University of British Columbia, Vancouver, Canada « Image Quality Assessment Using Natural Scene Statistics », Sheikh Loi de Weber, Encyclopédie Universalis http://www.lepla.edu.pl/fr/modules/Activities/p04/p04-error1.htm http://www.tc3.edu/instruct/sbrown/ti83/regress.htm http://en.wikipedia.org/wiki/File:Oldfaithful3.png
Fin de l’exposé Merci pour votre attention N’hésitez pas à poser vos questions