La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

Présentations similaires


Présentation au sujet: "La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)"— Transcription de la présentation:

1 La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)

2 Rappel de mathématiques élémentaires Étant donné deux ensembles, un domaine (exemple: R) et un codomaine (exemple: R), on peut former le produit cartésien (RxR=R 2 ) qui est lensemble de tous les pairs (x,y) possibles – Dautres exemples de produits cartésiens: AxB = {(a,b)|aϵA et bϵB}; AxBxCxD = {(a,b,c,d)|aϵA et bϵB et cϵC et dϵD} Une relation est un sous ensemble du produit cartésien – Exemple: léquation x = y 2 correspond à un sous-ensemble de R 2 ; linéquation x < y correspond à un autre sous-ensemble de R 2 Une relation sappelle une fonction si chaque membre x du domaine a au plus un membre y correspondant dans le codomaine – x=y 2 nest pas une fonction car (4,2) et (4,-2) sont tous les deux des membres de la relation définie par léquation Une façon simple de représenter une relation (ou une fonction) est simplement dénumérer les pairs de la relation dans un tableau

3 La fonction y = x^0.5: x y La relation dans un tableau d'une base de données relationnelles: Nom_de_client Produit_acheté Prix Date Robert G. Trombone mars 7. Robert G. Partitions vol mars 7. Lucie M. Flute nov 11. Cynthia S. Partitions vol juin 16 Jules T. Piano jan 10 Jules T. Partitions vol jan Une vidéo (par exemple, fichier.avi): x y temps rouge vert bleu Exemples de relations mathématiques (c.-à-d. de données multidimensionnelles multivariées). Une relation est un sous- ensemble dun produit cartésien de deux ou plusieurs ensembles (exemple: un sous-ensemble de R×R). Dans les exemples ici, chaque rangée est un N-uplet (membre de la relation; « tuple » en anglais), chaque colonne un ensemble faisant partie du produit cartésien.

4 Base de données relationnelles foodmart

5 Une vidéo: x y temps rouge vert bleu Domaines Variables indépendentes Dimensions Co-domaines Variables dépendentes Variables (doù le terme mdmv) Mesures (terminologie en base de données) N-uplet (tuple), point multidimensionnel, vecteur, rangée Colonnes, dimensions, attributs, variables Attention au synonymes ! Jutiliserai les termes en gras

6 Données mdmv Ce que jentends par « données multidimensionelles multivariées » ou « données mdmv » est une relation quelconque Quand les gens parle de « dimensions », il est bien de distinguer entre au moins 3 sens que ce mot peut avoir: – 1. La dimensionalité du domaine (nombre de variables indépendantes) – 2. La dimensionalité du codomaine (nombre de variables dépendantes) – 3. Les dimensions physiques de lespace et/ou de temps utilisés pour visualiser les données (il y a au plus 3 dimensions spatiales et 1 dimension temporelle) – Exemple: dans du piétage vidéo, il y a 3 dimensions (x,y, et temps) associées avec le domaine, 3 dimensions associées avec le codomaine (rouge, vert, bleu), et habituellement pour visualiser la vidéo on va « mapper » x et y dans la vidéo aux dimensions spatiales physiques de notre écran, et « mapper » le temps dans la vidéo au temps physique. – Mais, on pourrait aussi « mapper » les variables rouge, vert, bleu au x, y, z physique, pour donner une nuage de points (« scatter plot ») de la vidéo Donc, éviter dutiliser des termes comme « visualisation 3D » ou « visualisation 2D » sans spécifier ce que 2D / 3D veut dire

7 Rouge Bleu Vert Une vidéo [Gareth Daniel and Min Chen, 2003]

8 Pour visualiser des données, il faut choisir un mappage Données en entrée: un nombre quelconque de variables indépendentes (dimensions) et de variables dépendentes (mesures) Représentation graphique en sortie: au maximum 3 dimensions spatiales (souvent juste 2), et au maximum 1 dimension temporelle (dans le cas dune animation)

9 1 dimension + 1 mesure: diagramme en rectangles (barchart)

10 2 mesures: nuage de points (scatterplot)

11 2 dimensions + 1 mesure: heatmap

12 Visualisation de fluide Quelles dimensions et mesures seraient impliquées dans de telles données?

13 Les visages de Chernoff (1973) (un exemple dun « glyphe ») Avantage: mieux que du texte pour avoir une impression globale des données et trouver des éléments intéressants Désavantage: le mapping entre les variables et le visage a un effet sur la saillance de chaque variable. Désavantage(?): redondance dun visage symétrique

14 Dautres exemples de glyphes M. Ward (2002), A Taxonomy of Glyph Placement Strategies for Multidimensional Data Visualization, Information Visualization.

15 Dautres exemples de glyphes Wittenbrink, Pang, Lodha (1996) Glyphs for Visualizing Uncertainty in Vector Fields, IEEE TVCG.

16 Boîte à moustaches (Box plot ou Box-and-whisker plot) Inventé par John Tukey (qui inventa aussi les mots software et bit, ) Une sorte de glyphe qui sert à résumer une distribution – Moyenne ou médiane – Écart type ou quartiles (25% et 75% de la distribution) ou percentiles (exemple: 10% et 90% de la distribution) – Outliers (données aberrantes), par exemple: les valuers en dehors des 10ième et 90ième percentiles, ou en dehors de 3 écarts types – Peut aussi montrer minimum, maximum

17

18 Bullet graphs (Stephen Few, ) Montrent Valeur actuelle Valeur ciblée 3 zones: bon, moyen, mauvais

19 Les chandeliers japonais (candlestick charts) Inventés par Homma Munehisa ( ), qui a amassé une immense fortune en jouant sur le prix du riz ( ) Utilisés dan lanalyse technique de lévolution des cours ou marchés financiers (actions, etc.) On peut le voir comme une sorte de glyphe qui montre une évolution à travers le temps

20

21 1 White candlestick 2 Black candlestick 3 Long lower shadow 4 Long upper shadow 5 Hammer 6 Inverted hammer 7 Spinning top white 8 Spinning top black 9 Doji 10 Long legged doji 11 Dragonfly doji 12 Gravestone doji 13 Marubozu white 14 Marubozu black

22 Présentation interactive de lONU (United Nations Development Programme, Human Development Report) Voir les présentations de Hans Rosling sur Remarque: les points sont des glyphes, ayant chacun un rayon et une couleur.

23 Tableau: logiciel pour visualiser des bases de données (Mackinlay et al. 2007, tableausoftware.com)

24

25

26

27

28

29 x y b a x y x y x y Rangées: b, y Colonnes: a, x

30

31 Tableau Pour plus dinformations:

32 Sortes de variables Continue (ou quantitative ou métrique) – Exemple: x, y, temps, température, argent Ordinale – On peut mettre les valeurs en ordre, mais on ne peut pas dire quune telle valeur est N fois plus grande quune autre valeur – Exemple: D.E.S., D.E.C., Baccalauréat (en ordre dannées de scolarité) Catégorique (ou nominale) – Il ny a pas dordre naturel (sauf peut-être alphabétique, mais cela est arbitraire et dépend de la langue) – Exemple: groupe daliments (viandes, lait, légumes et fruits, produits céréaliers) – Exemple: bacc en génie mécanique, bacc en génie de construction, etc. – Exemple: Honda, Toyota, GM, Chrysler, etc. Binaires – Une sorte de dimension nominale (ou ordinale) ayant deux valeurs possibles

33 Rappel: la visualisation est un mappage Données en entrée: chaque variable peut être {indépendente, dépendente} et {continue, ordinale, catégorique} Représentation graphique en sortie: au maximum 3 dimensions spatiales (souvent juste 2), et au maximum 1 dimension temporelle (dans le cas danimations) … et aussi plusieurs variables graphiques

34 Hiérarchie des variables graphiques

35 Exemple tiré dun cours de Marilyn Ostergren à lU de Washington ( )

36 Hiérarchie des variables graphiques (Mackinlay, 1986)

37 Des tests pour confirmer lhiérarchie (Jeffrey Heer et Michael Bostock, "Crowdsourcing Graphical Perception: Using Mechanical Turk to Assess Visualization Design", CHI 2010) Positions Longueurs Angles Aires circulaires Aires rectangulaires (alignés, ou dans un treemap)

38 Tableau Détermine de façon automatique quelles colonnes dans la base de données sont des « dimensions » (variables indépendantes), quelles sont des « mesures » (variables dépendantes), et quelles sont « quantitatives » (continues) ou « catégoriques » (nominales) Choisit une sorte de graphique de façon automatique, selon la nature des données

39 Tableau Continuous variable as a function of a nominal variable Bar chart (diagramme à barres) Continuous variable as a function of a continuous variable Line graph (diagramme à ligne brisée) Continuous variable as a function of (nominal) time Two dependent continuous variables Scatter plot (nuage de points) Nominal variable as a function of a continuous variable Gantt chart Nominal independent variable with continuous independent variable Two independent nominal variablesCross tabulation (cross tab) Des exemples résultants de lapplication des règles sur le diapo précédent:

40

41

42 Diagramme à barres vs diagramme en ligne brisée (Bar chart vs line graph) Lequel permet de voir des changements de pente plus facilement ?

43 Tiré de Tufte (1983) Longueur vs aire (Length vs area)

44

45

46 Tiré de IEEE Canadian Review, 2009, No. 60, page 31

47 Exemple tiré dun cours de Marilyn Ostergren à lU de Washington ( )

48

49 Rogowitz and Treinish, Why Should Engineers and Scientists Be Worried About Color?

50 Borland and Taylor, Rainbow Color Map (Still) Considered Harmful, IEEE CG&A, 27(2):14-17, 2007

51

52

53

54 ABC abc

55 Dautres exemples … Des notes sont montrées sur les lignes et aussi entre les lignes, reduisant dun facteur de 2 le nombre de lignes nécessaires. Des rangées sont montrées sur les bandes grises et entre les bandes grises. Le nombre de bandes grises nécessaires est la moitié du nombre de lignes séparatrices qui seraient nécessaires entre les rangées.

56 octave demi-ton (semitone) octave Notation naïve: Notation moderne:

57 Nuage de points (scatterplot) Comment faire en sorte quil soit plus facile de lire les positions (x,y) des points dune nuage de points? Possibilité 1: marquer les axes avec des lignes aux positions des points. Image de Haimo Zhang

58 Nuage de points (scatterplot) Possibilité 2: montrer des lignes de projection horizontales et verticales qui sétendent aux axes. Image de Haimo Zhang

59 Nuage de points (scatterplot) Possibilité 3: une grille en arrière-plan. Remarquer que chaque 5ième ligne de la grille est légèrement plus foncée. Image de Haimo Zhang

60 Code génétique (correspondence entre les triplets de nucléotides et les acides aminés) Versions de Ben Fry (http://benfry.com/aasd/) Versions traditionnelles

61 Changements à un diagramme généré par MS Excel

62

63 Tiré de Stephen Wolfram, A New Kind of Science, p. 812

64 Exercise en classe: Concevoir un ou des graphiques pour visualiser un jeu de données ayant les dimensions suivantes: Modèle dauto: {Accord, AMC Pacer, Audi 5000, BMW 320i, Champ, Chev Nova, …} (19 modèles en tout, un modèle par tuple; c.-à-d. 19 tuples) Prix dauto: [$0, $13500] Consommation: [0,40] Niveau dentretien (fiabilité): {Excellent, Bon, Okay, Mauvais, Affreux} Poids: [0,5500] Variables les plus importantes

65 Modèle dauto: {Accord, AMC Pacer, Audi 5000, BMW 320i, Champ, Chev Nova, …} (19 modèles en tout, un modèle par tuple; c.-à-d. 19 tuples) Prix dauto: [$0, $13500] Consommation: [0,40] Niveau dentretien (fiabilité): {Excellent, Bon, Okay, Mauvais, Affreux} Poids: [0,5500] Variables les plus importantes

66 Encore dautres sortes de graphiques pour les données multidimensionnelles …

67 Graphique inventé par Florence Nightingale ( ; statisticienne, et pionnière des soins infirmiers)

68

69 Diagramme ternaire 70% methane, 20% nitrogen, 10% oxygen Les coordonnées (x,y,z) de chaque point sont telles que x+y+z=1 Comment se fait-il que nous pouvons montrer 3 coordonnées dans un diagramme 2D ?

70 Mosaic plots

71 Les diagrammes à barres, diagrammes à lignes brisées, nuages de points, et dautres diagrammes simples servent seulement à montrer 2 ou quelques dimensions à la fois. Pour montrer beaucoup de dimensions en même temps, la seule approche que nous avons vu à date est par glyphes. Nous allons maintenant voir deux autres approches graphiques permettant de visualiser plusieurs dimensions (ou variables) en même temps: les matrices de nuages de points ("scatterplot matrices", ou SPLOMs) et les coordonnées parallèles.

72 Données mdmv Voici les notes dun étudiant dans 4 cours: Physiques: 90% Mathématiques: 95% Litérature française: 65% Histoire: 70% Chaque étudiant est comme un N-uplet: (90%, 95%, 65%, 70%) Etc.

73 Parallel Coordinates 100% 0% PhysicsMath French Literature History (90%, 95%, 65%, 70%)

74 Parallel Coordinates 100% 0% PhysicsMath French Literature History (90%, 95%, 65%, 70%) (30%, 20%, 90%, 90%)

75 Scatterplot Matrix (SPLOM) Physics Math French Literature History (90%, 95%, 65%, 70%) French Literature Math

76 Scatterplot Matrix (SPLOM) Physics Math French Literature History (90%, 95%, 65%, 70%) (30%, 20%, 90%, 90%) French Literature Math

77

78

79 Matrice de nuages de points (scatter plot matrix ou SPLOM) Niklas Elmqvist, Pierre Dragicevic, Jean-Daniel Fekete (2008). Rolling the Dice: Multidimensional Visual Exploration using Scatterplot Matrix Navigation. Proceedings of InfoVis Within each scatterplot, we could be interested in seeing outliers, correlations, etc. Notice: the upper triangular half is the same as the lower triangular half, and the diagonal is not very interesting.

80 Matrice de nuages de points (scatter plot matrix ou SPLOM) Wilkinson, Anand, Grossman, Graph-Theoretic Scagnostics, 2005 Remarque: le diagonal est utilisé pour montrer les noms des dimensions

81 Matrice de coéfficients de corrélation Jinwook Seo and Ben Shneiderman, A Rank-by-Feature Framework for …, Proceedings of InfoVis Implemented in HCE ( )http://www.cs.umd.edu/hcil/hce/ When we have many dimensions, we can summarize each scatterplot by computing its correlation coefficient and displaying only that, instead of displaying all the individual data points. The below interface also allows the user to select one scatterplot and see a zoomed-in view for details.

82 Corrgrams (Michael Friendly, 2002)

83 ScatterDice (Elmqvist et al. 2008)

84 (voir vidéo)

85 Coordonnées parallèles Johansson et al. 2005

86 Coordonnées parallèles Ellis, Bertini, Dix, The Sampling Lens …, 2005 Ellis, Dix, Enabling Automatic Clutter Reduction …, 2006

87

88 Une variante polaire des coordonnées parallèles Noms: star plots, star glyphs, star coordinates, spider chart, radar chart, polar chart, kiviat diagram.

89 Une variante polaire des coordonnées parallèles Stephen Few;

90 Une variante polaire des coordonnées parallèles

91 Exemple de Matlab carbig.mat SPLOM avec histogrammes sur le diagonal. Les couleurs indiquent le nombre de cylindres de chaque automobile.

92 Exemple de Matlab carbig.mat

93 Exemple de Matlab carbig.mat Coordonnées parallèles. Les couleurs indiquent le nombre de cylindres. À droite: on montre juste la moyenne et les quartiles (25% et 75%) de chaque groupe.

94 Exemple de Matlab carbig.mat Star glyphs. On aurait pu aussi utiliser des visages de Chernoff.

95 Comparaison: SPLOMs vs Coordonnées parallèles Supposons quon a N dimensions, et que chaque axe a une longueur L Matrice de nuages de points (SPLOM) – Aire totale: (N-1)L×(N-1)L = Θ(N 2 L 2 ) Coordonnées parallèles – Supposons que lespace entre chaque pair daxes consécutifs est kL, où k est une constante positive, pour borner langle des segments à ±arctan(1/k). Par exemple, k=1 borne les angles à ±45°. – Aire totale: (N-1)kL×L = Θ(NL 2 ) – Avantage par rapport aux SPLOMs: meilleur efficacité despace – Désavantage par rapport aux SPLOMs: ne permet pas de voir aussi facilement la relation (corrélation etc.) entre nimporte quelle paire de dimensions – Question en passant: quelle est la meilleure valeur de k à utiliser ? Lemme: Sur un segment de longueur 1, si on choisit deux points allétoires sur ce segment, avec distributions uniformes et indépendentes, on trouve que la distance moyenne entre les points est de 1/3 Dans une visualisation en coordonnées parallèles, si on suppose que les coordonnées de chaque linge brisée sont alléatoires avec distributions uniformes et indépendentes dans [0,L], alors la distance verticale entre deux coordonnées consecutives sera L/3 en moyenne, ce qui correspond à un angle de arctan(1/(3k)). La valeur k=1/3 fait en sorte que cet angle moyen soit 45°, alors k=1/3 est peut-être optimal pour permettre de bien distinguer les segments des lignes brisées.

96 Combinaison de nuages de points et coordonnées parallèles Huamin Qu et al. 2007

97 Combinaisons de nuages de points et coordonnées parallèles Steed et al. 2009Holten and van Wijk 2010 Yuan et al. 2009

98 Scatterplot Matrix (SPLOM)

99 Parallel Coordinates

100

101 Scatterplot Matrix vs Parallel Coordinates

102

103

104

105 Scatterplot Staircase (SPLOS) Inspired partly by quilts [Watson et al. 2008] Sequence of scatterplots: treats one dimension differently. Scatterplot Staircase (SPLOS): all dimensions treated uniformly; every adjacent pair of plots share an axis. Parallel coordinates: more difficult to judge correlations than in scatterplots [Li et al., 2010]

106 Résumé de manières principales de visualiser les données mdmv 1 dimension + 1 mesure : 0 dimensions + 2 mesures : 2 dimensions + 1 mesure : Plusieurs dimensions : Plusieurs mesures :

107 Jeu de données Nuts and Bolts (Boulons et écrous) 3 dimensions: – Région {North, Central, South} – Mois {janvier, …, décembre} – Produit {Nut, Bolt} 3 mesures: – Ventes (Sales) – Coûts déquipments (Equipment costs) – Coûts de main doeuvre (Labor costs)

108 Nuts and Bolts (Boulons et écrous) Fichier.csv complet (72 rangées): Region,Month,Product,Sales,Equipment_costs,Labor_costs 0,0,0,2.76,0.92,4.3 0,0,1, ,1.64,4.3 0,1,0, ,1.0,4.3 0,1,1, ,2.0,4.3 0,2,0,5.28,9.6,4.3 0,2,1, ,26.4,4.3 0,3,0, , ,4.3 0,3,1,8.436,1.48,4.3 0,4,0, ,0.98,4.3 0,4,1,9.54, ,4.3 0,5,0,4.44,1.48,4.9 0,5,1,6.12,2.04,4.9 0,6,0,3.128,1.36,4.9 0,6,1,4.048, ,4.9 0,7,0, ,1.32,4.9 0,7,1,4.524, ,4.9 0,8,0, ,15.6, ,8,1,11.0,20.0, ,9,0,16.348,2.68, ,9,1,11.956,1.96, ,10,0, ,1.68, ,10,1,12.208, , ,11,0, , ,5.2 0,11,1,12.662,1.948,5.2 1,0,0,2.07,0.69,4.3 1,0,1, ,1.23,4.3 1,1,0,3.15,0.75,4.3 1,1,1,6.3,1.5,4.3 1,2,0, ,0.72,4.3 1,2,1,10.89,1.98,4.3 1,3,0,3.762,0.66,4.3 1,3,1,6.327,1.11,4.3 1,4,0, ,0.735,4.3 1,4,1,7.155,1.35,4.3 1,5,0, ,1.11,4.9 1,5,1,4.59, ,4.9 1,6,0, , ,4.9 1,6,1,3.036,1.32,4.9 1,7,0, ,12.87,4.9 1,7,1, , ,4.9 1,8,0, , ,4.9 1,8,1,8.25,1.5,4.9 1,9,0, ,2.01,4.9 1,9,1,8.967,1.47,4.9 1,10,0,8.82,1.26,4.9 1,10,1,9.156, ,4.9 1,11,0,5.655, ,5.2 1,11,1,9.4965,1.461,5.2 2,0,0,2.07,1.15,4.3 2,0,1, ,2.05,4.3 2,1,0,3.15,1.25,4.3 2,1,1,6.3,2.5,4.3 2,2,0, ,1.2,4.3 2,2,1,10.89,3.3,4.3 2,3,0, ,1.1,4.3 2,3,1,1.0545,1.85,4.3 2,4,0, ,1.225,4.3 2,4,1,1.1925,2.25,4.3 2,5,0, ,1.85,4.9 2,5,1,4.59,2.55,4.9 2,6,0, ,15.3,4.9 2,6,1,3.036, ,4.9 2,7,0, ,1.65,4.9 2,7,1, ,1.95,4.9 2,8,0, ,1.95,4.9 2,8,1,8.25,2.5,4.9 2,9,0, ,3.35,4.9 2,9,1,8.967,2.45,4.9 2,10,0,8.82,2.1,4.9 2,10,1,9.156,2.18,4.9 2,11,0,5.655,1.45,5.2 2,11,1,9.4965,2.435,5.2

109 Nuts and Bolts (Boulons et écrous) Fichier.csv complet (72 rangées): Region,Month,Product,Sales,Equipment_costs,Labor_costs 0,0,0,2.76,0.92,4.3 0,0,1, ,1.64,4.3 0,1,0, ,1.0,4.3 0,1,1, ,2.0,4.3 0,2,0,5.28,9.6,4.3 0,2,1, ,26.4,4.3 0,3,0, , ,4.3 0,3,1,8.436,1.48,4.3 … 2,10,0,8.82,2.1,4.9 2,10,1,9.156,2.18,4.9 2,11,0,5.655,1.45,5.2 2,11,1,9.4965,2.435,5.2

110 Nuts and Bolts (Boulons et écrous) (72 rangées): RegionMonthProductSalesEquipment_costsLabor_costs ……………… Dimensions Mesures

111 Jeu de données Nuts and Bolts

112 Pas très utile Le SPLOM fonction bien avec les mesures, mais nest pas adapté aux dimensions

113 Jeu de données Nuts and Bolts

114 Pas très utile Les coordonnées parallèles fonctionnent bien avec les mesures, mais ne sont pas adaptées aux dimensions

115 Jeu de données Nuts and Bolts Des exemples de vues possibles avec Tableau: Chacun des exemples ci-dessus montre seulement 4 des 6 variables. Montrer toutes les 6 variables (3 dimensions et 3 mesures) prendrait beaucoup despace.

116 Jeu de données Nuts and Bolts Exemple dune vue possible avec Tableau: Lexemple ci-dessus montre seulement 4 des 6 variables. Une des variables est mois, qui a 12 valeurs possibles, entraînant un grand besoin en espace.

117 Glyphes dimension mesure dimension mesure

118 Résumé de manières principales de visualiser les données mdmv 1 dimension + 1 mesure : 0 dimensions + 2 mesures : 2 dimensions + 1 mesure : Plusieurs dimensions : Plusieurs mesures :


Télécharger ppt "La visualisation de données multidimensionnelles multivariées (relations, fonctions, tableaux, données mdmv)"

Présentations similaires


Annonces Google