La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Visualization of large amounts of multidimensional multivariate business-oriented data

Téléchargements

Téléchargements par mois depuis la dernière année

Im, Jean-François (2014). Visualization of large amounts of multidimensional multivariate business-oriented data. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of IM_Jean-François.pdf]
Prévisualisation
PDF
Télécharger (3MB) | Prévisualisation
[thumbnail of IM_Jean-François-web.pdf]
Prévisualisation
PDF
Télécharger (620kB) | Prévisualisation

Résumé

Many large businesses store large amounts of business-oriented data in data warehouses. These data warehouses contain fact tables, which themselves contain rows representing business events, such as an individual sale or delivery. This data contains multiple dimensions (independent variables that are categorical) and very often also contains multiple measures (dépendent variables that are usually continuous), which makes it complex for casual business users to analyze and visualize. We propose two techniques, GPLOM and VisReduce, that respectively handle the visualization front-end of complex datasets and the back-end processing necessary to visualize large datasets.

Scatterplot matrices (SPLOMs), parallel coordinates, and glyphs can all be used to visualize the multiple measures in multidimensional multivariate data. However, these techniques are not well suited to visualizing many dimensions. To visualize multiple dimensions, “hierarchical axes” that “stack dimensions” have been used in systems like Polaris and Tableau. However, this approach does not scale well beyond a small number of dimensions.

Emerson et al. (2013) extend the matrix paradigm of the SPLOM to simultaneously visualize several categorical and continuous variables, displaying many kinds of charts in the matrix depending on the kinds of variables involved. We propose a variant of their technique, called the Generalized Plot Matrix (GPLOM). The GPLOM restricts Emerson et al. (2013)’s technique to only three kinds of charts (scatterplots for pairs of continuous variables, heatmaps for pairs of categorical variables, and barcharts for pairings of categorical and continuous variable), in an effort to make it easier to understand by casual business users. At the same time, the GPLOM extends Emerson et al. (2013)’s work by demonstrating interactive techniques suited to the matrix of charts. We discuss the visual design and interactive features of our GPLOM prototype, including a textual search feature allowing users to quickly locate values or variables by name. We also present a user study that compared performance with Tableau and our GPLOM prototype, that found that GPLOM is significantly faster in certain cases, and not significantly slower in other cases.

Also, performance and responsiveness of visual analytics systems for exploratory data analysis of large datasets has been a long standing problem, which GPLOM also encounters. We propose a method called VisReduce that incrementally computes visualizations in a distributed fashion by combining a modified MapReduce-style algorithm with a compressed columnar data store, resulting in significant improvements in performance and responsiveness for constructing commonly encountered information visualizations, e.g., bar charts, scatterplots, heat maps, cartograms and parallel coordinate plots. We compare our method with one that queries three other readily available database and data warehouse systems — PostgreSQL, Cloudera Impala and the MapReduce-based Apache Hive — in order to build visualizations. We show that VisReduce’s end-to-end approach allows for greater speed and guaranteed end-user responsiveness, even in the face of large, long-running queries.

Titre traduit

Visualisation de jeux de données d'affaires multidimensionnels multivariés volumineux

Résumé traduit

Plusieurs grandes entreprises stockent des volumes importants de données d’affaires dans des entrepôts de données. Ces entrepôts de données contiennent des tables de faits, qui elles mêmes contiennent des rangées représentant des évènements d’affaires, comme une vente ou une livraison. Ces données comprennent plusieurs dimensions (variables indépendantes et catégoriques) et fréquemment plusieurs mesures (variables dépendantes et habituellement continues), ce qui rend ardue la tâche d’analyser et de visualiser ces types de données par des utilisateurs non-experts. Nous proposons deux techniques, GPLOM et VisReduce, qui gèrent respectivement la visualisation de jeux de données complexes et le traitement nécessaire à la
visualisation de jeux de données volumineux.

Les matrices de nuages de points (Scatter PLOt Matrices, ou SPLOMs), les coordonnées parallèles et les glyphes peuvent être utilisés pour visualiser plusieurs mesures dans les jeux de données multidimensionnels multivariés. Cependant, ces techniques ne sont pas efficaces pour la visualisation de plusieurs dimensions. Pour visualiser plusieurs dimensions, des axes hiérarchiques qui imbriquent les dimensions ont été utilisés dans des systèmes comme Polaris et Tableau. Cependant, cette approche fonctionne mal lorsqu’appliquée à plus que quelques dimensions.

Emerson et al. (2013) étend le paradigme de la SPLOM pour visualiser simultanément plusieurs variables catégoriques et continues, affichant plusieurs types de graphiques dans la matrice selon la combinaison de variables impliquées. Nous proposons une variante de leur technique, appelée la matrice de graphiques généralisée (Generalized PLOt Matrix, ou GPLOM). La GPLOM restreint la technique d’Emerson et al. (2013) pour n’utiliser que trois types de graphiques (des nuages de points pour les paires de variables continues, des thermogrammes pour les paires de variables catégoriques et des graphiques à bâtons pour les paires de variables continues et catégoriques) afin de la rendre plus accessible à des utilisateurs non-experts. En même temps, la GPLOM augmente le travail d’Emerson et al. (2013) en démontrant des techniques d’interaction appropriées à la matrice de graphiques. Nous discutons du design visuel et des fonctionnalités interactives de notre prototype de la GPLOM, entre autres une fonctionnalité de recherche textuelle qui permet aux utilisateurs de chercher des valeurs et des variables par nom. Nous présentons aussi une expérience contrôlée avec des utilisateurs qui compare la performance de Tableau et de notre prototype de la GPLOM qui démontre que la GPLOM est significativement plus rapide dans certains cas et non significativement plus lente dans d’autres cas.

Aussi, la performance et la rapidité de réponse des systèmes d’analyse visuels pour l’exploration de jeux de données volumineux est un problème connu et identifié comme un problème imporX tant pour la communauté de visualisation, problème auquel la GPLOM n’échappe pas. Nous proposons alors une technique appelée VisReduce qui calcule une visualisation de façon incrémentale et distribuée en combinant un algorithme similaire à MapReduce avec un engin de stockage compressé orienté colonne, résultant en des améliorations significatives de performance et de temps de réponse pour la construction de graphiques fréquemment utilisés, comme les graphiques à bâtons, les nuages de points, les thermogrammes, les cartogrammes et les graphiques à coordonnées parallèles. Nous comparons notre méthode avec une qui interroge trois systèmes de gestion de bases de données et systèmes d’entrepôts de données statu quo — PostgreSQL, Cloudera Impala et Apache Hive — pour construire des visualisations. Nous démontrons que VisReduce permet une meilleure performance et un temps de réponse garanti, même pour des requêtes volumineuses ayant un long temps d’exécution.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for a master's degree in information technology engineering". Bibliographie : pages 73-80.
Mots-clés libres: Visualisation de l'information Logiciels. Données volumineuses. Bases de données multidimensionnelles. Entrepôts de données (Informatique) Gestion Informatique. matrice de nuages de points, SPLOM, matrice de graphiques généralisées, GPLOM, VisReduce, MapReduce, visualisation incrementale
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
McGuffin, Michael John
Programme: Maîtrise en ingénierie > Génie
Date de dépôt: 16 févr. 2015 21:39
Dernière modification: 10 déc. 2016 16:30
URI: https://espace.etsmtl.ca/id/eprint/1422

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt