作者:Jeffrey A. Shaffer

翻译:张玲

校对:丁楠雅

本文约3000字,建议阅读10分钟

本文为你简要介绍快速加载Tableau工作簿的技巧,以优化其性能。

Katarzyna "Kasia" Gasiewska的Tableau Public主页上经常有一些精彩的可视化作品,她拥有100多位粉丝,如果你没有位列其中,那么你遗憾地错过了不少作品。

她在Twitter上发表的第一部可视化作品是她最近参加Iron Viz大赛的入选作品《Water, Water Everywhere》,所以当她上周发布新作品的时候,就立即引起了我的注意。这部作品叫《DID YOU SRSLY NAME ME THAT?》,是上周五的Tableau Viz。

《Water, Water Everywhere》:

https://public.tableau.com/profile/kasia.gasiewska.holc#!/vizhome/Watereverywhere/WaterFootprint

《DID YOU SRSLY NAME ME THAT?》:

https://public.tableau.com/profile/kasia.gasiewska.holc#!/vizhome/USBabyNames_4/BabyNames

我在看到作品图片时就立刻被牢牢吸引住,在最终点开作品链接前,我注意到她的推文里写到“初始加载时间太长太长”。当打开作品时,我立刻对她的痛苦感同身受。


仔细观察Viz


除了漫长的加载时间(我在Tableau Public上加载它花费了超过一分钟的时间),点击男孩/女孩名字也需要很长的时间才能筛选。但当我仔细观察时,我发现并没有任何太复杂的东西,只有一个条形图、一个径向条形图和一个点图而已。

所以,我决定下载整个工作簿一探究竟。这时,疼痛值明显增加,如果找一位医生按1到10等级评定疼痛,这肯定是很高级别的疼痛了。它在Tableau Public上加载和交互的速度就够慢了,当下载下来,想真的尝试拖拉拽操作以改变作品时,我的疼痛值很快达到最高级别。

这时候,我非常同情Kasia,因为我知道她在设计这样一个作品时非常煎熬。可以想象当她调整形状、颜色、slider大小,或者作出其他任意改动时,每一步都必须等待,眼睁睁看着时间一分一秒的过去,直到Viz作品更新完毕为止。

后来,我们交流了一下,她也已经更新了她的作品,但我仍决定写这篇文章来介绍一下我为帮助她提升可视化作品加载速度所做的事情,并为那些无法摆脱这种糟糕速度的人提供一些链接和资源。

如果你想亲自体验一下,可以在这里下载她的原始工作簿:

工作簿:

https://dataplusscience.com/files/US%20Baby%20Names%20Original.twbx


分析工作簿


关于“如何优化Tableau工作簿”,会有很多资源介绍。即使你从未遇到过这类性能问题,我也鼓励你阅读一点有关这个主题的内容。从长远来看,只需了解一些注意事项和技巧就可以节省大量时间。

以下是我为改进此工作簿所做的一些事情,请注意,这个工作簿还可以进一步优化。Kasia做了这些改进,并结合其他一些改进,现在她的作品要比原来的版本快得多,具体改进如下:

  • 文件中有一个未使用的额外数据源。

这很容易解决,右击数据源,然后选择关闭。如果你不确定它是否正在使用,请不要担心,Tableau会在关闭正在使用的数据源之前发出警告。这样,TWBX文件大小几乎会减少一半。

  • 数据量有180万行,但大部分都未在可视化中用到。

在这个作品中,细节最详细的是点图,它显示了1990年至2014年男孩和女孩最流行的Top10名字。这意味着,我们在用180万行数据来显示2,300行数据(115年(1900-2014)*10(Top 10)*2(男孩/女孩))。冗余数据太多了,我们需要将数据减少到真正需要的量。这样才会大大提高工作簿的加载速度!

  • 过程中进行了大量的计算。

首先,对每个名字进行计数求和,接着用另一个计算来对该计数的总和进行排名,然后是采用两个计算来算出用于显示男孩/女孩名字集合的大小和形状。这四个计算具有复杂的if-then-elseif-then-elseif-then-else-end结构,而且还包含很多OR语句。此外,这些计算的结果是一个字符串,例如“Size1”和“Size2”。

解决这些问题


我在Tableau Performance上看到的最好资料是Alan Eldridge撰写的白皮书,它是一本只有88页的迷你书,但涵盖了优化Tableau工作簿性能所需的广泛主题,是一个让人惊艳的资源!如果你想提升你的工作簿性能,你必须阅读它:

白皮书链接:

https://www.tableau.com/learn/whitepapers/designing-efficient-workbooks

以下是Alan白皮书的摘要点:

1. 改进低效工作簿没有灵丹妙药。从观察性能记录器开始,了解时间进展。是否有长时间查询?查询太多?计算慢?绘制复杂?这种洞察力可以确保你的努力方向是正确的。

2. 本书的建议仅供参考。虽然它们代表了最佳实践水平,但你仍需要测试它们是否会在特定情况下提高性能。其中许多建议依赖于数据结构和正在使用的数据源(例如,flat file或者RDBM或数据提取)。

3. 数据提取是一种快速简便的方法,可以使大多数工作簿运行的更快。


4. 数据越干净,和问题的结构越匹配,你的工作簿也会运行的越快。

5. 大多数慢的仪表盘都是由设计不佳引起的,特别是图表过多或者试图同时显示很多数据的仪表盘。让仪表盘简单一点吧!允许你的用户逐步向下钻取,了解细节信息,而不是尝试一下子显示所有内容,然后再进行筛选。

6. 仅使用你需要的数据,包括引用的字段和返回记录的粒度。这不仅可以使Tableau生成更少、更好、更快的查询,减少从数据源传输到Tableau引擎的数据量,还可以减少工作簿的大小,以便轻松分享和快速打开。

7. 在缩减数据的同时,请确保有效地使用筛选器。

8. 字符串和日期很慢,数值和布尔值很快。

让我们把其中一部分技术应用到Kasia的工作簿,看能否够提升这部可视化作品的加载速度。

仅使用你需要的数据


在继续之前,让我们来查阅一下Tableau 的操作顺序。

来源:https://onlinehelp.tableau.com/current/pro/desktop/en-us/order_of_operations.html

以下是Kasis对列和行进行计算的度量值以及她所用的筛选器:

先使用Year和Gender筛选器,接着对Sales的求和进行排序。不幸的是,这些筛选器只把180万行数据减少到1,052,480行。接下来对计数值进行求和,然后对求和值排序,最后再把筛选器应用到排序上。换句话说,求和和排序计算是在维度筛选之后的100万条记录上进行的。这并不是必要的,因为我们只需要很少的数据来创建视图。

Alan写道,“仅使用你需要的数据”,这是非常棒的建议。这个工作簿有180万行数据,而在细节粒度最小的视图中也只用了2300行数据。理想情况下,我们会将数据减少到所需要的量,而不是使用整个数据集。接下来,我将使用数据源筛选器这种快速简便的方法来减少数据量。

请注意,在Tableau的操作顺序中,数据源筛选器(和提取筛选器)需要在其他类型筛选器之前应用,远在其他计算之前。因此,利用它可以真正地加快工作簿的加载速度。在Kasia Viz作品中,我用了2个快速简便的数据源筛选器:

  • Year筛选器

数据集最早的年份是1880年,但Kasia仅使用1900至2014年的数据,筛选“至少1900年”,将删除56,000条未在分析中使用的记录。

  • Count筛选器

这很重要,每个男孩/女孩的名字每年都有一个计数,这个计数用来确定每年的Top 10。使用的最低计数是1906,通过添加最低计数1906的数据源筛选器,可以删除未使用的180万行数据。

应用这两个数据源筛选器,可以将数据集从1,825,433行减少到24,130行。尽管这20,000条数据仍然比我们需要的多,但已经可以快速简便地筛掉冗余数据,加速底层计算。实际上,仅凭这一点,就可以使Tableau Public上的Viz作品更加可用。

字符串/日期 VS 数值/布尔值


来自Alan下一个非常有用的,有助于提升工作簿性能的提示是“字符串和日期很慢,数值和布尔值很快”。

这是一个不相关的例子。我们可以使用布尔输出,而不是使用IF语句将高亮颜色指定为字符串。

将高亮颜色指定为字符串:

IF [State] = [State Parameter] then "Blue"

ELSE "Gray"

END

将高亮颜色指定为布尔值:

[State] = [State Parameter]

请注意,在这种情况下,布尔值是一个更优雅的解决方案,它将在大数据集上表现更好。

Kasia的工作簿对复杂的IF语句进行了一些计算,这些语句输出到一个字符串(而且是在一百万条记录上计算它们)。我们不能使用布尔解决方案进行Kasia的计算,但是,我们可以通过将它们转换为数字来更快地进行这些计算。

Kasia将Size作为字符串的原始计算:

if [Circles - Boys]=0 then "Size1"

ELSEIF [Circles - Boys]=1 OR [Circles - Boys]=2 OR [Circles - Boys]=4 then "Size2"

ELSEIF [Circles - Boys]=3 then "Size3"

else "Size4" end

以下是一个获得相同结果的改进计算,但它输出一个数字而不是字符串:

case [Circles - Boys]

when 0 then 1

when 1 then 2

when 2 then 2

when 4 then 2

when 3 then 3

else 4

END

注:在这种情况下,还可以将它们分组,例如1,2和4分组为2,并使用组大小,而不使用计算。

最后,改动就变得非常简单。Kasia能够进行一些小的改动,将数据减少到她需要的数据并更新一些计算,并且工作簿的性能显著提高。在Tableau Desktop中,使用Tableau的性能记录器(“帮助”菜单 - >“设置和性能” - >“开始性能记录”),我们可以看到做了这些改进的工作簿与之前相比,有巨大的差异。

原来版本:39.57秒打开工作簿,23.15秒表计算

更新版本:2.075秒打开工作簿

我希望这个信息对你有所帮助。如果你有任何问题,请随时给我发电子邮件:

邮箱地址:

Jeff@DataPlusScience.com

原文标题:

Optimizing Tableau Workbooks

原文链接:

https://www.dataplusscience.com/OptimizeTableau.html

译者简介

张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无境,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!

翻译组招募信息

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THU ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 提速20倍!3个细节优化Tableau工作簿加载过程(附实例)相关推荐

  1. vue 图片拖动加载 类似于地图_前端性能优化之图片懒加载(附vue自定义指令)...

    作者:lzg9527 链接:https://juejin.cn/post/6903774214780616718 在类电商类项目,往往存在大量的图片,如 banner 广告图,菜单导航图,美团等商家列 ...

  2. oracle最快访问行,平均提速20倍!Oracle 12c In-Memory最佳实践

    来源:三墩IT人 订阅号 作者:唐小丹(浙江移动数据库管理员) 马力行(新炬网络数据库工程师) 一.IM特性简介 Oracle 12.1.0.2 引入了In-Memory Column Store(以 ...

  3. web前端页面性能优化(提升页面加载速度)

    我们都知道,对于web应用来说性能很重要,然而性能的优化相关知识非常庞大而复杂,对于性能优化我们需要做些什么,或者瓶颈是什么通常是我们不太了解的.(当然技术大牛除外) 通过查阅相关资料,了解到了一些关 ...

  4. 基于Android官方AsyncListUtil优化经典ListView分页加载机制(二)

    基于Android官方AsyncListUtil优化经典ListView分页加载机制(二) 我写的附录文章1,介绍了如何使用Android官方的分页加载框架AsyncListUtil优化改进常见的Re ...

  5. 小程序性能优化之页面预加载方案——让你的小程序运行如飞 进阶篇

    小程序性能优化之页面预加载方案 进阶篇 转载请注明出处:https://blog.csdn.net/sinat_27612147/article/details/80798452 写在前面 预加载方案 ...

  6. 前端性能优化——如何提高页面加载速度?

    1.将样式表放在头部 首先说明一下,将样式表放在头部对于实际页面加载的时间并不能造成太大影响,但是这会减少页面首屏出现的时间,使页面内容逐步呈现,改善用户体验,防止"白屏". 我们 ...

  7. 小程序性能优化之页面预加载方案——让你的小程序运行如飞 集成篇

    小程序性能优化之页面预加载方案 集成篇 转载请注明出处:https://blog.csdn.net/sinat_27612147/article/details/80802725 前言 之前看到一篇文 ...

  8. js优化阿里云图片加载(二)

    导语:上篇js优化阿里云图片加载中,总结了一种优化的方法,但是每个实现图片缓存的界面都需要注入相关代码,因此考虑是不是有另外一种方式. 优化后的方案:定义一个全局的缓存池来缓存真实路径. 纠结的点:在 ...

  9. 关于前端性能优化问题,认识网页加载过程和防抖节流

    前端性能优化-网页加载过程.性能优化方法.防抖和节流 一.网页加载过程 1.加载资源的形式 2.加载资源的过程 3.渲染页面的过程 4.关于window.onload 和 DOMContentLoad ...

最新文章

  1. latex 表格单元格上下左右居中_Excel文字对齐技巧:学会这6种方式,快速整理规范表格...
  2. jQuery.click()与onClick
  3. python工程师收入-Python工程师薪水居然这么高
  4. 彻底禁用resource manager
  5. 10.14.1-linux设置时间等
  6. 深度学习之生成对抗网络(1)博弈学习实例
  7. 乐玩自动化测试模块_自动化测试模型(一)自动化测试模型介绍
  8. 修改MYSQL 密码
  9. myeclipse2019左侧工程目录字体的大小调整
  10. AndroidStudio_安卓原生开发_自定义蒙板弹出框WaitDialog---Android原生开发工作笔记134
  11. oracle锁类型tx,Oracle中的锁类型
  12. Surface Capture for Performance-Based Animation
  13. Linux进程状态(ps stat)之R、S、D、T、Z、X 转:http://blog.csdn.net/huzia/article/details/18946491...
  14. SqlServer Convert函数 日期格式化
  15. 部署jar包项目到服务器上
  16. CPU工作方式、多核心、超线程技术详解[转贴]
  17. 计算机与软件学院辅导员陈伯亨,十年桃李满园———计算机科学与软件工程系隆重举行十周年校庆校友会...
  18. 计算机理论什么是信道容量,(信道容量知识总结.doc
  19. 《软技能—代码之外的生存指南》读书笔记之二:自我营销
  20. 蓝绿发布、红黑发布、灰度发布你都分得清吗

热门文章

  1. 20172328 2018-2019《Java软件结构与数据结构》第八周学习总结
  2. paper 68 :MATLAB中取整函数(fix, floor, ceil, round)的使用
  3. centos 安装java web_centos6.9 安装JAVA-WEB环境
  4. python read函数返回值_python read()方法定义及使用(实例解析)
  5. json.dumps()函数解析
  6. 决策树剪枝的方法与必要性
  7. N-GRAM模型的概率公式
  8. 如何通俗解释交叉熵与相对熵
  9. jupyter !wget 等系统命令使用技巧
  10. JDK与JRE的关系和path的作用浅谈