本篇博客用于记录IGAL九期班汪云海老师上课内容的学习笔记,汪老师本次上课的题目是“以任务为驱动的自动化可视化(Task-driven Automated Visualization)”。可视化是把看不见的数据转换成可见的图像,让我们人以视觉的方法去分析数据,挖掘数据所蕴藏的信息。基于计算机的可视化系统提供数据集的可视化表示,旨在帮助人们更有效地执行某些任务。 但当前的问题是对于缺乏经验的设计者来说:1、如何快速的构建可视化图形。2、怎样调参才能使可视化的图像更能使人理解。针对这两个问题,汪老师详细讲解了他们在以任务为驱动的自动化可视化,以此避免出现每个可视化的都需要人选择以及来调参的问题上的研究,其详细内容如下:

在课程的最开始,汪老师为我们展示了一些不好的可视化图形来使大家认识到合理设计可视化图像的重要性:

我们很明显可以看出:左图饼图存在的问题是比例不是百分百,右图存在的问题是最高值和最低值颜色过于接近使得可视化效果不明显,且图形构造上存在问题。这些可视化图像存在的问题都使得这些可视化的图像对普通用户来说变得难以读懂达到适得其反的效果。

为了快速的做出好的可视化形,需要解决:(1)太多可视化的方法,到底选用哪个合适?(2)参数怎样调?在给定任务的前提条件下,怎样通过算法解决这两个问题,然后自动化的产生良好的可视化图形,汪老师详细介绍了他们对此方面做的研究。

做出的研究:以任务为驱动的自动化可视化, 避免出现每个可视化的都需要人选择以及来调参的问题

做法:给定一个Task让机器去度量

从让机器的变得智能到让人变得更加智能,所以要从人的视觉出发去考虑可视化的建立

怎样做自动的可视映射怎样做自动的可视化?

哪一种折线图更好是看趋势重要还是看细节重要,需根据任务本身去决定。

研究问题:

是否可以自动选择正确的表示形式来显示时间序列中的趋势?

哪些以及不同因素如何影响可视化方法的选择?

研究工作主要回答这两个问题

先假设拟合一个区域,再根据这个趋势去画图:散点图和折线图,然后将它变成密度的表达方式(弱化异常点),最后用EMD距离(Earth Mover's Distance 详细可参考https://www.jianshu.com/p/2b171e1b43d4)算法去计算上下两个图形和中间两个图形哪个更加接近。 ·

假设到底是什么因数导致的比较上的差异:

1、异常值对可视化的选择有很大影响;

2、趋势可能会产生微弱的影响;

3、噪音影响在异常值和趋势之间;

4、纵横比的影响可能不强;

然后生成一些数据,通过这些数据来验证以上的假设那些是成立的,要求每个参与者通过考虑哪一个更好地捕捉趋势来在线图或散点图之间进行选择

选择结果:1、总结“SS”“LL”和“两者都好”的百分比,一致选择的百分比达到62%。2、删除“两个坏”的数据,一致选择的百分比达到71%

研究结果:不同因素的影响

1.趋势没有显着影响

2.异常值,纵横比和噪声具有显着影响

3.效果大小:异常值>宽高比>噪声

希望能够量化的去看怎么能根据给定的任务去自动的选择更好的可视化,那些因素是怎样影响

宽高比强烈影响图形感知

怎样自动的去计算一个宽高比?简单介绍了45度角定理等, 研究了参数无关化的一些方法AL、AWO、RV

基于45度角理论   AS、AO:对于高频信号结果很类似  RV、AL、AWO、L1-LOR:参数化无关的     基于角度差最大理论   LOR、GOR一定程度上参数化无关的,然后对这些方法逐个对比研究

实验结论:这些所有的方法对于这个Spike noise 高频特别厉害的结果都不好,都会选择结果都很小的宽高比

通过对这几个方法的实验结论来知道怎么选宽高比选择的方法

核心理念:

1、先把输入点变成密度场 2、将密度场直接基于高数中的积分公式将无数条线的积分转换场的积分

多类散点图怎样选择宽高比和颜色:

对于多类数据选择一个很好的颜色板, 然后把这个颜色板的颜色映射到每一类上去(多类的彩色化)

由于不同搭配出的效果不同,哪个颜色对应哪个类,任务是将这个区分开,怎样找他的搭配关系?

通过对一些心理的研究:

1、让相邻的类之间的颜色跟周围的差异比较大,跟背景的颜色对比度比较大

定义差异度比较大时用到了目前已有的CIE Color Difference来定义颜色上的差异度、Geometry-based Class Separation来定义空间上的差异度

做出的自动配色的网站:http://www.color-assignment.net/

最后,汪老师还对他们在其他可视化方面做的工作做了简单介绍:

文本可视化:词云 怎样让语意支持词云的编辑 让人知道你编辑的东西和自动补齐  www.edwordle.net

IGAL九期班学习笔记-汪云海相关推荐

  1. IGAL九期班学习笔记-赵健

    本篇博客用于总结2018年IGAL九期班赵健老师做的报告,赵健老师的报告分为上午和下午两堂.主要介绍了他们团队利用可视化来解决人员相互沟通交流的问题和设计出的软件,这不仅为我们的研究方向提供了思路也为 ...

  2. IGAL九期班学习笔记-Ivan

    本篇博客用于总结2018年可视化与可视分析课程中,沙特阿拉伯阿卜杜拉国王科技大学的Ivan Viola教授关于全细胞可视化与建模的报告学习笔记.通过Ivan教授的讲解我们了解到生物医疗数据的可视化的主 ...

  3. 暑期百度培训CV班学习笔记

    暑期百度培训CV班学习笔记 1.飞桨+python3安装https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_Ub ...

  4. 软件测试-柠檬班python全栈自动化50期测试学习笔记分享

    数组(1174536086)←v是有序的元素序列.用于差异数组的各个元素的数字编号称为下标.若将有限个类型相同的变量的集结命名,那么这个名称为数组名.数组是一个固定长度的存储相同数据类型的数据结构,数 ...

  5. (转载)机器学习知识点(二十九)LDA入门级学习笔记

    入门级学习笔记 1.1文本建模相关 统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大.这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的. 建模的目标 ...

  6. 小码哥底层班学习笔记大纲

    iOS 逆向学习笔记 day1 使用 ssh 远程登录到手机上 day2 使用 usbmuxd 通过端口映射连接到手机上(多个端口映射可用" " 分隔) 使用 sh 脚本在终端执行 ...

  7. 【MindStudio训练营第一期】【昇腾AI训练营新手班学习笔记】开发环境配置

    准备 购买云服务器,安装提供的镜像 华为云:https://www.huaweicloud.com 下载MindStudio(windows),安装 MindStuidio下载页: https://w ...

  8. 第六十九期:【学习分享】温水里的程序员,技术将成为温水

    张泰峰 7月7日 七月,炎炎的夏日,疯狂的暴雨不分昼夜,侵袭着这座城.早上七点,我骑着摩拜单车出发去往地铁站,誓死如归一般的,挤进地铁.像往常一样,骑车.挤地铁.打卡上班. 相信大家都跟我一样,未来的 ...

  9. 浪晋的测试小讲堂萌芽计划第二期视频学习笔记

    学习测试ing 按照知乎: https://zhuanlan.zhihu.com/p/32505591 上面提供的B站课程整理笔记 视频链接如下: https://www.bilibili.com/v ...

最新文章

  1. UUID正在被NanoID取代?
  2. Navicat客户端PostgreSQL连接报错:Could not connect to server:Connection refused(0x00002740/10061)
  3. 《数学之美》第17章 由电视剧《暗算》所想到的—谈谈密码学的数学原理
  4. boost::boykov_kolmogorov_max_flow用法的测试程序
  5. ASP.NET MVC经典项目ProDinner项目解析(3)
  6. C# VS2012操作word文档 (二).插入表格图片
  7. 大厂门槛:技术力+领导力,你达标了吗?
  8. .NET Core 如何判断程序是否在远程桌面(RDP)下运行
  9. 全开源新淘商城系统源码
  10. 深度学习(6) - 循环神经网络
  11. .html与.htm为网页后缀的区别
  12. 第二期: 如何搭建 多用户的平台?(未完)
  13. (王道408考研操作系统)第一章计算机系统概述-第一节1、2:操作系统概念、概念和特征
  14. python手写lfw数据集转pair.txt形式
  15. APP在线制作平台,手机应用,手机App开发,手机客户端开发
  16. 删除+mysql+用户密码_误删除mysql中的所用用户,如何重新设置root账号和密码
  17. Opensource.com的领导层和社区是什么样的
  18. 方程的近似解c语言程序,C语言实现二分法(方程近似解)
  19. 李敖北大清华和复旦演讲
  20. 高斯分布的点落入心形曲线的一个解决方案

热门文章

  1. 为什么我的 Wireshark 抓不到/抓不全 HTTP 数据包 ?
  2. Redis几种集群模式
  3. Raket分析(一)
  4. 大一学计算机心得,大一计算机学习心得范文
  5. 百度url参数分别代表什么意思?
  6. SAP MDG —— 接口技术:数据分发和读取 (BP)
  7. 【linux】持续集成与持续发布CICD
  8. corejava_day1
  9. 1、会计的概念、职能和目标
  10. Linux Team