全世界90%的数据都是最近几年生成的,人们对这个结论可能已经耳熟能详。尽管我能找到的这个说法的最早出处是在2013年5月,但是,这种趋势却始终未曾发生变化。事实上,过去30年间,每隔两年,全球总数据量就会增长大约10倍——这让计算机行业的摩尔定律相形见绌。

信息爆炸所带来的问题之一在于,即便和不久之前相比,当前的信息量规模都会大到不可思议的程度。假如有一本信息影集代表了你从婴儿到成年的前18年人生,并且照片数量的增长速度和全球数据量保持一致,如果头两年你只有两张照片,那么从6岁到8岁的两年间你就会有两千张照片,从10岁到12岁有20万张,从16岁到18岁则有惊人的2亿张,这意味着在16-18岁期间你每秒钟就会拍3张照片。

当你回过头去以更长远的眼光来看待事物时,你会发现,你有太多太多近期的的事件,而较早的数据和事件是那么的稀少。

当然,全球数据不能这样简单类比。全球数据增长的主要原因在于更多的人口产生了更多信息源,以及更大的和更复杂详细的信息结构。然而,如果试图回顾或分析与上文所述影集类似的历史记录,你会发现一个相同点,越遥远的历史所留下的信息和记录就会越稀少。怎么会发生这种事情呢?

这就是目前大数据采集分析中存在的一项弊端。无论你在哪一个时间点开始回顾历史,都会遇到同一个麻烦:近期数据的数量远远超过远期历史数据,由此,这个分析系统会过度重视短期趋势而忽略长期趋势,从而受到短视的困扰。

为了理解这个问题的重要性,需要考虑社会科学中有关“近因偏差”(recency bias,又称近因效应)的研究发现。近因偏差是指:人们在判断事物发展趋势时,会认为未来事件将会和近期体验高度类似。这可以说是某种“可利用性法则”(availability heuristic)——不恰当地以最容易认知的信息来作为思考的基础。这还是一种普遍的心理学特征。

举例来说,如果在你居住的地方,过去几年的夏季气温都很低,那么你可能会认为夏季气候正在变得更冷——或者说你当地的气候正在变冷。但是,你不应该只根据少量数据分析长期趋势。你需要有一个长远视角,才能认识真正有意义的气候趋势。短时期内,最好不进行任何猜测。不过,我们之中又有谁能真正做到这点呢?

短期分析不仅不扎实、毫无益处,还会产生误导

现实生活中大部分复杂事物的现象正是如此:股票市场、经济发展、企业的成功与失败、战争与和平、国家关系、帝国的崛起和衰落等等。短期分析不仅不扎实、毫无益处,还会产生误导。回头看看,就在2009年全球金融危机袭来的时候,还有那么多经济学家信誓旦旦地宣称这一事件不会发生。认为根据那种短期时间尺度的数据就能做出扎实的预测,这种想法本身就有很大的问题。

我们还应当记住,在决定哪些数据该保存还是删除的时候,新颖性往往会成为主要的考虑因素。旧的淘汰,新的进来,在这个搜索算法本质上偏向于新鲜事物的数字世界中,这是一个明显的趋势。从最高法院的裁决,到所有社交媒体服务平台,我们到处都可以看到已经失效的网址。我们身边的几乎所有技术都偏向于当前信息,人也一样:大多数人已经习惯用个四五年就把原本光鲜亮丽的设备丢掉。

怎么办?这个问题已经不仅仅在于如何更好保存旧数据的范畴——尽管这并不是个坏主意,想想我们现在还有什么东西能流行保留10年之久。更重要的是,这个问题关系到确定哪些东西值得优先保存,以及如何在知识的名义下,选择哪些信息最有意义

或许我们需要的是我所称之为的“智能性遗忘”:应该让我们的工具更多地放弃最近的信息,从而在长远视角上保持更高水平的连续性。这有点象是以数学方法重新整理一本影集。什么时候两百万张照片的价值比两千张照片更低?什么时候较大的样本量覆盖范围反而较小?哪些问题的重要性较低?哪个细节水平能提供有用的质疑证据,而不是虚假的信心?

许多数据集是无法缩减的,只有在完整的情况下才最宝贵,比如,基因序列、人口统计学数据、地理和物理学的原始观测数据等等。数据的科学性越弱,数据规模与数据的质量就越可能呈现负相关,此时时间本身就成为更加重要的过滤工具。我们如果不仔细选择过去保存下来的有价值、有意义的事物,它们就会被迅速膨胀的信息洪流悄无声息地吞没掉。

能否考察长期历史遗留下来的数据取决于考察者是否有足够的时间和注意力。今天的企业、个人和政府机构都能够获得比以往(甚至就在几年前)大许多数量级的数据,但是董事会成员、首席执行官、政府官员等决策者却没有足够时间和注意力来应对这些数据。

今天的决策者们有越来越高效的工具帮助他们就所持有的数据提出问题——但你只应该分析有意义的数据。单纯的数量累积不是一个好的对策。在一个数据量越来越大的时代,如何选择主动放弃哪些事情,与选择做什么事情一样重要。
本文转自d1net(转载)

大数据的“近因偏差”烦恼相关推荐

  1. 郑州医疗卫生服务迈入大数据时代

    打开手机A PP移动门户网"掌上郑医",或者通过扫描A PP二维码,你就可在郑州大学附属郑州中心医院网上进行手机挂号.预约名医.取报告单的操作,并可与医生进行顺畅的在线交流.许多患 ...

  2. 坐标偏差大_大数据例析课堂师生交往行为的偏差与矫正

    本文发表于核心学术期刊<中学数学教学参考>2019年1~2期,作者徐青华老师,执教于昆明市昆明滇池中学. 摘要:"大数据"思维一个最突出的特点就是从传统的因果思维转向相 ...

  3. 程序员小sister的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)

    我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励. 2021年「博客之星」参赛博主:Maynor大数据 https://bbs.csdn.net/topics/60395 ...

  4. 【大数据】9大实战项目解决你所有烦恼(写论文、找工作)

    你还在为"网上资料多而杂,不系统,不连贯,非常浪费时间"而烦恼么? 你还在为"学习碰到问题无人辅导,问题积累长期不解决,打击学习信心"而烦恼么? 你还在为&qu ...

  5. 数据科学与大数据技术的案例_主数据科学案例研究,招聘经理的观点

    数据科学与大数据技术的案例 I've been in that situation where I got a bunch of data science case studies from diff ...

  6. 大数据从入门到就业的四个必备常识

    文章有点长,但是它包含了大数据从入门到就业讲解,耐心了解一下吧! 一.大数据分析的五个基本方面1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要 ...

  7. 史上最全的大数据入门手册!

    一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能 ...

  8. 怎样避免无意识偏见_精神病学意识到大数据和人工智能的价值和偏见

    怎样避免无意识偏见 Cure her of that! Canst thou not minister to a mind diseased, pluck from the memory a root ...

  9. 找实习的一些感悟(图像算法转大数据)——女孩也能干开发

    亲爱的读者,首先说明一下,本人虽然有很多原创文章,但大部分是学习总结及bug解决方法,值得看的文章已经置顶,当然你们也可以自己挑一挑.对于一个计算机行业的初生牛犊,可能我的学习经历及其他经历的分享才是 ...

最新文章

  1. 2020,人工智能和深度学习未来的五大趋势
  2. 【前端大概一分钟】css隐藏滚动条同时可以滚动
  3. 提防iostream使用中的一个“陷阱”
  4. AtCoder Regular Contest 092 Two Sequences AtCoder - 3943 (二进制+二分)
  5. android 拖动缩放窗口大小,Android小应用----图片的拖动、缩放
  6. Springboot自动配置原理入门
  7. python PEP 487
  8. 开课吧:C++STL常用remove算法有哪些?
  9. APS傻瓜教材读后感之为什么需要人机交互调度
  10. 怎么用手机测量CAD图纸中的立面面积?
  11. 永磁同步电机数学模型
  12. RocketMQ创建topic流程解析
  13. 蒙纳士大学提出高效建模高低频信息的LITv2,在性能、FLOPs、吞吐量和显存消耗方面均优于现有Transformer结构!...
  14. Python鼠标点击图片,获取点击点的像素坐标/像素值
  15. 【评测】如何用IPAD作为WIN10系统的拓展屏?
  16. 怎样更改计算机网络密码怎么办,wifi密码怎么改?
  17. 常见的挖矿程序处理方式
  18. 我国标准与国际标准的关系
  19. qt入门,最简单的qt程序
  20. python consul配置中心_微服务注册发现配置中心-consul

热门文章

  1. 黄聪:Microsoft Enterprise Library 5.0 系列教程(二) Cryptography Application Block (高级)
  2. ModelBasedCompressiveSensing
  3. Mac OS X工具:版本控制SVN
  4. 第五章:面向对象(上)
  5. php中count获取多维数组长度的方法
  6. SAP ECC 6.0 ,R3 windows server 2003 安装分享 自学教程
  7. 监控报警开发之zabbix语音电话报警方案联想
  8. 预告:2009年下半年软考试题及答案51CTO将实时发布
  9. ASP.NET Core 2 学习笔记(四)依赖注入
  10. ​DL_WITH_PY系统学习(第3章)