第三部分大数据:请小心轻放

第七章 大数据,大框架?其力有何不能胜

新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。

这一章是关于大数据的局限性的——我们无法运用大数据做到的事,有时还包括我们不该运用大数据去做的事。

在第3章中,我们注意到,当一个特定领域的现有研究还不够深入的时候,新数据很可能会带来巨大的回报。

维度的诅咒是大数据的一个主要问题,因为新的数据集经常会给我们带来比传统数据源更多的变量——每一个搜索词、每一种推文等。无论何时,只要拥有多个变量(或者说“维度”,在这个例子中就是1 000个硬币)又无须做太多观察(在这个例子中就是两年中的504个交易日),这个方法就有可能奏效,其中一个维度(在这个例子中是391号硬币)可能就很幸运。可如果减少变量的数量(仅抛100枚硬币),其中一个变量成为幸运币的可能性就要小很多,再增加观察的数量(尝试预测标准普尔指数20年的走势),那硬币是根本无法胜任这项工作的。

来自印第安纳大学和曼彻斯特大学的一组计算机科学家声称,他们可以根据人们发推文的内容来预测市场的走向。他们建立了一种算法,根据推文将全世界每天的情绪进行了编码。他们发现,诸如“我很平静”这类表示冷静的推文,预示着道琼斯工业平均指数有可能在六天后上涨。根本问题是他们测试了太多东西。如果你测试的事物足够多,就算出于偶然,其中一个事物也会有重大的统计学意义。

事实上,这也一直是遗传学和智商研究的一般模式。科学家先是报告称,他们已经发现了预测智商的基因变体;然后,他们又得到新的数据,发现自己原来的说法是错误的。如果你测试了足够多的推文,想验证它们是否与股票市场相关,那么你会偶然发现其中一篇恰好相关。如果你测试了足够多的基因变体,想验证它们是否与智商相关,你也会偶然发现其中某种基因恰好相关。

如何才能克服维度的诅咒呢?你必须对自己的工作保持谦虚谨慎的态度,而不是一味关注结果,难以旁顾。**你必须通过附加测试检验这些结果。**你尝试的变量越多,样本外测试就越困难。跟踪记录尝试过的每一个测试也是至关重要的。如此一来,你便可以确切地知道自己成为诅咒受害者的可能性有多大,知道对自己的研究结果应该持什么样的质疑态度。

数字可能极具诱惑力,我们可能会越来越依赖它们,也会因此忽略很多更重要的考量因素。
看看21世纪的美国学校吧,他们看重学生的考试成绩,并根据学生的分数来评判教师。**虽然对课堂教学活动采取更客观的评价措施的愿望是合理的,但教学过程中的许多瞬间是无法以数字的形式轻易捕捉到的。**而且,所有这些测试都迫使许多教师进行应试教学,甚至还有更糟的事情发生。布赖恩·雅各布(Brian Jacob)和史蒂芬·列维特曾在一篇论文中证明:有一小部分人在管理这些测试的过程中根本就是在弄虚作假!这个问题在于:我们可以测量的东西往往不是我们真正关心的事情。我们可以估量学生在多项选择题上的表现,却不能轻易评判其批判性思维、好奇心或个性发展。只是试图增加一个单一的、易于衡量的数字,比如测试得分或一天中走路的步数,并非总是有助于实现我们真正想要实现的目标。
或者再看看20世纪90年代棒球的数据革命吧。当时许多团队开始使用越来越复杂的统计数据,而不是依靠传统的人类球探来做决定。进攻和投球估量起来容易,防守可就难了,所以一些球队最终输在了低估防守的重要性上。
其解决方案并非总是更大的数据。为了让大数据充分发挥其作用,有一种特殊的调味剂通常是必不可少的:对人类和小型调查的判断,我们可以称之为小数据。

实际上,由于需要小数据作为其主体部分(巨大的点击量、点赞数和发帖量)的补充,脸谱网的数据团队看起来可能和你猜想的不一样。脸谱网雇用社会心理学家、人类学家和社会学家正是为了找到数字错过的东西。
一些教育工作者也越来越关注大数据的盲点,他们正在举全国之力不断以小数据来填补质量测试的不足。对学生的调查增加了,对家长的调查增加了,对教师的观测也越来越多,会请有经验的教师旁听,在课堂中观察一个教师的表现。
我预测,大数据的革新将会带来一场革命,但这并不意味着我们可以用数据解决一切问题。大数据无法消除千年来人类探索出来的认识这个世界的所有方法,它们互为补足。

第八章 数据越多,问题越多?哪些事情不可为

有时候,大数据的力量之所以令人瞩目,是因为这些数据令人不寒而栗。这就引发了一些道德问题。

这些学者利用来自P2P(个人对个人)贷款网站Prosper的数据。潜在的借款人会写一个简要介绍,说明为什么他们需要贷款,以及为什么他们可以如期还款,潜在的贷款人据此决定是否为他们提供贷款。总体来看,大约有13%的借款人拖欠过贷款。事实证明,潜在借款人说的话是他们偿还概率强有力的预测指标。即使贷款人了解了潜在借款人的其他相关信息,包括信用评级和收入,他们的措辞也是一个重要的指标。总而言之,根据这些研究人员的研究,一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。
这就是那个道德问题:企业是否有权根据与其提供的服务不直接相关的抽象统计学预测标准来判断人们是否可以享受其服务呢

其中一些相关性可能是源于维度的诅咒。如果你测试了足够多的东西,一些东西便会随机地联系起来,但一些兴趣可能与智商正相关。
更好的数据也可能导致另一种形式的歧视,经济学家称之为价格歧视。企业常试图确定应该为其商品或服务收取多少费用,理想情况下,他们希望收取客户愿意支付的最大费用。这样,他们就能获得最大的利润。
大多数企业最终都会选择一个所有人都愿意支付的价格,不过他们有时候会意识到某个特定群体的人平均会支付更高的价格。这就是电影院对中年顾客(依据其赚钱能力)收取的费用要比学生或老年人高,航空公司常向最后时刻购票者收取更多费用的原因。这就是看人定价格。
大数据可以让企业更准确地了解顾客愿意支付多少钱,进而哄骗某些群体。我们有权利担心在线数据越来越好用会让赌场、保险公司、贷款机构和其他企业实体对我们施加更大的影响。

另外,大数据也能让消费者对那些收取过高费用或提供劣质产品的企业进行有力的回击。消费者的一个重要武器就是点评网站

换句话说,互联网数据可以告诉企业应避开哪些顾客,又应该剥削哪些顾客;也可以告诉顾客他们应跳过哪些企业,又是哪些企业在试图剥削他们。迄今为止,大数据推动了消费者和企业之间的斗争,但我们必须确保这一斗争公平。

越来越多的证据表明与犯罪活动有关的谷歌搜索确实和犯罪活动有着千丝万缕的关系。
我们可以利用地区层面的数据来分配资源。如果一座城市的自杀相关搜索量激增,我们就可以提高这个城市的自杀预防意识。但是,我们应该非常不情愿走到这一步:在犯罪行为发生之前就追究个人的责任。然而,谨慎使用个人数据的理由甚至是超出道德层面的,还有一个数据理由。从试图预测一座城市的行为到试图预测一个人的行为,对数据学家来说是一个巨大的难题。
然而,总的来说,我们必须非常谨慎地使用搜索数据来预测个人层面的犯罪。数据清楚地告诉我们,虽然有很多可怕的搜索,但很少会有此类行为发生。迄今为止,还没有任何证据表明,政府可以通过检查这些搜索预测到十分可怕且发生率极高的行动。所以,在政府依靠数据干预个人犯罪层面,我们务必要小心谨慎。这不仅仅是出于道德或法律的原因,至少目前来说这也是出于数据科学的原因。

后记

波普尔认为,任何社会科学家都是不够科学的。波普尔认为这些所谓的科学家的工作并不严谨。物理学家可以利用严谨的实验找出物理世界的运行方式,相反,许多人认为经济学家、社会学家和心理学家是“软科学家”,只需抛出一些毫无意义的术语便可获得终身职位。

过去,这话在很大程度上是真的,但是,大数据革命改变了这一点。**我们可以称之为大规模科学,即采取一种简单的方法,利用大数据在短时间内进行数百次分析。**毫无疑问,社会科学和行为科学的规模一定会扩大。还有一种手段也有助于这两门科学扩大规模:A/B测试。我们讨论了在企业让用户点击标题和广告的情况下进行的A/B测试,这一直是该方法的主要用途。相比让人们点击广告的箭头,A/B测试还可以用于发现更基本、更有社会价值的东西。
文本数据可以教给我们更多东西。想法如何传播?新词如何产生?单词如何消失?笑话如何形成?为何有些话很好笑,其他话则不好笑?方言如何发展?我敢打赌,20年内,我们一定会对这些问题有深刻见解。

《人人都在说谎:赤裸裸的数据真相》读书笔记3相关推荐

  1. 《人人都是产品经理》第四章读书笔记及读后感作文2400字

    <人人都是产品经理>第四章读书笔记及读后感作文2400字: 最近一直在忙别的学习,以至于好久没有更新公众号了,也好久没有写读书笔记了.<人人都是产品经理>这本书其实早在一个月前 ...

  2. 《营销5.0后互联网时代的企业战略营销》读书笔记

    文章目录 前言 营销 1.0 到营销 5.0 的发展路径 CIDR 模型 小结 前言 怀着对"营销"继续探索的心情,今年3月份完成了<营销5.0>的阅读,读本书的初衷是 ...

  3. 《互联网+:小米案例版》的读书笔记

    读书笔记 摘自<互联网+:小米案例版刘润> 互联网+:小米案例版刘润 序篇 创业方法论之变 雷军反复强调的"顺势而为",以及"站对了风口,猪都能飞起来&quo ...

  4. 互联网产品经理(PM)的工作内容和职责

    互联网产品经理的角色和职责在不同的互联网公司会存在一定差异,但是一些关键职责是任何一个产品经理都应承担的,下面我们按照产品阶段将互联网产品经理的职责整理为一下五个方面: 一.市场调研及用户研究 即研究 ...

  5. 一组漫画告诉你,互联网产品经理是什么概念

    一.什么是产品经理 1. 1 什么是产品 产品是满足用户需求,被使用和消费的任何东西.包括有形的物品和无形的服务. 在了解产品经理之前,先来了解一下什么是产品.产品充斥在我们生活中的方方面面.鞋子.手 ...

  6. 《修炼之道:互联网产品从设计到运营》荣获“2012最受读者喜爱的IT人文类图书奖”!

    <修炼之道:互联网产品从设计到运营>获得51CTO 主办的"2012最受读者喜爱的IT人文类图书奖",http://t.cn/zjjaXNo! 如何在寸土寸金的首页上使 ...

  7. 互联网产品的交互设计方法

    目前交互设计在互联网产品中的应用状况 "交互设计可以提高产品可用性."在国内的互联网行业中,建立在这个认识基础上,交互设计得到了普遍的接受."产品设计开始的时候应该先交互 ...

  8. 为什么互联网能创造商业奇迹——我的互联网产品观

    作者   网易·崔晓宇 互联网的出现突破了时间.地域的局限性,它使信息可以更快的速度传播到更广的范围,从时间和空间维度上看形成了真正的信息流.高效的流动让信息与生俱来的价值属性得以提升.我认为信息已经 ...

  9. 互联网产品的定义及分类

    产品类型 产品是指能够提供给市场,被人们使用和消费,并能满足人们某种需求的任何东西,包括有形的物品.无形的服务.组织.观念或它们的组合.产品一般可以分为三个层次,即核心产品.形式产品.延伸产品.核心产 ...

  10. 怎么做好互联网产品运营?

    怎么做好互联网产品运营? 一.什么是运营? 从广义的角度上说,一切围绕着网站产品进行的人工干预都叫运营.所以某种程度上,我认为互联网产品公司只有3个业务部门:产品,技术,运营. 产品运营这个概念就=运 ...

最新文章

  1. 2022年跨境电商新玩法:Tik Tok私域流量沉淀+电商平台流量承接
  2. MongoDB——Shell的基本操作及使用窍门
  3. 【数据结构与算法】之深入解析“下一个更大元素III”的求解思路与算法示例
  4. 谁是最好的Coder
  5. 消息 245,级别 16,状态 1,第 1 行 在将 varchar 值 '2,8' 转换成数据类型 int 时失败。...
  6. alot英文怎么读_很多的英文怎么说
  7. LeetCode-Largest Rectangle in Histogram
  8. 35岁真的是职场分水岭吗?
  9. MySQL数据库MyISAM和InnoDB存储引擎的比较
  10. 波长缩短系数matlab,波长缩短效应,天线缩短系数:天线末端效应、相位常数
  11. ai自动生成字幕软件有哪些?自动生成字幕软件推荐!
  12. openwrt使用tayga/totd实现NAT64/DNS64
  13. 数据分析师职业分析报告
  14. 基于GSM远程短信防盗报警系统
  15. 笑是理想的热情与态度
  16. Ninth season sixteenth episode,Monica is gonna do a boob job???bigger?????
  17. Hive基础学习文档和入门教程
  18. 「数据架构」介绍下一代主数据管理(MDM)
  19. Python学习摘录(自用)
  20. 【考研经验】中国科学技术大学软件学院考研经历及复试回忆

热门文章

  1. Differential Privacy and Fairness in Decisions and Learning Tasks: A Survey
  2. 【Matlab绘图进阶第1弹】Matlab绘制高颜值箱式图
  3. 关于微服务,这些你都了解吗-微服务介绍
  4. 电脑显示正在进行自动修复此计算机,win10系统开机一直显示“正在准备自动修复”无法启动的解决方法...
  5. 斐波那契数列----有一段楼梯有n级台阶,规定每一步只能跨一级或两级,要登上第n级台阶有几种不同的走法?...
  6. windows10桌面_Windows 10自带桌面快捷方式管理工具!非常方便值得一试
  7. (PTA)英文字母替换加密(大小写转换+后移1位)python
  8. ng-alain 与 .net core 搭配
  9. 通信错误7android,【07-25水贴】帮我帮下怎么解决刷机错误代码7
  10. 06-JAVA面试核心知识点整理(时间较多的同学全面复习)