作者:Matthew Mayo  翻译:冯羽  校对:陈雨琳

本文长度约为2500字,建议阅读5分钟

本文介绍了数据科学家应该避免的五种统计陷阱。

标签:偏见,谬误,辛普森悖论,统计

这篇文章讲了五种统计谬误,也可以称为数据陷阱,数据科学家应该重视并绝对避免它们。谬误就是我们所说的错误推理的结果。统计谬误是统计误用的一种形式,其统计推理能力极差;或许你拥有的数据正确,但无论你的意图多么纯粹,你所使用的方法和解释都不正确。因此,你基于这些错误举动做出的任何决定都必然是错误的。

有无数种基于数据进行错误推理的方法,其中某些方法比其他方法错得更加明显。由于人们一直犯这类错误,许多统计谬论已经被识别并被解释。好消息是,一旦识别并研究了它们,我们就可以避免它们。让我们看看其中一些相对更常见的谬误,看看如何避免它们。

当误用统计是无意的,这个过程类似于认知偏见,维基百科将其定义为“以特定方式进行思考的倾向,可能导致系统性地偏离理性或良好判断标准”。前者建立在数据之上不正确的推理和对数据进行显式和主动的分析,而后者则更隐式和被动地达到了类似的结果。但是,这并不是绝对的,因为这两种现象之间肯定存在重叠。最终结果是相同的:错误。

这里有五个统计谬误,或者称之为陷阱,数据科学家应该重视并绝对避免它们。做不到这一点对数据结果和数据科学家的信誉的打击都是灾难性的。

1、挑选樱桃

为了说明统计谬误多么明显和简单,让我们从每个人都应该知道的经典谬论开始:挑选樱桃。我们可以将其归类为其他容易识别的谬误,例如“赌徒谬误”“虚假因果关系”“偏见抽样”“过度概括”等等。

挑选樱桃的想法很简单,你之前肯定已经做过这样的事情:有意选择那些有助于支持你的假设的数据点,而牺牲其他不支持你的假设或积极反对你的假设的数据点。你听过政客讲话吗?那么你一定会听到“挑选樱桃”。另外,如果你是一个活生生的呼吸的人类,那么在生命中的某个时刻你已经选择了挑选樱桃的数据。你知道你有这么做过。它往往很诱人,是一种很容易获得的成果,可以在辩论中赢得或混淆对手,或者以反对的观点为代价来帮助推动议程。

为什么不好?因为这是不诚实的,这就是原因。如果数据是事实,并且使用统计工具分析数据将有助于发掘事实,那么“挑选樱桃”就是寻求事实的对立面。不要这样做。

2、麦克纳马拉谬误

麦克纳马拉谬误以美国前国防部部长罗伯特·麦克纳马拉的名字命名,在越南战争期间,他的有关决定基于那些很容易获得的定量度量,而忽略其他定量度量。这导致他将个体计数(容易获得的指标)作为成功的唯一指标,而以其他所有定量指标为代价。

不用花很多脑力,你就会发现,简单的个体计数很可能使你在评估战场表现时误入歧途。举一个简单的例子,也许敌人正以不成比例的战斗人员进入你的领土,并控制领土,但阵亡人数比己方略多。另外,也许敌人比例囚禁你的战士的比例高于你杀死敌人的比例,等等。

增加统计盲点并把所有信任放在一个简单的度量上,不足以全面了解越南正在发生的事情,也无法全面了解你所做的事情。

3、眼镜蛇效应

眼镜蛇效应被认为是一个问题解决方案的意外后果,但这反而使问题变得更糟。该名称来自在英国殖民统治下发生在印度的这一现象的特定实例,其中包括,你肯定猜到了,眼镜蛇。

维基百科页面上有一些眼镜蛇效应的例子,我最喜欢的是在1980年代末尝试减少墨西哥城污染物的例子。政府打算根据车牌的最后一位数字,将特定周内可行驶的车辆数量限制为20%,以减少车辆的排放。为了规避这项政策,该市居民购买了其他带有不同车牌的车辆,以期在禁止其主要车辆使用之日起能够驾驶其他允许的驾驶车辆。这导致相对便宜的汽车泛滥成灾,最终使污染问题恶化。

鉴于意外后果的性质是潜在的,并且很难预测,因此这比挑选樱桃要难应对得多。团队采用数据科学方法,以及更多人员带来额外思考过程,是对抗眼镜蛇效应的好方法。

4、辛普森悖论

这种悖论以英国统计学家爱德华·辛普森命名(尽管先前已被其他人识别),是指观察到数据集子集中的某些趋势,但这些趋势随着子集的合并就消失了。从这个意义上讲,可以将其视为无意中的挑选樱桃。棒球的例子可以帮助说明这种悖论。

如果我们比较两位职业球手在他们整个职业生涯的平均击球率,你可能会发现在某些年份子集,球员A的击球平均值高于球员B,甚至可能更高。但是,完全有可能的是,在整个职业生涯查看击球平均数,球员B实际上比球员A拥有更高的击球平均数,甚至可能更高。

如果你提前知道这一点,并有选择地选择了X,Y和Z年份作为A是更好球员的证据,那就是挑选樱桃。如果你不了解聚合统计信息,但偶然碰到了那些孤立的年份,并把它们作为整个职业生涯的代表,但是(希望)在查看了全部统计信息后发现了另外的情况,那将是辛普森悖论的一个例子。

两种情况都导致错误的结果,其中一种是导致错误理解的更无辜的方式。不过,这仍然是错误的,应该加以防范。全面的统计分析应成为数据科学家的工作方案的一部分,并且是确保你不屈服于这种现象的一种有效方法。

5、数据疏浚

数据疏浚还有其他更加不好的名字,例如 p-hacking,它是“误用数据分析以查找数据中具有统计学意义的模式,而这些模式实际上没有任何真实潜在影响。” 这相当于对数据进行广泛的统计测试,并从重大结果中挑选樱桃,以提高叙事效果(真正的挑选樱桃?)。虽然统计分析应该从假设转移到检验,但数据疏浚利用统计检验的结果强制获得一个一致的假设。这相当于“我认为是这样,现在我将测试我是否正确”与“让我们看看数据可以通过测试说出什么,然后提出一个有助于支持这个结果的想法”之差。

但是为什么这样做是错的呢?为什么我们要首先形成假设然后进行检验,而不是仅仅让数据决定我们从未想到要寻找的发现呢?有了足够的数据和足够的变量,我们就可以测试相关性,不需要很长时间我们就可以发现足够多的显著的个体组合。如果我们忽略所有反事实证据,而将注意力集中在这些一致的测试结果上,那么似乎那里确实有东西,而实际上却没有。它们只是偶然出现的结果。抓住机会并证明机会的合理性显然不是科学应有的意义。

对于相关概念以及“机会确定线”的确定方法,请参阅Bonferroni校正。

Bonferroni校正

https://en.wikipedia.org/wiki/Bonferroni_correction

原文标题:

5 Statistical Traps Data Scientists Should Avoid

原文链接:

https://www.kdnuggets.com/2019/10/statistical-traps-data-scientists-avoid.html

译者简介:冯羽,算法工程师。负责设计个人或企业信用风险评估算法、市场风险评估算法、仿真优化算法等。数据派志愿者。

END


转自:数据派THU 公众号

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

推荐 :数据科学家应该避免的5种统计陷阱相关推荐

  1. 独家 | 数据科学家应该避免的5种统计陷阱(附链接)

    作者:Matthew Mayo 翻译:冯羽 校对:陈雨琳 本文长度约为2500字,建议阅读5分钟 本文介绍了数据科学家应该避免的五种统计陷阱. 标签:偏见,谬误,辛普森悖论,统计 这篇文章讲了五种统计 ...

  2. python 欠采样_数据科学家需要了解的 5 种采样方法

    雷锋网 AI 科技评论按,采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家需要了解的 5 种采样方法,雷锋网 AI 科技评论编译 ...

  3. 数据科学家需要掌握的10项统计技术,快来测一测吧

    摘要: 本文给出了数据科学应用中的十项统计学习知识点,相信会对数据科学家有一定的帮助. 无论你是不是一名数据科学家,都不能忽视数据的重要性.数据科学家的职责就是分析.组织并利用这些数据.随着机器学习技 ...

  4. 数据科学家需要知道的5种图算法

    作者:Rahul Agarwal 编译:ronghuaiyang 来源 | AI公园(ID:AI_Paradise) [导读]因为图分析是数据科学家的未来. 作为数据科学家,我们对pandas.SQL ...

  5. dijkstra算法代码_数据科学家需要知道的5种图算法(附代码)

    在本文中,我将讨论一些你应该知道的最重要的图算法,以及如何使用Python实现它们. 作者:AI公园 导读 因为图分析是数据科学家的未来. 作为数据科学家,我们对pandas.SQL或任何其他关系数据 ...

  6. 「数据科学家」必备的10种机器学习算法

    来源 | 雷克世界(ID:raicworld) 编译 | 嗯~是阿童木呀.KABUDA.EVA 可以说,机器学习从业者都是个性迥异的.虽然其中一些人会说"我是X方面的专家,X可以在任何类型的 ...

  7. 数据科学家最常用的10种算法

    最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的 ...

  8. 想要成为数据科学家?知道这11种机器学习算法吗?

    摘要: 想要成为数据科学家?知道这十几种机器学习算法吗?赶快来了解一下吧,文中附各种算法的资源地址! 机器学习从业者都有不同的个性,虽然其中一些人会说"我是X方面的专家,X可以训练任何类型的 ...

  9. 数据科学家应该掌握的12种机器学习算法

    算法已经成为我们日常生活的一个重要组成部分,它们几乎出现在商业的任何领域.调查公司 Gartner 称这种现象为「算法化商业」,算法化商业正在改变我们经营和管理公司(应有的)的方式.现在,你可以在「算 ...

最新文章

  1. 养娃时做过的蠢事,程序员必看!
  2. ElementUI中使用el-time-picker向SpringBoot传输24小时制时间参数以及数据库中怎样存储
  3. Python 学习之列表
  4. SQL Server远程部署
  5. SAP Spartacus 电商云 UI Shipping Method 在单元测试环境下没有显示的问题
  6. Zabbix server is not running
  7. mysql颠覆实战笔记(五)--商品系统设计(二):定时更新商品总点击量
  8. 为什么以太网中需要 最小帧
  9. java设计模式懒汉_JAVA设计模式之懒汉式
  10. 《失败不是成功之母》阅读理解
  11. 路由器常见故障排除及解决方法!
  12. Ubuntu18.04 一条命令安装VLC视频播放器 可倍速播放
  13. 海康威视SDKjava二次开发身份证人脸识别
  14. C4D教程大纲(R23)+笔记
  15. 注册公司的基本流程 version_1.0
  16. 少儿编程中项目式学习的创造性
  17. numpy-repeat
  18. ArcGIS教程:欧氏距离 (空间分析)
  19. Winform 通用遮罩层
  20. 元数据管理的核心功能及使用?

热门文章

  1. 宝锋UV-5R说明书下载
  2. 彻底解决第三方分享icon过大的问题
  3. 2020中国高校计算机大赛——华为云大数据挑战赛比赛总结
  4. 鸟哥的Linux私房菜——第二部分|第8章 Linux磁盘与文件系统管理
  5. 第6章 计算机的运算方法
  6. Linux根目录文件系统变为Read Only解决方案
  7. centos环境:Do not run Composer as root/super user的解决办法。
  8. 韩语学习小技巧:怎样快速记单词
  9. 从前端Vue/Axios到后端交互--浅谈Vue生命周期、Ajax调用
  10. MySQL表结构设计