数理统计学是数据分析的基础理论,我们之前所有为数据分析所做的工作,比如梳理指标、筛选数据、可视化等等,都是为了我们能够更好地找到数据之间的关系,利用统计学原理对这些关系进行界定和联系。

但是在实际分析中,我们很可能会因为没有避开数理统计中常见的“坑”,造成我们最终分析结果与实际偏差很大, 我主要总结了三个方面:

  1. 错把数理关系当成因果关系
  2. 不同变量之间会存在悖论
  3. 数据统计有偏差

一、不要把数据统计关系当成因果关系

我们先看三个例子:

1、彩票悖论

首先根据假设检验,如果原假设概率非常小,就可以拒绝原假设。假设0.0001就是一个非常小的概率,组织一次公正的10000张彩票抽奖活动,按照之前的假设,1号彩票中奖的概率是0.0001,是要拒绝的,依次类推,我们可以拒绝所有的彩票,那么就没有彩票可中奖,但现实情况是总会有中奖的彩票,这是统计和逻辑不相符的一个例子。

2、无票入场者悖论

假设在一个有1000个座位的音乐厅举办一场音乐会,主办单位只售出了499张票,但当音乐会开始的时候,1000个坐席却都坐满了,这时主办单位有权向每个人收票钱,因为每个人无票入场的概率都是50.1%,这样音乐厅虽然只有1000个座位,却将会有1499张门票的收入,但实际情况并非如此。

3、生日悖论

先来看一个问题:如果一个班里有23个同学,那么他们当中至少有两个人生日相同的概率是多少?

按照常识我们会觉得这个概率应该挺小的,毕竟一年365天,23个人撞期,还是挺小的,然而结果却是50%,也就是说有50%的概率这23个人中有两个人生日相同。

这里的50%到底是什么意思呢,是说只要是一个班里有23个及以上的学生,就一定有一半的概率两个人同一天生日吗?

来,请回看我们这一节的标题:统计关系并不等于因果关系,这句话很重要,理解它更重要

上面3个例子说明了以概率为依据做决策是不合逻辑的,然而逻辑和统计本身却是大不相同,在逻辑上,一个命题只有对和错两种划分,而在统计上,却可以说成对的概率有50%,错的概率为20%,就是这一点不确定性造就了以逻辑推理和统计为基础所得决策上的不一致,或者说矛盾,这就是统计关系不等于因果关系。

在进行数据分析的时候,我们尤其要注意这个坑:比如当我们的数据显示肺癌的人80%都是因为抽烟时,我们就不能说所有抽烟的人都会导致肺癌。

二、变量关系存在的两个悖论

1、辛普森悖论

指当我们对两个变量进行分组研究时,在分组中都占优势的一方,在总评中反而成为失势的一方。

比较著名的当属1973年加利福尼亚大学伯克利分校性别歧视的例子,男生录取率为44%,女生录取率为35%,根据这个数据有人就觉得该校有性别歧视的倾向,但如果每个院系分开来看录取率的话,可以发现,A B D F四个院女生的录取率都高于男生。这个悖论告诉我们一个简单的统计数字不能完全描述其背后的复杂意义,和我们平时熟知的描述性统计分析有点矛盾哦,可以好好思索一下。

2、伯克森悖论

伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系

如假设某学生的文化成绩高那么他的体育成绩就不好,体育越好,文化成绩就越差,这好像也成为了我们平时的一个认知,班上的尖子生好像体育成绩都不怎么好,这种现象是怎么出现的呢?

假设学生要参加两种类型的考试,即文化和体育课,其中任何一种类型的考试达90分以上就可以毕业,那么毕业的学生要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。通常情况下正常人只需要选择一种类型的考试努力发挥到极致就好了,另一个没关系对吧,因此会呈现出学生的文化成绩和体育成绩是负相关的关系。

伯克森悖论还可以用来解释为什么很多人都存在帅哥都是渣男的印象,还有颜值超高的小鲜肉演员演技不忍直视,这些现象。

三、统计偏差造成数据分析失误

1、赌徒谬论

赌徒谬论是指,相信一个结果已经发生了,那么再发生的机会就会很低

比如一个赌徒在打赌硬币是正面朝上或是背面朝上时的情景,前面5次的结果都是正面朝上,那么下一次他觉得反面朝上的概率会更大,这就是赌徒谬论。为什么说是谬论呢?因为高中的时候我们就学过扔硬币这个问题的概率,每扔一次一枚硬币是一个独立的事件,正面朝上和反面朝上的概率相同都是0.5,不受前面扔了多少次的影响,也就是说虽然前面5次都是正常朝上,下一次仍是正面朝上的概率也还是0.5。

聊到这,可能有些人会不理解了,或者脑海里依稀记得好像老师讲过,扔一枚硬币扔个1000次,正面朝上和反面朝上的次数都是接近一半的呀,能想到这里的同学,恭喜你,已经入门了。

确实如此,但请看清楚前提:扔1000次,这就是大数定理,当我们大量重复某一相同实验时,最后的结果会稳定在某一数值附近,但把大量重复事件的规律运用在少数的事情上就错了

2、幸存者偏差

指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息

在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。

现实生活中也有很多幸存者偏差的案例,比如感觉周围都是本科以上的人,而实际上中国具备本科以上学历的人,只占总人口的3%。还有为什么感觉知乎上应届生人人都是月薪过万,因为你看到的都是月薪过万的人在答题,月薪低于1万的都处于沉默状态。

数据分析避坑必读:让人怀疑人生的七大悖论相关推荐

  1. 数据分析避坑指南-小白兔踩坑记

    从一开始的数据分析"小白兔",不断进坑.弹跳出坑,练就健壮有力的小腿,逐步变成一只拥有了防御能力.没有那么弱小的"小灰兔". 成长和职业发展的过程,就是进阶打怪 ...

  2. 路人实拍Waymo无人车:行为诡异,谨慎到让人怀疑人生

    原作:Robert Rapier 安妮 编译自 Forbes 量子位 出品 | 公众号 QbitAI 本文作者Robert Rapier,是一名能源行业的化学工程师.过去两年,Rapier一直在观察W ...

  3. 蒙奇奇深度学习第一课:Windows10安装pytorch和tensorflow(避坑必读,吐血整理)

    蒙奇奇经过一番折腾,终于成功安装了pytorch和tensorflow,踩了不少坑,但她都成功填上了哈哈.这是她的安装方法记录,没有放图,但是她描述的比较清楚,相信屏幕前的你可以看懂的嘻嘻.对了,看这 ...

  4. “万物就只是5万亿个参数”,AI模型GPT-3让人怀疑人生

    本文转自开源中国 这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 "继比特币之后又一个轰动全球 ...

  5. thread类 java_java入门避坑必读,通过Thread类创建java多线程

    欲善编程,多看.敲.讨论:动眼.手.大脑. 1 为什么要用多线程 平常我们做crud的时候,用到多线程的机会不多.但当我们要处理一些复杂的业务时,或者提高程序处理效率时,就绕不开多线程的使用.也有些时 ...

  6. GPT-3让人怀疑人生!惊艳了世界!道翰天琼认知智能机器人api接口平台为您解密!

    道翰天琼认知智能未来机器人接口API简介介绍认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解.存储.应用为研究方向,以感知信 ...

  7. 同宿舍的程序员毕业五年之女生篇:有人怀疑人生,有人考虑出家

    导读:在昨天的推送<同宿舍的程序员毕业五年后:有人年薪百万,有人月薪一万>中写了男生宿舍毕业五年的现状,而女生宿舍又如何呢? 作者:五五 来源:程序人生(ID:coder_life) 女程 ...

  8. 程序人生 - 维修手机如何避坑?

    #维修手机如何避坑# ?[#假官方手机维修店9元成本卖上千元# :10人被刑拘]10人团伙开手机维修"李鬼店",员工供述9元成本卖上千元.7月2日,据北京海淀警方,该团伙因涉诈骗罪 ...

  9. 到 Google 面试去!开发者必读的避坑指南

    Google 一直是许多开发者心驰神往的地方,本文作者分享了自己面试 Google 的经历,尽管面试挂掉了,但有一些避坑的技巧仍然值得我们学习. 作者 | sochix 译者 | 明明如月,责编 | ...

最新文章

  1. Lighttpd日志打印格式
  2. SPARK安装二:HADOOP集群部署
  3. php语录网站,杨泽业:给你的wordpress博客添加经典语录功能,适合所有php网站
  4. [坐标]关于坐标系和投影的相关知识探讨[转]
  5. 【配送路径规划】基于matlab遗传算法求解单配送中心多客户多车辆最短路径规划问题【含Matlab源码 1602期】
  6. 【Linux】如何在文件中写入感叹号
  7. 超微服务器怎么开虚拟化,amd服务器开启虚拟化(amd处理器开启虚拟化)
  8. Protobuf编码规则详解
  9. Visio应用视频教程(下)-游峰-专题视频课程
  10. 2. Hibernate目录结构和基础JAR包介绍
  11. OS + Unix FreeBSD / MacOSX Snow Leopard 10.6.3-8 / MacBook Pro / apple / MC373
  12. 《数值分析(原书第2版)》—— 2.2 LU分解
  13. VS封装并调用dll文件
  14. spark-env.sh配置——Spark学习日记
  15. 企业表格技术与风险指标补录系统
  16. 喜爱夜蒲3_百度百科
  17. 【移动开发作业5】近场通信的分析
  18. python多线程简单示例
  19. 电力通信实用小技巧,一看就懂!
  20. AI黑白照片上色系列-藏在英国伦敦图书馆黑白上色,从未发表的100多年前的中国影像

热门文章

  1. onnx格式转tensorRT
  2. Android数据存储——SharedPreferences
  3. sql server 外键_什么是SQL Server中的外键
  4. 如何在SQL Server 2016中使用并行插入以提高查询性能
  5. poi excel 导入导出
  6. Android 获取地理位置信息 封装好了 直接用
  7. Object-C 学习笔记(IOS程序设计课程)01
  8. 【翻译】Emmet(Zen Coding)官方文档 之七 一览表
  9. 更改数据库表中有数据的字段类型NUMERIC(18,2)为NUMERIC(18,6)
  10. [C11] 推荐系统(Recommender Systems)