数据分析中的两种偏差
总第171篇/张俊红
今天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差。
1.选择性偏差
选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,是由于人为主观的选择而导致的数据偏差。
我们来看一个关于选择性偏差的例子,现在有一个研究机构想要研究一个主题就是『医院是否可以让人变的更健康』。这个机构随机挑选了10万名群众,测量这10万名群众的健康水平,然后根据最近一年是否有去过医院将10万名群众分为两组,最后得到的统计结果是最近一年没去过医院的群体的健康水平要比去过医院的群体健康水平要好,我们能说明医院让人变的更加不健康吗?
这就是一个很典型的选择性偏差导致的一个结果,因为最近一年没去过医院的群体整体健康水平可能本来就要比去过的要好,所以测试出来的结果也是如此,并不能说明是医院让人的变得更加不健康。
我们在日常分析过程中要尽量避免这种偏差的发生,衡量有没有选择性偏差的一个很重要标准就是,被比较的两组群体之间是否具有可比性。
2.幸存者偏差
幸存者偏差指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
我们来看一个比较久远的一个例子,二战的时候美军为了加强战机的防护能力,所以就把参加过战斗的飞机研究了一遍,发现飞机的弹孔大多集中在机翼和尾部,于是分析中心的工作人员认为建议将这些受损最严重的地方加固。
统计学家亚伯拉罕·沃尔德(Abraham Wald)却得出一个跟直觉相反的结论。他发现参与调查的都是在战斗中幸存下来的飞机,它们并未遭受致命的袭击。相反,机舱和发动机等看似毫发无伤的地方反而比较危险,因为这些区域一旦被击中,就会导致飞机失事坠毁。其实我们看到的飞机是被筛选过后的飞机,还有一部分已经坠毁的飞机我们是看不到的,这就是幸存者偏差。
再比如经常会在脉脉、知乎这样的平台上看到,仿佛人人都是年薪百万,只有自己是个战斗力不足五的渣渣。这其实都是属于幸存者偏差,那些年薪百万的人会主动展示自己,还有一大堆不是年薪百万的都被过滤掉了。
这就和我们平常工作中遇到的情况一样,你经常会遇到各种各样的吐槽,比如抱怨你产品价格太高了,你如果直接把产品价格降低了能解决问题吗?真正觉得你产品价格高的人可能压根就不会去跟你抱怨。比如买千元机的人肯定不会跑去苹果官网抱怨说,你们苹果手机太贵了。
3.最后
我们在平常数据分析或者是工作中经常会不自觉的陷入上面的这两种问题里面,那怎么样才能避免上面的两种偏差呢?方法就是多问几个为什么?上面的偏差也是我们通过数据分析得出来的,通过分析得出来结论以后,多去问几个为什么?为什么会出现这种情况,为什么这些飞机飞回来了,为什么这些人会抱怨价格高。你如果能找到数据背后发生的原因,你也就不会犯上面的错了。
上面的两种偏差比较类似,但又不同,前者是因为我们人为选择研究对象不准确而导致的偏差,后者因为我们只看到了别人想要我们看到的部分而导致的偏差。两者也有共同点,就是都是因为我们没有看到数据的全貌而导致的偏差。
你还可以看:
你能分清比例和比率吗?
你到底偏哪边的?
数据分析中的两种偏差相关推荐
- 【转载】数据分析中的两种偏差(选择性偏差、幸存者偏差)
作者:张俊红 来源:俊红的数据分析之路 补充:幸存者偏差(survivorship bias) 总第171篇/张俊红 今天给大家介绍一下数据分析中常见的两种偏差:选择性偏差和幸存者偏差. 1.选择性偏 ...
- 批量插入数据库语句java_java相关:MyBatis批量插入数据到Oracle数据库中的两种方式(实例代码)...
java相关:MyBatis批量插入数据到Oracle数据库中的两种方式(实例代码) 发布于 2020-7-22| 复制链接 本文通过实例代码给大家分享了MyBatis批量插入数据到Oracle数据库 ...
- java类型转换答案,在java中支持两种类型的类型转换,自动类型转换和强制类型转换。父类转化为子类需要强制转换。...
在java中支持两种类型的类型转换,自动类型转换和强制类型转换.父类转化为子类需要强制转换. 更多相关问题 计算机病毒通过()传染扩散得极快,危害最大. 当一个现象的数量由小变大,另一个现象的数量相反 ...
- link linux 跨设备,Linux中的两种link方式
Linux系统中包括两种链接方式:硬链接(hard link)和符号链接(symbolic link),其中符合链接就是所谓的软链接(soft link),那么两者之间到底有什么区别呢? inode ...
- Linux中的两种守护进程stand alone和xinetd
Linux中的两种守护进程stand alone和xinetd --http://www.cnblogs.com/itech/archive/2010/12/27/1914846.html#top 一 ...
- Java中的两种异常类型及其区别?
Java中的两种异常类型及其区别? 参考文章: (1)Java中的两种异常类型及其区别? (2)https://www.cnblogs.com/zxfei/p/11182730.html (3)htt ...
- <随笔03>Java中的两种异常类型
<随笔03>Java中的两种异常类型 参考文章: (1)<随笔03>Java中的两种异常类型 (2)https://www.cnblogs.com/newlyfly/p/744 ...
- Allegro中显示两种单位方法
Allegro中显示两种单位方法
- Matlab中的两种除法
Matlab中的两种除法 matlab中的向量运算,试比较: >>a=[1,1,1] a = 1 1 1 >> b=[2,2,2] b = 2 2 ...
最新文章
- Android 串口通讯
- 计算机网络知识点3——数据交换(报文交换、分组交换)
- 题解报告:hdu1219AC Me
- Qt for ios 设置程序显示名称
- springboot(2.2.4)全局异常处理(RestControllerAdvice,ExceptionHandler)
- 使用Android Studio向GitHub提交代码
- html5自由者,排球自由人可以一直不下场吗?就是可不可以一直在后排轮换?
- python之gunicorn的配置
- DeadObjectException
- 阿里云数据传输服务低价不低质,服务再升级 1
- 统计学基础之卡方检验
- 经典栈溢出 Easy RM to MP3 Converter
- 【算法leetcode每日一练】1436. 旅行终点站
- 2020年《时间的朋友》跨年演讲金句集锦
- cloc工具 命令行 统计代码行数
- 微信小程序 | 证件照制作小程序源码下载
- 齐次坐标(Homogeneous coordinates)
- 北航软件测评中心 招聘FPGA测试工程师
- vs2012 mvc3项目ObjectContext与DBContext
- 干货 | 飞凌嵌入式OKT507-C开发板如何在Android系统上进行OTA升级
热门文章
- c++调用cplex求解例子_Java调用cplex求解运输问题
- MongoDB-pymongo
- 为什么Python是最吸金编程语言?
- React全家桶构建一款Web音乐App实战(九):皮肤切换
- jQuery文本动画效果
- NYOJ---540奇怪的排序
- 10-30SQLserver基础--(备份和还原、分离和附加数据库)、语句查询操作
- 开学前要多为孩子健康做准备
- InstallShield 2012 Spring新功能试用(17): Suite/Advanced UI 和 Advanced UI安装程序支持命令行Log参数...
- Spring Cloud Config git版