数据分析看似科学理性,但是只要是人参与的工作,就没有不能造假的,尤其是类似数据分析这种工作,很容易产生诡辩论,我们需要实时擦亮眼睛!

作为一个小头目,经常会读到来自各种团队的数据分析报告,看似基于理性和事实的雄辩,然而有可能是有意或无意的诡辩。搞得我经常像傻白甜的美少女面对追求的少男一样,面对这些严谨的数据分析也不得不多长几个心眼。

1、可视化的误导

一般来说,画出图表就容易让人肃然起敬,至少架势是足的,然而其中却容易出现诡计。

下图的作者为了表达中国城镇化率的增加以及家庭小型化趋势对房价的支撑作用,摆出了两个柱状图,然而为了表达这两个指标的强烈趋势,Y轴都不是从0开始,于是在视觉上更容易让人有冲击力,然而却含有误导性。(不过被误导也就罢了,一二线这个趋势,早几年买房也不是坏事儿)

下图的作者为了表达软件开发类不等级别之间的工资巨大差异,居然把最低值、平均值和最高值叠加在一起进行呈现。效果是出来了,但逻辑和节操却大珠小珠落玉盘。

2、使用孤证或者不靠谱的绝对值

“林子大了什么鸟都有”,这句俗语特别适合于使用孤证或者不靠谱绝对值来证明自己价值的数据分析,这是大公司里经常出现的一些场景,因为大公司产品经理偏爱依赖巨大流量来尝试一些新功能。

比如最近某产品推出类社区的产品功能,大家都质疑其与主方向毫无关系。产品经理立即跳出来反驳,使用该功能的n个用户已经找到了工作(找工作是该产品的核心功能之一)。然而每天上千万用户在产品里晃来晃去,做出啥事儿都不稀奇,举出孤证有意思吗?这时候想起知乎名言:脱离剂量,谈论食物毒性,都是耍流氓。

所以为了印象深刻,参考“林子大了什么鸟都有”,这句俗语可以考虑改成“数字大了什么鸟都有”。

3、推理逻辑混乱

许多数据分析虽然带有翔实的数据,但是逻辑推理极其混乱。

前段时间遇到某产品在一级入口上线新功能X,然而却有可能和位于二级入口的原有功能Y冲突,X抢夺了使用Y的用户。

如同大家都了解的,大公司里面做产品,经常发生的事情就是左兜掏右兜,把用户像赶鸭子一样赶来赶去;不过总有一个兜的人因为数据大增要得到嘉奖。这里面最直观的例子就是:不少公司的小程序用户大增而受表扬,不过主App的数据跌了。

当挑战这个产品经理的时候,他经过一天的数据分析后得意宣称:担心是多余的,因为数据显示,使用X功能的用户有60%使用了Y功能。

画外音:那么使用X而不用Y的40%用户在干嘛呢?算不算Y功能的流失?

4、扶不上墙的小规模测试

产品经理为了工作的严谨性,经常利用小规模测试甚至是AB测试来观察新功能。然而一个诡异的现象却是,小规模测试效果不错的功能,全量之后却差强人意。这往往可能是因为取样偏差造成的,因为求胜心切,产品经理在取样时很容易有意或无意得形成取样偏差。这里面常见的两个偏差是幸存者偏差和辛普森偏差。

幸存者偏差。前一段我们公司搞用户开放日,与应邀前来的用户做Focus Group(用户焦点访谈)。结果在访谈中用户对我们产品简直是满意无比,大大出乎我们意料。除去用户保持绅士风或淑女风不敢当面怼我们之外,更主要的原因是邀约是通过我们App上面的推广,来的用户都不是被我们伤碎了心的人,所以好感爆棚。如果基于这些用户去做新功能的小规模测试,一定会出现偏差。

辛普森偏差。下图是从网上摘取的一个关于肾结石治疗方案的AB测试。单个病例看,A方案都优于B方案;然而,总体看,结论反转。这么诧异的结论主要是来源于样本的不同:大小结石病例在A和B中的构成比例相差较大,从而形成两个完全不同的样本,从而造成这样的结果反转。

5、乱配因果关系

据说世界上比暧昧关系更难证明的关系是因果关系,也比暧昧关系更加容易搞错而陷入泥潭。这里举自己犯过的错误再恰当不过了。

在面对冷门问答(百度指数诗歌这个词为什么在每年十一月二十多号的时候出现急速增加的趋势,这几天有什么重要的日子嘛? )时,自鸣得意得使用百度指数相关功能,发现“诗歌”和“感恩节”之前的强相关性,于是又找到各种理由来相信他们之间的因果关系。

虽然总觉得哪里有点不对,为了骗赞还是忍不住发了。结果被人打脸,更为可能的因果关系是:被人教版语文课本折磨的六年级小学生,赶上综合性学习活动“轻叩诗歌的大门”,课本的进度正在这个时间点左右,于是大量小学生搜索“诗歌”来完成作业。

这样错配因果关系的案例在生活中不少,大家可以留意收集。不过有个很有趣的国外网站(15 Insane Things That Correlate With Each Other)已经这么做来搞笑了,专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。

(1)尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。

(2)被床单缠死的人数和人均奶酪消耗量,高度相关。

(3)美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。

数据分析也能造假!你得小心这些不为人知的坑相关推荐

  1. 【Python】基于机器学习的财务数据分析——识别财务造假

    [Python]基于机器学习的财务数据分析--识别财务造假 前言: 本文数据使用了2021泰迪杯官方给出的数据. 其中第一章的代码给出了如何由比赛数据生成案例分析所使用的数据 而第二章则重点介绍了 如 ...

  2. 数据分析中有哪些造假情形

    日常生活中有很多造假的情况,对于造假我们需要有识别的能力,数据造假的现象也经常会遇见,就是我们看到的数据结果或者仅仅是数据并不是真正反映实际情况的数据.那么在数据分析过程中,会有哪些数据造假的情况存在 ...

  3. c++处处有杀机,不小心就要掉坑里

    元<元<类>类 G,类...T,整...I,类...O> 空 启动(整 n,序列<I...>,O&...o){(((n==I)&&(G< ...

  4. 【干货】数据分析规范总结!

    Datawhale干货 作者:吴迪-趣店数据分析师,来源:大数据DT 导读:在数据分析中,无论数据收集过程有多么科学.数据处理多么先进.分析方法多么高深,如果不能将它们有效地组织和展示出来,并与决策者 ...

  5. 太赞了,看看大神总结的常见数据分析规范!

    来源:趣店技术团队 作者:吴迪「趣店数据分析师」 在数据分析中,无论数据收集过程有多么科学.数据处理多么先进.分析方法多么高深,如果不能将它们有效地组织和展示出来,并与决策者进行沟通与交流,就无法体现 ...

  6. 数据分析报告,这么写就对了

    作者:吴迪「趣店数据分析师」     来源:趣店技术团队 哈喽大家好,我是可乐 能不能写一份优秀的分析报告,是衡量分析师是否牛X的重要标准. 除了不同场景下特定的分析逻辑,怎么把分析报告写的更好,其实 ...

  7. 这份数据分析报告规范,写得很棒!

    作者:吴迪「趣店数据分析师」 来源:趣店技术团队 我是小z 能不能写一份优秀的分析报告,是衡量分析师是否牛X的重要标准. 除了不同场景下特定的分析逻辑,怎么把分析报告写的更好,其实是有成体系方法论的. ...

  8. 专业的数据分析报告应该这么写!

    作者:吴迪「趣店数据分析师」 来源:趣店技术团队 能不能写一份优秀的分析报告,是衡量分析师是否牛X的重要标准. 除了不同场景下特定的分析逻辑,怎么把分析报告写的更好,其实是有成体系方法论的. 今天给大 ...

  9. 数据分析避坑必读:让人怀疑人生的七大悖论

    数理统计学是数据分析的基础理论,我们之前所有为数据分析所做的工作,比如梳理指标.筛选数据.可视化等等,都是为了我们能够更好地找到数据之间的关系,利用统计学原理对这些关系进行界定和联系. 但是在实际分析 ...

最新文章

  1. linux无文件渗透执行elf
  2. oracle定时任务失效
  3. 野火 stm32f429 pcb_PCB板价格是如何核算的
  4. MyBatis-Plus之通过插件将数据库表生成Entiry,Mapper.xml,Mapper.class的方式。
  5. HDU4267(2012年长春站)
  6. MySQL命令之mysqldump的选项详解
  7. SDWebImage原理(面试)
  8. Flink-keySet方法
  9. S5PV210-uboot移植-从三星官方uboot开始移植
  10. Android自动挂断电话
  11. php+将json转字符串,php实现json转字符串的方法
  12. php 资深面试题,高级php程序员面试题
  13. 《程序员养成记》第5集 学习编程的乐趣
  14. js encodeuricomponent php解码,JS中encodeURIComponent函数用php 解码
  15. linux 计算器 c语言,大神教你如何用C语言实现科学计算器
  16. 【Kali安全渗透测试实践教程】第9章 无线网络渗透
  17. 二分法和分治法概念区别--记录
  18. 一种基于深度学习的单导联心电信号睡眠呼吸暂停检测方法
  19. Windows复制文件提示指定的文件名无效或太长
  20. web服务器双机热备方案解析

热门文章

  1. 2019年最值得期待的五大区块链项目
  2. 双显卡笔记本安装win10+Ubuntu16.04以及NVIDIA显卡驱动安装
  3. 从输入 url 开始能做哪些优化
  4. proc文件系统:1.proc文件系统简介
  5. Lucene全文搜索学习笔记(一)
  6. 企业实施一体化管理系统的十大好处
  7. shave 缓存_使用Shave.js插件动态截断的文本
  8. shave Hair fake occ
  9. SSH 远程连接会话保持时间太短
  10. 调试经验——任意字符对应的Unicode查询方法及Unicode对应字符的查询