作者|吴水永 编辑|布袋熊  36大数据获授权分享

防火防贼防数据欺骗

一本敏捷的书说到,自从使用Scrum之后,团队生产力提升了60%。用百分率,是标准的吹牛逼仪式,看来我是遇上对手了。

一般来说,这种没有明确可衡量标准的结论,不起推敲,也经不起连续提问。

首先问:是不是。偷换概念是非常容易的,一般人注意不到,尤其是在专业领域。常规地关注对象(人/物)、时间(前/中/后)、空间(环境背景)、事件(what)是否完整客观。60%的衡量计算标准是什么?

接着问:为什么。阅读中保持独立思考能力,敢于质疑。首先对一些基本概念要有认知,《人月神话》很恰当地把工作为分智慧密集型与劳动力密集型,研发属于智慧密集型活动,难以短期内通过人力或流程大幅度提高效率。如果是真的60%提升,那之前做的到底是有多差劲。

之前在公司内部做过一期数据思维分享,有一部分是提防数据撒谎,遂重新整理成文字,共九点罗列如下。雕虫小技,丢人现眼。

 

1.数据来源与采样


看到一份数据,首先警惕数据来源,凡是数据一定有采样率,一手数据或二手数据,来源是否可靠客观全面

相对靠谱的数据来源有很多,如下

  • 企业平台报告(淘宝电商、微信社交等只放出了私聊范围内的数据,聊胜于无)

  • 数据服务行业报告(艾瑞、易观 不清楚这么多的行业报告数据是怎么收集的,有了解的请留言告知。还有些连各国内外宏观数据都有)

  • 政府公开数据(国家统计局① 中国汽车流通协会②等)

  • 上市公司财报(A股的财报说 就非常实用)

一般的问卷数据就算了,问卷从问题设计可能就已经偏离调查意旨,更别说在人群抽样环节了,那怕直到数据报告输出,想操纵结果,都有无数的机会。

好的文章都会给出数据引用,那怕会被质疑。凡是没有给出参考,没有数据来源说明的报告或分析都是耍流氓。

2.偷换概念混淆


有了数据,接着则需要做聚合,用一些数据概念来描述总结量或趋势。常用的数据概念有:最大值、最小值、九分位值、平均数、中位数、众数;标准差、方差、期望;比率;同比、环比;科学计算相关等等。

首先得知道分别是什么意思,并且清楚适用的场景。太阳底下无新鲜事,没有什么比较谣言更容易传播了。10+万的标题党出现的平均年收入,稍做二八分析(百分之二十的人,掌握了百分之八十的财富)就明白我们是给平均数拖了后腿的。但实际上,随着全球化以及经济发展,贫富差距一定会越来越大,Oxfam报告说已经是前1%的富豪,掌握了80%的财富。

3.故意漏掉了什么


常听到的是我国GDP总量全球第二,仅次于美国,但新闻联播可不会说的是,我们人均GDP仅为美国的15%。哪个概念才跟老百姓息息相关呢?哪个在我们心里才是最重要的呢?

类似的报喜不报忧手法还有不少,量少,则用比率;增量不足,则用总量;总量不够,则用同比;旺季同比不足,则用淡季环比。

以我的开源项目 walle-web.io 的 github star 为例,总用户趋势还是很漂亮的,尽管新增用户在下跌(不要替孤担心),我不把后面的数据放出来,会有几个眼尖的能看到?


4.单个概念代替复合概念


但现实情况,往往一个概念或指标是无法表述清楚的,描述一个事实需要多个维度的数据,才能立体呈现。想掩盖一个事实的最好方式,莫过于不要暴露。给出的数据指标越多,信息就越全面,即需要多个概念或加权概念来描述。

比如用平均数均价来描述某城区的房价,就是不合理的,极值很可能是离群值。而应该使用中位数乘数(Median Multiple):房价-收入乘数,即该城市房价中位数 / 该城市每户居民税前年收入的中位数。这一指标被世界银行以及联合国推荐使用,以评估城市房地产市场。

摘取研究机构 Demographia 2017年《全球房屋负担能力调查报告》③其中一个数据,感受下大香港凌驾于其它地方的房价压力。

5.有图不一定有真相


图依靠视觉,非常直观,直观到让人太容易相信眼见为实。分别看下面三组图,A、B哪个更长,当然你知道我会用相同长度的A和B做对比。

6.看着理所当然的XY轴


最初级的手法,更改X轴Y轴的起点,就可以改头换面。当你的产品是C时,这一招悄无声息,只需要修改Y轴的起点,简直是神一样出装。同样,XY轴的取值间隔一样可以玩出新招式来。

7.变形

太没技术含量了,不展开。

2018年 荣耀 V10 发布会

8.错误归因


不合时宜地错误归因,往往不是智商捉急,就是别有用心。以辛普森悖论为样例展开。

辛普森悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。“聪明”的数据分析师得出结论:IOS平台的用户付费转化率低下,建议放弃IOS平台的研发。④

这么不符合常识的结论,直到数据拆分出来之后,一切都解释清楚了。到底悖论出现在什么地方?手机和平板两组数据是可加的啊!?

普森悖论有个非常明显的数据特征,两组数据可加,但A组Y种类量小而百分率高,而B组X种类量大百分率低,尽管Y在每组类型数据中比率都比X高,但会在最终合计上的比率会X低。

通俗易懂说来,两组数据基数差距大,数值与比率合一计算,但结果相反,原因在于忽略了加权。那么问题来了。

  • 到底Android和IOS哪个转化率更好?

  • 合计的加权公式应该是什么?

  • 普森悖论经常会出现在什么场景中?

我还能想到的其它一些错误归因类型,简单列举如下。

  • 因果倒置

    • 没想好例子: (

  • 幸存者偏差

    • 二战中给飞回来的飞机增加防护板

9.脱离逻辑的神扯淡


都到了这,得见识下真正实力了,吹牛逼的奇葩与巅峰。可以把两个风马牛不相及的事件,通过数据近乎完美阐释他的论点,而且创意十足。

两条线是不是非常贴近,但这两条线分别表示每年掉到游泳池淹死的人数,和尼古拉斯·凯奇出演的电影数。在逻辑上没有任何关联的两个事件,R值(相关度)可以高达66%,还有很多这样的案例,R值超过90%,具体在「那些惊人相似的趋势图」⑤。 从数学的角度来讲,这是再正常不过了,这就是「维度的诅咒」。度在数学上亦变量,变量太多,数据太少,就很容易出现假的相关性。上面例子从99年到09年不过11年,在万千事件中找到11个数据点与之相似的,从概率上讲就是大概率事件,正如无限大猩猩也能写出哈姆莱特。 从相关性,我想到了拟合,拟合即通过数学方程式,描出与现有数据吻合的曲线。这不禁让人想到冯·诺依曼的名言,后因费米传开而闻名。

用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动

四五个参数就可以高度拟合出动态大象,两个逻辑不相关的事件,可以通过数据描述成高度相关。数学真是亦魔鬼亦天使,在天才手里就能创造神迹,反之,堕落成障眼法的小把戏。以至于让人怀疑什么才是真相,信息永远存在不对称,没有100%的真相

10.结硬寨 打呆仗


正如中国武术一样,练武为了强身健体,保护自己。认识这些伎俩是为了不被忽悠,而不要用这些小花招。数据的价值远非一些简单的特征、趋势所能呈现的,不必迷恋雕虫小技,还有深入的知识和应用等待探索。

所谓重剑无锋,大巧不工,价值才是王道,自身的价值和创造的价值,是让自己永远立于不败之地之根本。每个具体的垂直领域,都有着独特的专业性,加之经济学,心理学,同时警惕数据至上陷阱,敬畏前行。吾生也有涯,而知也无涯,共勉。

参考:

① 国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=C01

② 中国汽车流通协会  http://www.cada.cn

③《全球房屋负担能力调查报告》https://www.kiwiblog.co.nz/2017/01/13th_annual_demographia_international_housing_affordability_survey_2017.html

④ 有没有发现百分率数据有问题?

⑤ 那些惊人相似的趋势图 http://tylervigen.com/spurious-correlations

欢迎投稿,投稿/合作:dashuju36@qq.com

如果您觉得文章不错,那就分享到朋友圈~

你点的每个赞,我都认真当成了喜欢

经验▍小心被“套” 九大花式数据撒谎套路相关推荐

  1. ddos应急处理_写给十九大安保应急的兄弟们 来看看DDOS攻击应急预案

    阅读: 4,205 十一国庆以及紧接着的十九大即将到来,各位十九大安保应急的兄弟们都已经奔赴各自的一线,万事俱备只欠东风,大家的神经都紧绷着,紧急有序执行DDOS应急预案. "养兵千日用兵一 ...

  2. 神策数据丨九大行业数字化经营指南集锦,值 100% 收藏

    每一份白皮书.报告和案例的开始都有一个共同点:对各行业的数字化满心期许.我们希望为更多企业在数字化转型之路上提供可靠.可信.可落地的方法论与实践指导,为数字化时代的到来贡献绵薄之力. 2021 年末, ...

  3. 大数据在互联网领域的“九大”应用

    当下越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都呈现出大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,目前互联网大数据运用的九大领域: 1.理解 ...

  4. linux扩展两个桌面,经验分享:九大GNOME Shell扩展助您定制桌面Linux

    原标题:经验分享:九大GNOME Shell扩展助您定制桌面Linux 每位用户在首次设置新计算机时,都会进行有针对性的自定义--包括切换桌面环境.安装终端shell.选择自己喜欢的浏览器或者更改壁纸 ...

  5. 十年项目经验面试官亲传大数据面试__大数据面试独孤九剑

    文章目录 引言 第一剑「总决式」功能概述(三句话左右概况,简明扼要) 第二剑「破剑式」项目周期(开发时长和人员配置) 开发时长: 人员配置 第三剑「破刀式」技术架构(技术选项及框架版本) 第四剑「破枪 ...

  6. 大数据WEB阶段(十三)JSP(一)JSP基础、JSP指令详解、四大域九大隐式对象总结

    JSP基础.指令.四大作用域九大隐式对象总结 (一)JSP基础 一.JSP概述 jsp其实是java动态页面技术 HTML可以用来组织页面但是HTML是一种静态web资源技术无法嵌入动态数据. Ser ...

  7. 数据驱动科技赋能,东吴证券打造数据中台“九大能力”

    公司简介 东吴证券股份有限公司作为首家上市的地级市券商,扎根苏州,布局全国,树立"坚持根据地.融入长三角.服务中小微"战略导向,致力于为实体经济增添活力,为美好生活创造价值,建设公 ...

  8. 并发编程知识总结,软件开发架构,socket套接字模板,粘包问题,struct解决粘包问题,上传大文件数据,socketserver,关于操作系统的发展史,进程,线程。...

    并发编程知识总结 软件开发架构 C/S: client:客户端 server:服务端 优点:占用网络资源少,软件的使用稳定 缺点:服务端更新后,客户端也要更新,需要使用多个软件,需要下载多个客户端 B ...

  9. 九大数据可视化利器,你有足球竞猜平台源码下载在使用吗?

    可视化信息以易足球竞猜平台源码下载dsluntan.com  Q3393756370足球竞猜平台源码下载于阅读的视觉化内容正在被越来越多的人所青睐.可视化形式呈现信息的需求也随之增加,因此近年来涌现出 ...

最新文章

  1. window 10系统更改默认下载的位置
  2. echarts柱状图x轴文字换行_深入 echarts 如何设置 Label / axisLabel 换行及自定义格式 / 自定义样式? 结合 canvas 如何实现文字换行来理解...
  3. 因果作用推断、因果网络学习及其他
  4. 【错误记录】Android Studio Logcat 报错 ( read: unexpected EOF! )
  5. 理解伪元素 :before 和 :after
  6. 2020年快手校招JAVA岗笔试第二题
  7. 使用高级管理控制台获得对Windows Home Server的扩展访问
  8. 如何按 value 对 dictionary 进行排序?
  9. 来自.NET FM的感谢信
  10. STL学习笔记(数值算法)
  11. 【服务器实战搭建】centos7下使用yum安装mysql
  12. Java消息中间件--JMS规范
  13. Chromedriver的安装
  14. 电商活动难么多,不怕一个电商素材网站解救你,赶紧收藏
  15. centos 7安装zabbix 3.0
  16. 393.UTF-8编码验证
  17. 说“诡”道“诈”——解读“兵者,诡道也”+——文献综述
  18. Flutter 2.8 release 发布,快来看看新特性吧
  19. 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...
  20. 第十一届中国云计算标准和应用大会 | 华云数据成为全国信标委云计算标准工作组云迁移专题组副组长单位副组长单位

热门文章

  1. 专门为中小软件提供的开源JAVA网络验证系统
  2. 剁完手也要学习python数组的
  3. docker容器中安装vim
  4. php closure($this),PHP 中的Closure
  5. 两款网站新年灯笼代码,给你的网站添加喜庆[教程]
  6. PPPOE拨号详解——保活,断链
  7. Linux的文件系统类型
  8. 生产力工具(gitskydrive)
  9. 台湾国立大学(林轩田)《机器学习基石》(第3讲)Types of Learning
  10. 穗康码json数据_平安白云防疫通行证与穗康码数据互通怎么申请?