今天碰巧看到的一篇文章,作者:快刀青衣。文笔非常生动,把数据分析和香港古惑仔电影联系到了一起。

一些观点细想未必有道理,但是读来觉得有趣就很好了

转载如下

---------------------------------------------------------------------------------------------------------------

其实本文非常适合起个名字叫做《如何用数据欺骗自己的老板》,如果你是打工仔,那么本文只是粗略地普及基本知识,更多的数据统计陷阱需要你在工作生活中不断地去发掘和完善,相信有一天,你会被老板钉在公司的耻辱柱上的。

在上个世纪90年代的一个初夏的傍晚,微风拂面,知了不停地鸣叫。在校园里,每个教室里都传出了沙沙的声音,一个个表情木讷的高三学生正在题海中遨游。教室的最后一排,一个扎着马尾的清秀姑娘给旁边的男孩传了一张纸条,上面写着“听说电影院今天演《泰坦尼克号》,我们逃课去看吧!”

男孩看到纸条后,脸上泛出了淡淡的红晕,一脸亢奋地回了张纸条,“我听说人民街的录像厅今天放最新的《古惑仔》啊,我们去看那个吧。”

那天晚上,这一男一女在男生的坚持下,还是去看了《古惑仔》。从第二天开始,女生就开始亲热地喊他“兄弟”……两个人再也没有然后了。

很多时候,如果不能透过现象看穿本质,那么一定会摔得很惨,追姑娘是这样,玩数据也是这样。

一、从砍人神父看数据解读的不同角度

同一个人,在其他不同人眼中的形象是千奇百怪的,很难做到整齐划一。而同一个画面、同一个数据,都静悄悄地呆在原地,不同的角度会带来截然不同的效果。例如同一件淘宝服装,显示器上的效果和收到货之后的效果很难保持一致,如上图同事肉身所示。

例如在古惑仔《只手遮天》里,林神父在球场上挺身而出直面乌鸦,一声令下杀出了几十个手持菜刀拖把的邻居,说出了他那经典台词“我传道二十多年,叫大家信耶稣大家不一定会,但是让大家砍人他们一定会照办的。”

那么就拿这个场景定格。不同的媒体如果给这一场景取标题的话,《读者》一定是“牧师见义勇为背后的哲理小故事”,《知音》一定是“浓浓的大爱啊为那般,俊雅牧师为失足少年撑起一片天”,法制版一定是“管制刀具何时禁?和平街区惊现24把砍刀”,而地铁上的街头小报一定是“禽兽神父露出真正獠牙 一声令下欲血洗东兴”。

数据是死的,人是活的。学会合理地解读将是必备技能,特别是对于像我这般的打工屌丝来说,必须要学会找到数据最有用的解读切入点。

二、从大天二被阴看数据的首要条件   

大天二在古惑仔前三部中一直不显山不露水,而扮演者谢天华在当年也还只是一个小字辈。但是在第四集一开始,当大飞把妹妹嫁给他之后,他的地位在洪兴内部飙升,也正是这种地位的变化,让他准备帮山鸡争屯门扛把子砍生番的时候,没有能冷静地分析到手的数据。

当内线告诉他,生番每天都会在鱼摊打麻将身边只有三四个人的时候,大天二没有从多个渠道去验证数据的准确性,而是豪气十足地带着四个人就要去搞定生番,虽然出发前拜了拜关二爷,但是别忘了,关二爷当年也因为忽视江边烽火台情报网而被人砍了脑袋。

生番身边果然只有三个人陪他打麻将,但是旁边的屋子里窜出来五十多个人,大天二被人按在水池中挑断了手筋脚筋,如果不是大飞,那晚他就已经横尸街头。

所以,对于研究数据的人来说,正确的数据比大量的数据更有用。这里的正确,不仅仅指结论正确,也包括取样正确、分析方向正确。

在2013年,大数据成为了IT界最火热的词汇,哪个公司如果不说自己会大数据分析,简直没有脸在行业内行走。但是,如果盲目地追求数据量的大,而忽视了数据的对,那么就容易在错误的道路上越走越远。

在各种数据统计教材中,有一个案例被反复提及,那就是当年罗斯福竞选总统时,美国著名期刊《文学文摘》放出了1000万份读者调查表,并做了大量的电话调查,最后得出的结论是共和党的兰登将以57%对43%的绝对优势战胜民主党的罗斯福。而最后的结果却是罗斯福以62%的支持率得以连任,给《文学文摘》一记响亮的耳光。

在这个例子里,是因为样本的数量不够吗?发出1000万份调查,回收240万份数据,同样的数据量放在今日都堪称庞大。核心问题在于样本的选择出现了无意识的偏差,1000万《文学文摘》读者并不能代表全体美国人的特征,乐于参与调查的240万人跟剩下的760万人也没有相似性。

由此可以看出,样本数越大的数据分析,如果出现偏差的话,造成的危害越大。例如如果在10万个被派出所抓获的嫖客中做一个调查,问我国是否应该放开性交易,那么最后可能媒体出来的标题纷纷是《人性啊呼唤解放,99%中国人力争性交易合法化》。

三、从包皮被色诱看数据分析的精准需求

在大天二藏起来养伤的时候,东兴乌鸦手下的四眼仔为了找到大天二的行踪,派出了自己那丰满黄毛小太妹去色诱包皮,这一招就叫做精准。因为他如果派出几百人去满大街打听,性价比低又容易打草惊蛇,如果去色诱陈浩南山鸡,他们压根看不上这种胸大无脑的粗俗小太妹。而包皮呢?作为能接触到大天二信息的核心骨干,正是最好的突破点。

这就是在开始做任何数据分析之前,一定要先清楚自己最想要什么,得到想要的结果哪些数据是必需的,不盲目地扩展维度,那样的话只会让分析结果混乱不堪。

不管是对于一个网站还是对于一个应用来说,会有很多种数据指标,先要想清楚自己最关注哪个指标,然后再看跟这一指标强相关的是哪几个数据,最后再得出结论和运营方案。例如对于网站,老板最关注的是UV数据,那么在做方案的时候就要关注到站外流量最大的导入方、SEO关键词、第三方平台的分享量等。如果老板最关注PV数据,那么运营就需要注意用户浏览页面数、用户停留时间、用户的二跳页面等等。

四、我不是教你诈之数据陷阱

在很多人眼中,数据是最公正最客观最铁面无私的,恨不得把数据提升到顶礼膜拜的地步。但数据其实就是工作的一个伙伴,好的数据就是神一样的队友,不好的数据就是猪一样的队友。数据分析本身没有对错之分,只有合适不合适,合理不合理。(在基本的数学运算无误的情况下)

美国佐治亚州曾经在2011年和2012年陆续宣布了对亚特兰大市35位教育工作者的65项指控,这些人中,大部分是校长、年级主任。指控主要集中在考试舞弊。因为亚特兰大市从2005年开始,学生的各项成绩有了阶梯性的进步,最开始所有人都夸奖新上任的教育主管教导有方。

但是后来,州教育部门在做数据统计的时候,突然发现亚特兰大市学生的答卷上,由错改对的比例远远大于其他地方的学生。要知道从概率上来说,一个学生的答题因为其突然打通任督二脉,由错改对还有点儿可能,但是如果一个考场的学生涂改的痕迹全部都是把错误的改成正确的,这概率微乎其微。

就由这一点数据异常着手,从而破获了让整个世界瞠目结舌的亚特兰大考试舞弊案。最令人发指的事情是有一群老师在考试后举办了一个披萨狂欢派对,在派对上大家把学生做错的试题全部改成了正确的。

这才是教育界的业界良心啊!!!

如今的数据越来越多,陷阱也越来越多,有时玩弄下文字游戏就能让业绩看起来高大上起来。我有一个QQ群,群里一共有三位男士,在今年的某一天,其中的一位土豪朋友给他老婆买了一件生日礼物,是一辆保时捷SUV,价值120万。后来,我对老婆说:“在这个群里,每个男人今年平均给自己老婆的生日礼物价值40万人民币,你还有什么不满意的?”那天,家里的平底锅终于派上了用场。

曾经有某个应用的运营同学写过一份周报,“经过一周的运营推广,本应用的下载量提升了100%”。我看了之后对其崇拜之情油然而生,这就是力挽狂澜啊!后来,他酒后对我说:“其实我就是把下载量从之前的25个提升到了50个。”刹那间,我明白了,原来他只是在一个小的QQ群里推广了一下。由此可见,喝酒有害健康。

除了文字游戏,数据背后的产生过程也往往陷阱密布。例如一个高中理科班,里面一共有10个女生,平均罩杯是B,而在高二的时候,里面一个A罩杯的女生转学了,平均罩杯变成了C。那么从数据上,我们是可以得出这样的结论“从B罩杯到C罩杯,高中学习有利于女生身材养成”。

同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成绩就提高了。所以未来在看到任何数据的时候,请不要马上就欢呼雀跃或者垂头丧气,先去想一想,数据合理吗?

五、我不是教你诈之图表陷阱

做一份数据报告,没有几个折线图条形图,都不好意思说自己是研究数据的。但是每一份高大上的图表背后,也会隐藏着不少的小秘密。

在上图中,所有眼睛没问题的人都能看出铜锣湾扛把子陈浩南从《古惑仔》第三部开始,他参与群殴的次数和单挑的次数都急剧下滑,一直到2000年,他都不打架了!如果有心人刻意地加一句解释“《古惑仔》第四部上映的时间是1997年”。那么估计很多不靠谱的数据分析家就要开始说“从陈浩南出手次数可以看出香港回归之后社会治安好转”“黑社会社团在97之后转型民营企业,金融战取代街头混混砍杀”“驻港部队让香港居民安全感倍升”……

实际上呢?实际上是《古惑仔》第四部战无不胜,里面冲锋在第一线的是和生番抢屯门的山鸡,陈浩南主要时间都在泡李嘉欣。而2000年版,名字则是《友情岁月之山鸡故事》,本身陈浩南在这里面就没有什么戏份。

同样的,在不少公关软文中,会让人惊讶地发现自己企业和对手企业的走势图的比例尺都不一样,最终会显得自己企业的曲线是那么高耸入云,而对手的走势是那么的飞机场。

六、把数据放在什么位置

东星五虎之奔雷虎,会在自己一个古惑仔的酒吧里放莫扎特的安魂曲,但是这悠扬的乐曲中,耀扬不会因为自己对莫扎特的喜爱就放弃摔死恐龙。

韦小宝将阿珂视为心目中的女神,但是他不会因为自己对女神的膜拜就放弃在丽春院的大床上为阿珂宽衣解带。

同样对于数据分析来说,应该对数据进行基于经验的理解和科学的计算,然后表达并传播出来,让其有利于下一步决策。如今的很多数据分析集中在了计算和表达上,但是忽视了下一步的决策。

无法对工作决策形成决定作用的数据分析,连花瓶都算不上。

要知道单凭数据,有时并不能改变现状,因为大家可能不相信你的话或者数据,在19世纪匈牙利医生塞麦尔韦斯通过大量的试验得出了结论“是医生未经消毒的双手才导致了产妇因为产褥热而死”,但是这结果一出,导致了医学权威纷纷跳出来指责他,他从而伤心地离开了维也纳。直到他去世的1865年,巴斯德的细菌理论才问世,所有人才正视塞麦尔韦斯当年的数据。

所以,在做任何数据分析之前,请先想清楚自己为什么要做这个分析,以及期望为哪方面的工作得到决策帮助。

七、尾声

其实本文非常适合起个名字叫做《如何用数据欺骗自己的老板》,如果你是打工仔,那么本文只是粗略地普及基本知识,更多的数据统计陷阱需要你在工作生活中不断地去发掘和完善,相信有一天,你会被老板钉在公司的耻辱柱上的。

如果你是老板……您看这种文章不怕影响到自己未来的上市计划吗?

当然,最后送给诸位一句古惑仔里的经典台词,   “出来混,错了要认,被打也要站稳!”

作者微信公众号:kuaidaoqingyi520

作者注:本文为12月22日虎嗅年底FM大会上的六分钟演讲实录整理版。让人感动的是当问起都有谁看过《古惑仔》,下面那些高大上的文艺青年们都纷纷举起了手,谢谢,让我看到了流氓事业的薪火不断。

数据分析和《古惑仔》电影中总结出的流氓数据陷阱相关推荐

  1. 电影评分数据分析python_豆瓣电影简单评分模型-从收集数据到建模分析

    思路: 从豆瓣上抓取数据[主要是评分,只是那个人数的百分比和最终评分,不过够用了] 一.收集数据 起始URL:https://movie.douban.com/j/new_search_subject ...

  2. python如何从txt文件中解析出有效的数据

    1. 问题描述 笔者所使用的的txt文件较为复杂,但是几乎所有的类似问题都可从中推演出来.笔者的txt文件有效信息格式如下 ====Start data collection label1==== x ...

  3. 那些出现在电影中的程序代码

    高科技无关的电影也偶尔会出现一些跟计算机相关的镜头.文本搜罗的是在各种电影中出现过的代码,它们有的是黑客脚本,有的是绝密文件,有的就是为了摆酷,文中对这些代码都有截屏,你是否能看出它们是什么语言? 一 ...

  4. 周星驰搞笑电影中的BT角色大全(100位)

    1.吴孟达 所谓"戏骨"是指那些演戏基本已经达到戏我两忘,人戏合一之境界的演员们,有句话常来形容这样一种人,说他们"浑身上下都是戏".周星驰电影中的" ...

  5. 大数据!3D电影所映射出的IT技术趋势

    随着<星际穿越>.<智取威虎山>等3D电影票房大卖,视觉上的冲击与震撼算得上让我们大开了眼界.要说起3D电影的兴起,必须追溯到2010 年,詹姆斯.卡梅隆科幻巨制<阿凡达 ...

  6. 【PYTHON数据分析实战】电影票房数据分析(一)数据采集

    获取URL 我们先打开猫眼票房http://piaofang.maoyan.com/dashboard?date=2019-10-22 ,查看当日票房信息, 但是在通过xpath对该url进行解析时发 ...

  7. 大数据分析如何在Python中生成FiveThirtyEight图

    大数据分析如何在Python中生成FiveThirtyEight图?如果你阅读大数据分析文章,则可能已经迷失了FiveThirtyEight的内容.自然,他们的出色可视化使你印象深刻.你想制作自己的出 ...

  8. AI看电影看哭了...MIT科学家正在教AI感受电影中的喜怒哀乐

    翻译 | AI科技大本营(rgznai100) 参与 | 么广忠 虽然我们都知道人工智能(AI)特别火,但AI究竟能做什么了不起的事情呢?要是问AI能不能写出一本畅销的书,目前的答案是不能,显然AI目 ...

  9. 还原黑客电影中那些Hacking技术的真相

    图源来自geralt <我是谁 – 没有绝对安全的系统>主人公本杰明通过将自己DIY的设备放置目标公司,用诺基亚将上网的数据转发,最后攻破公司内网服务器. <幽灵>中的主人公通 ...

最新文章

  1. R语言ggplot2可视化:ggplot2可视化散点图并使用geom_mark_ellipse函数在数据簇或数据分组的数据点周围添加椭圆(ellipse)进行注释(对椭圆包围的区域进行着色为阴影区域)
  2. java MDC_log4j MDC实现日志追踪
  3. iis php win安装kangle_Win2008 R2 IIS7.5+PHP5(FastCGI)+MySQL5环境搭建教程
  4. 关于purge master logs的一个小实验
  5. VC/MFC列表CListCtrl类的LVCOLUMN和LVITEM详解
  6. [LeetCode] 143. Reorder List_Middle tag: Linked List
  7. virtualBox文件共享
  8. Spring Boot 学习系列(04)—分而治之,多module打包
  9. 自媒体玩到最后玩的是一种意识
  10. 台式计算机usb口接触不良,usb鼠标接触不良,手把手教你usb鼠标接触不良
  11. 关于扫码点餐多人实时共享订单的思考
  12. leetcode 1818 绝对差值和
  13. php会员中心页面,PhpCMS会员中心操作说明
  14. kettle 完成处理后的字母含义,(I)nput, (O)utput, (R)ead, (W)ritten, (U)pdated, (E)rror
  15. 石家庄地铁站项目最终总结报告
  16. 计算机四舍五函数,技巧:在Excel中四舍五入为六至五十的最佳函数算法
  17. 硬件设计中电容电感磁珠总结
  18. 专利申请怎样做快速预审?
  19. Python计算Arduino声音方向范围和绘制声音位置二维概率分布热图
  20. https 加密、http2.0、keep-alive

热门文章

  1. 2021.4.6 腾讯 IEG 运营开发实习面试(一面)(含总结)
  2. Mysql跨数据库创建视图
  3. 实验5 IP地址分配
  4. 服务器速度变慢最常见几个原因
  5. 无软驱情况下服务器RAID的安装方法
  6. 限流的基本原理及算法实现
  7. python元组与列表的区别、简答题_python元组和列表的区别
  8. 「需求广场」需求词更新明细(十四)
  9. 为什么这个叫Peach的社交软件在一夜之间火了起来?
  10. CrossApp首款商业级应用《动漫之家》服务器源码及架设文档下载