数据骗子无处不在,教你拆穿所谓“万金油”
全文共3606字,预计学习时长10分钟
图源:medium
数据分析师、机器学习/人工智能工程师、统计学家,这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下,不少数据骗子也隐藏在其中,这些骗子毁了遵纪守法的数据专业人士的好名声。
数据骗子非常善于在众目睽睽之下隐藏自己,你甚至可能都没有意识到他们的存在,他们有可能就藏身于你的公司当中、不过还好,如果你知道该找些什么线索,那么他们是很容易识别的。第一点线索就是,他们无法理解分析学和统计学是两个截然不同的学科。
不同的学科
统计学家接受的训练是推断数据之外的内容,而分析师接受的训练是探究数据集中的内容。换句话说,分析师根据数据中包含的内容得出结论,而统计学家根据未包含于数据中的内容得出结论。分析师帮助你提出好问题(假设生成),而统计学家帮助你获得理想答案(假设测试)。
还有一些神奇的“混血”,会拥有两种身份……但他们不会同时扮演这两种角色。为什么呢?数据科学的一条核心原则是,如果要处理不确定性,则不能使用相同的数据点进行假设生成和假设测试。数据有限时,不确定性会迫使你在统计学和分析学之间做出选择。
没有统计学,就无法知道自己刚刚产生的观点是否站得住脚。没有分析学,就只能在摸索中前进,几乎无法掌握未知的未知。
这是一个艰难的选择!是睁开双眼接受灵感(分析学),发誓放弃知道新发现是否能站住脚的满足感,还是冒着冷汗祈祷自己选择要问的(在没有任何数据的情况下,一个人在杂物室里冥思苦想出来的)问题值得自己即将得到的严密答案(统计学)?
“兜售”后见之明的小贩
骗子摆脱这种困境的方式是对其视而不见,发现一片薯片长得像猫王,然后假装对这一事实感到惊讶。(统计假设测试的逻辑可以归结为:我们的数据是否让我们惊讶到改变自己的想法。如果我们已经见过这些数据,我们又怎么会对它们感到惊讶呢?)
在你看来,图片中的云朵和薯片长得像兔子还是像猫王呢?亦或是像某一位总统?
骗子发现一个模式并从中得到启发,然后以相同的模式测试相同的数据,为的是用一到两个合理的p值生成可验证其理论的结果,他们这样做实际上是在欺骗你(可能也是在欺骗他们自己)。这样的p值没有任何意义,除非在查看数据之前对假设作出承诺。
骗子模仿分析师和统计学家的一举一动,却并不明白其中缘由,这为整个数据科学领域带来了不好的声誉。
真正的统计学家总是谨慎行事
由于统计学家在严密的推理方面享有近乎神秘的声誉,“万金油”在数据科学领域的出现频率创下了历史新高。这种骗术不易被人发觉,尤其是在那些毫无防备的受害者认为这正关系到方程和数据的时候。数据集就是数据集,对吗?错,要看你如何使用数据集。
这些骗子身上都带有冒牌货的标志,你只需要一个线索就可以识破他们的真面目:骗子只有后见之明——用数学重新发现他们已经知道的存在于数据中的现象,而统计学家提供的是具有先见之明的测试。
与骗子不同,优秀的分析师是思想开放的典范,总是将鼓舞人心的见解与提醒相结合,提醒人们观察到的某种现象可能有多种不同的解释,而优秀的统计学家则会谨慎地做出决定。
分析师带来灵感
分析师不必负责一切,他们要根据数据中包含的内容得出结论。如果他们想对没见过的事物提出观点,那他们担任的就是另一种工作了。他们应该摘下分析师的“帽子”,带上“统计学家”的头盔。毕竟,无论你的正式职位是什么,都没有这样一条规则说你不能投身两种行业。只要你想,就可以这么做,只是不要把它们弄混了。
骗子怎样测试假设
擅长统计并不意味着擅长分析,反之亦然。如果有人跟你说的与之相反,请自行思考。如果这个人告诉你,你可以对你研究过的数据进行统计推断,请再次问问自己。他很有可能是个骗子。
隐藏在天花乱坠的解释背后
如果你在现实生活中观察数据骗子,你会发现他们喜欢编造一些天花乱坠的故事来“解释”观察到的数据:故事听起来越学术越好,并不在乎它们只是(过分)符合事后的数据。
骗子这样做完全是胡扯。再多的方程甚至是夸夸其谈也无法弥补这样一个事实:他们没有证据表明他们知道自己谈论的内容超过了数据的范围。不要被他们天花乱坠的解释蒙骗了。如果是统计推断,他们就必须在看到数据之前谨慎做出决定。
这相当于炫耀他们的“通灵”能力,先瞄一眼你出的牌,然后预测你手上拿着什么牌……无论你拿着什么牌,他们都能预测出来。做好准备,听听他们的花言巧语:你的面部表情如何将你手中的牌泄露给他们。这是后见之明偏误,它在数据科学领域随处可见。
分析师说,“这是你刚才出的方块皇后。”统计学家说,“游戏开始之前,我把我的假设写在了这张纸片上。我们开始吧,观察一些数据,看我假设得对不对。”骗子说,“我早知道你要出方块皇后,因为……”
机器学习说,“我要一直提前调用它,看看我完成得如何。然后重复再重复。我可能会调整自己的反应,从而适应某个有效的策略。但我会用某个算法来完成这一过程,因为手动追踪这一切实在太烦人了,”
图源:unsplash
阻止骗子进入你的生活
要处理的数据不算太多时,你必须要在统计学和分析学之间做出选择。幸运的是,如果你有大量数据,那么你将有一个绝妙的机会来利用自己的分析和统计信息,而不会上当受骗。你还可以通过一个完美的计策来让自己免受骗子侵害,这叫做“数据拆分”,笔者认为这是数据科学中最强大的思想。
为保护自己免受骗子侵害,你要做的就是确保某些测试数据处于他们可窥探到的范围之外,然后将其他所有内容看作分析学(不要当真)。当你面对某种你可能会全盘接受的理论时,可以用它来替你做主,然后打开你的秘密测试数据,看看这个理论是不是一派胡言。
从人们习惯的时代到“小数据”时代,这是一个巨大的文化转变,你必须解释自己是如何知道自己所知道的东西,才能以一种轻松的方式-说服人们,你可能确实知道一些东西。
同样的道理也适用于机器学习/人工智能
一些伪装成机器学习/人工智能专家的骗子很容易被识破。你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付。(较早的预警信号是他们缺乏行业标准编程语言和库的经验。)
但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的,他会向你展示他们的模型有多好,用的是他们制作模型时使用的数据。如果你构建了一个极其复杂的机器学习系统,你怎么知道它能不能正常运行呢?你没法知道,除非你能证明它可以处理以前从未见过的新数据。
有足够的数据可以分割时,无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯,在任何地方都可以看到,不仅仅是在科学领域)。
进行统计工作或保持谦虚的态度
套用经济学家保罗·萨缪尔森(Paul Samuelson)的一句俏皮话:骗子成功预测了最近五次衰退中的九次衰退。
笔者对数据骗子没有耐心。“了解”一些长得像猫王的薯片又怎样?没人在乎你的观点是不是符合原来的“薯片”。解释再天花乱坠,笔者也不为所动。看看理论/模型能不能适用于(而且能够一直适用于)一大堆从未见过的新“薯片”,这才是对该观点的真正考验。
给数据科学专业人士的建议
数据科学专业人士,如果你想得到那些明白此处幽默的人的重视,请不要再用花哨的方程式来支持你的个人偏见。让我们看看你的真才实学。如果你想让那些“了解”你理论/模型的人将这些理论/模型看作是鼓舞人心的诗歌,那么就请大胆地在他们面前用全新的数据集进行一次伟大的展示吧!
给领导者的建议
领导者不愿认真看待任何与数据有关的“见解”,除非这些见解已经通过了新数据的测试。不想付出努力吗?要坚持利用分析学,但不要依赖于这些见解——它们站不住脚,而且其可信度尚未通过检查。
此外,公司拥有大量数据时,将分割数据作为科学文化的核心部分,甚至通过对专用于统计数据的测试数据的访问加以控制,从而将其应用于基础架构,这不会有任何坏处。这是一个将“万金油”扼杀于摇篮之中的好办法!
数据过少而无法分割时,只有数据骗子才会严格追随他们的灵感,用数学方法重新发现他们已知的存在于数据中的现象,宣称他们的惊人发现具有统计学意义,这便是后见之明。这让他们有别于思想开放的分析师和细心的统计学家。
数据充足时,要养成数据分割的习惯,一定要对原始数据堆的不同子集分别进行分析和统计。这样你就可以在不受骗的情况下占据双重优势了!
一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)
数据骗子无处不在,教你拆穿所谓“万金油”相关推荐
- Wireshark数据抓包教程之Wireshark的基础知识
Wireshark数据抓包教程之Wireshark的基础知识 Wireshark的基础知识 在这个网络信息时代里,计算机安全始终是一个让人揪心的问题,网络安全则有过之而无不及.Wireshark作为国 ...
- Wireshark数据抓包教程之Wireshark捕获数据
Wireshark数据抓包教程之Wireshark捕获数据 Wireshark抓包方法 在使用Wireshark捕获以太网数据,可以捕获分析到自己的数据包,也可以去捕获同一局域网内,在知道对方IP地址 ...
- 人人皆可大数据!SACC教你玩转阿里ODPS
人人皆可大数据!SACC教你玩转阿里ODPS [IT168 专稿]为什么我们使用搜索引擎时,不同的用户搜索同样的关键词看到的广告却不同?为什么我们到电子商务网站购物时,每次浏览同样的商品时都可以 ...
- 换新NAS不用愁,3种数据迁移方法教你轻松学会
NAS 虽然一台能用很久 但总免不了升级换代 如何优雅地将数据 从之前的群晖 NAS 中 迁移到全新的NAS里呢? 小编给大家准备了三个方案 大家可以根据自己的实际情况 进行选择~ 01 Hyper ...
- 腾讯数据科学家手把手教你做用户行为分析(案例:出行选择)
来源:大数据DT本文约6500字,建议阅读10分钟 本文将结合示例,讲解选择行为的经济学理论和计量分析模型,详细介绍用户选择行为的分析方法论. [ 导读 ]生活中的选择行为无处不在,数据分析师面对的商 ...
- c语言随机生成int64_t类型的数据_手把手教你代码生成(上):MATLAB代码生成
FrancisZhao:专栏文章列表以及一些说明zhuanlan.zhihu.com FrancisZhao:手把手教你代码生成(下):SIMULINK代码生成zhuanlan.zhihu.com ...
- 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...
[一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...
- mysql sql注入怎么获取数据_手把手教你通过SQL注入盗取数据库信息
目录数据库结构 注入示例判断共有多少字段 判断字段的显示位置 显示登录用户和数据库名 获取所有数据库名 获取对应数据库的表 获取对应表的字段 获取所有的用户密码 我们都是善良的银!一生戎码只为行侠仗义 ...
- vfp 调用接口取数据_2分钟教你调用全国天气预报数据接口
在智能手机软件的装机量中,天气预报的APP排在比较靠前的位置.说明大家对天气的关注度还是比价高的,毕竟无论工作还是度假旅游等各种活动都需要根据自然天气来安排. 那么,接下来就花2分钟,聚合菌教你如何调 ...
最新文章
- plt.figure()各参数使用
- Linux正变得无处不在;应用大盘点
- Callable和Future
- MAC Pro 同时安装 Python2 和 Python3
- 怎样知道邮箱的端口_AllenNLP源码拓展——训练结束向邮箱发邮件
- 浏览器自定义css代码,根据浏览器不同设置CSS
- 八个被现代科学证实的古老信条
- python 寻找数组的中心索引_Leetcode724查找数组Python的中心索引,LeetCode724,寻找,python...
- 【拾贝】hive unoin all map数爆增
- win10系统中如何把自带的IE11降级回IE8?
- wps表格宏被禁用如何解禁_wps宏被禁用如何打开?
- 海康威视摄像头web端开发
- 用python做乘法口诀表_如何用python编写乘法口诀表
- hdu-5745 La Vie en rose bitset
- Pandas[加深学习]01-pandas基本数据结构
- 华为通用软件开发工程师面经(业务主管面挂)
- 小米3 SIM 卡无法识别
- 【随笔】方波的表示、转换与应用
- 关于语音会议自动转文字系统的想法
- 四旋翼无人机学习第8节--OpenMV电路分析
热门文章
- 国内与国外的域名注册商的不同
- 【历史上的今天】4 月 14 日:Ruby 之父诞生;GDPR 首次颁布;Lindows 更名为 Linspire
- 怎样将网页保存为html,如何将网页保存为书签
- 何鸿略加入华为消费者业务 任大中华区副总裁
- mp4视频无法播放的解决方法
- Ghost还原出错An internal inconsistency has been detected
- Translatium for Mac(Google在线翻译工具)
- 关于电信基站nid,sid,bid
- Neat Video Pro插件如何在Flame 2020中使用
- TMS320C6748开发视频教程笔记 第6章 GEL 文件