全文共3606字,预计学习时长10分钟

图源:medium

数据分析师、机器学习/人工智能工程师、统计学家,这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下,不少数据骗子也隐藏在其中,这些骗子毁了遵纪守法的数据专业人士的好名声。

数据骗子非常善于在众目睽睽之下隐藏自己,你甚至可能都没有意识到他们的存在,他们有可能就藏身于你的公司当中、不过还好,如果你知道该找些什么线索,那么他们是很容易识别的。第一点线索就是,他们无法理解分析学和统计学是两个截然不同的学科。

不同的学科

统计学家接受的训练是推断数据之外的内容,而分析师接受的训练是探究数据集中的内容。换句话说,分析师根据数据中包含的内容得出结论,而统计学家根据未包含于数据中的内容得出结论。分析师帮助你提出好问题(假设生成),而统计学家帮助你获得理想答案(假设测试)。

还有一些神奇的“混血”,会拥有两种身份……但他们不会同时扮演这两种角色。为什么呢?数据科学的一条核心原则是,如果要处理不确定性,则不能使用相同的数据点进行假设生成和假设测试。数据有限时,不确定性会迫使你在统计学和分析学之间做出选择。

没有统计学,就无法知道自己刚刚产生的观点是否站得住脚。没有分析学,就只能在摸索中前进,几乎无法掌握未知的未知。

这是一个艰难的选择!是睁开双眼接受灵感(分析学),发誓放弃知道新发现是否能站住脚的满足感,还是冒着冷汗祈祷自己选择要问的(在没有任何数据的情况下,一个人在杂物室里冥思苦想出来的)问题值得自己即将得到的严密答案(统计学)?

“兜售”后见之明的小贩

骗子摆脱这种困境的方式是对其视而不见,发现一片薯片长得像猫王,然后假装对这一事实感到惊讶。(统计假设测试的逻辑可以归结为:我们的数据是否让我们惊讶到改变自己的想法。如果我们已经见过这些数据,我们又怎么会对它们感到惊讶呢?)

在你看来,图片中的云朵和薯片长得像兔子还是像猫王呢?亦或是像某一位总统?

骗子发现一个模式并从中得到启发,然后以相同的模式测试相同的数据,为的是用一到两个合理的p值生成可验证其理论的结果,他们这样做实际上是在欺骗你(可能也是在欺骗他们自己)。这样的p值没有任何意义,除非在查看数据之前对假设作出承诺。

骗子模仿分析师和统计学家的一举一动,却并不明白其中缘由,这为整个数据科学领域带来了不好的声誉。

真正的统计学家总是谨慎行事

由于统计学家在严密的推理方面享有近乎神秘的声誉,“万金油”在数据科学领域的出现频率创下了历史新高。这种骗术不易被人发觉,尤其是在那些毫无防备的受害者认为这正关系到方程和数据的时候。数据集就是数据集,对吗?错,要看你如何使用数据集。

这些骗子身上都带有冒牌货的标志,你只需要一个线索就可以识破他们的真面目:骗子只有后见之明——用数学重新发现他们已经知道的存在于数据中的现象,而统计学家提供的是具有先见之明的测试。

与骗子不同,优秀的分析师是思想开放的典范,总是将鼓舞人心的见解与提醒相结合,提醒人们观察到的某种现象可能有多种不同的解释,而优秀的统计学家则会谨慎地做出决定。

分析师带来灵感

分析师不必负责一切,他们要根据数据中包含的内容得出结论。如果他们想对没见过的事物提出观点,那他们担任的就是另一种工作了。他们应该摘下分析师的“帽子”,带上“统计学家”的头盔。毕竟,无论你的正式职位是什么,都没有这样一条规则说你不能投身两种行业。只要你想,就可以这么做,只是不要把它们弄混了。

骗子怎样测试假设

擅长统计并不意味着擅长分析,反之亦然。如果有人跟你说的与之相反,请自行思考。如果这个人告诉你,你可以对你研究过的数据进行统计推断,请再次问问自己。他很有可能是个骗子。

隐藏在天花乱坠的解释背后

如果你在现实生活中观察数据骗子,你会发现他们喜欢编造一些天花乱坠的故事来“解释”观察到的数据:故事听起来越学术越好,并不在乎它们只是(过分)符合事后的数据。

骗子这样做完全是胡扯。再多的方程甚至是夸夸其谈也无法弥补这样一个事实:他们没有证据表明他们知道自己谈论的内容超过了数据的范围。不要被他们天花乱坠的解释蒙骗了。如果是统计推断,他们就必须在看到数据之前谨慎做出决定。

这相当于炫耀他们的“通灵”能力,先瞄一眼你出的牌,然后预测你手上拿着什么牌……无论你拿着什么牌,他们都能预测出来。做好准备,听听他们的花言巧语:你的面部表情如何将你手中的牌泄露给他们。这是后见之明偏误,它在数据科学领域随处可见。

分析师说,“这是你刚才出的方块皇后。”统计学家说,“游戏开始之前,我把我的假设写在了这张纸片上。我们开始吧,观察一些数据,看我假设得对不对。”骗子说,“我早知道你要出方块皇后,因为……”

机器学习说,“我要一直提前调用它,看看我完成得如何。然后重复再重复。我可能会调整自己的反应,从而适应某个有效的策略。但我会用某个算法来完成这一过程,因为手动追踪这一切实在太烦人了,”

图源:unsplash

阻止骗子进入你的生活

要处理的数据不算太多时,你必须要在统计学和分析学之间做出选择。幸运的是,如果你有大量数据,那么你将有一个绝妙的机会来利用自己的分析和统计信息,而不会上当受骗。你还可以通过一个完美的计策来让自己免受骗子侵害,这叫做“数据拆分”,笔者认为这是数据科学中最强大的思想。

为保护自己免受骗子侵害,你要做的就是确保某些测试数据处于他们可窥探到的范围之外,然后将其他所有内容看作分析学(不要当真)。当你面对某种你可能会全盘接受的理论时,可以用它来替你做主,然后打开你的秘密测试数据,看看这个理论是不是一派胡言。

从人们习惯的时代到“小数据”时代,这是一个巨大的文化转变,你必须解释自己是如何知道自己所知道的东西,才能以一种轻松的方式-说服人们,你可能确实知道一些东西。

同样的道理也适用于机器学习/人工智能

一些伪装成机器学习/人工智能专家的骗子很容易被识破。你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付。(较早的预警信号是他们缺乏行业标准编程语言和库的经验。)

但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的,他会向你展示他们的模型有多好,用的是他们制作模型时使用的数据。如果你构建了一个极其复杂的机器学习系统,你怎么知道它能不能正常运行呢?你没法知道,除非你能证明它可以处理以前从未见过的新数据。

有足够的数据可以分割时,无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯,在任何地方都可以看到,不仅仅是在科学领域)。

进行统计工作或保持谦虚的态度

套用经济学家保罗·萨缪尔森(Paul Samuelson)的一句俏皮话:骗子成功预测了最近五次衰退中的九次衰退。

笔者对数据骗子没有耐心。“了解”一些长得像猫王的薯片又怎样?没人在乎你的观点是不是符合原来的“薯片”。解释再天花乱坠,笔者也不为所动。看看理论/模型能不能适用于(而且能够一直适用于)一大堆从未见过的新“薯片”,这才是对该观点的真正考验。

给数据科学专业人士的建议

数据科学专业人士,如果你想得到那些明白此处幽默的人的重视,请不要再用花哨的方程式来支持你的个人偏见。让我们看看你的真才实学。如果你想让那些“了解”你理论/模型的人将这些理论/模型看作是鼓舞人心的诗歌,那么就请大胆地在他们面前用全新的数据集进行一次伟大的展示吧!

给领导者的建议

领导者不愿认真看待任何与数据有关的“见解”,除非这些见解已经通过了新数据的测试。不想付出努力吗?要坚持利用分析学,但不要依赖于这些见解——它们站不住脚,而且其可信度尚未通过检查。

此外,公司拥有大量数据时,将分割数据作为科学文化的核心部分,甚至通过对专用于统计数据的测试数据的访问加以控制,从而将其应用于基础架构,这不会有任何坏处。这是一个将“万金油”扼杀于摇篮之中的好办法!

数据过少而无法分割时,只有数据骗子才会严格追随他们的灵感,用数学方法重新发现他们已知的存在于数据中的现象,宣称他们的惊人发现具有统计学意义,这便是后见之明。这让他们有别于思想开放的分析师和细心的统计学家。

数据充足时,要养成数据分割的习惯,一定要对原始数据堆的不同子集分别进行分析和统计。这样你就可以在不受骗的情况下占据双重优势了!

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

数据骗子无处不在,教你拆穿所谓“万金油”相关推荐

  1. Wireshark数据抓包教程之Wireshark的基础知识

    Wireshark数据抓包教程之Wireshark的基础知识 Wireshark的基础知识 在这个网络信息时代里,计算机安全始终是一个让人揪心的问题,网络安全则有过之而无不及.Wireshark作为国 ...

  2. Wireshark数据抓包教程之Wireshark捕获数据

    Wireshark数据抓包教程之Wireshark捕获数据 Wireshark抓包方法 在使用Wireshark捕获以太网数据,可以捕获分析到自己的数据包,也可以去捕获同一局域网内,在知道对方IP地址 ...

  3. 人人皆可大数据!SACC教你玩转阿里ODPS

     人人皆可大数据!SACC教你玩转阿里ODPS [IT168 专稿]为什么我们使用搜索引擎时,不同的用户搜索同样的关键词看到的广告却不同?为什么我们到电子商务网站购物时,每次浏览同样的商品时都可以 ...

  4. 换新NAS不用愁,3种数据迁移方法教你轻松学会

    NAS 虽然一台能用很久 但总免不了升级换代 如何优雅地将数据 从之前的群晖 NAS 中 迁移到全新的NAS里呢? 小编给大家准备了三个方案 大家可以根据自己的实际情况 进行选择~ 01 Hyper ...

  5. 腾讯数据科学家手把手教你做用户行为分析(案例:出行选择)

    来源:大数据DT本文约6500字,建议阅读10分钟 本文将结合示例,讲解选择行为的经济学理论和计量分析模型,详细介绍用户选择行为的分析方法论. [ 导读 ]生活中的选择行为无处不在,数据分析师面对的商 ...

  6. c语言随机生成int64_t类型的数据_手把手教你代码生成(上):MATLAB代码生成

    FrancisZhao:专栏文章列表以及一些说明​zhuanlan.zhihu.com FrancisZhao:手把手教你代码生成(下):SIMULINK代码生成​zhuanlan.zhihu.com ...

  7. 手把手教你入侵网站修改数据_手把手教你使用Python抓取QQ音乐数据(第四弹)...

    [一.项目目标] 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 通过手把手教你使用Python抓取QQ音乐 ...

  8. mysql sql注入怎么获取数据_手把手教你通过SQL注入盗取数据库信息

    目录数据库结构 注入示例判断共有多少字段 判断字段的显示位置 显示登录用户和数据库名 获取所有数据库名 获取对应数据库的表 获取对应表的字段 获取所有的用户密码 我们都是善良的银!一生戎码只为行侠仗义 ...

  9. vfp 调用接口取数据_2分钟教你调用全国天气预报数据接口

    在智能手机软件的装机量中,天气预报的APP排在比较靠前的位置.说明大家对天气的关注度还是比价高的,毕竟无论工作还是度假旅游等各种活动都需要根据自然天气来安排. 那么,接下来就花2分钟,聚合菌教你如何调 ...

最新文章

  1. plt.figure()各参数使用
  2. Linux正变得无处不在;应用大盘点
  3. Callable和Future
  4. MAC Pro 同时安装 Python2 和 Python3
  5. 怎样知道邮箱的端口_AllenNLP源码拓展——训练结束向邮箱发邮件
  6. 浏览器自定义css代码,根据浏览器不同设置CSS
  7. 八个被现代科学证实的古老信条
  8. python 寻找数组的中心索引_Leetcode724查找数组Python的中心索引,LeetCode724,寻找,python...
  9. 【拾贝】hive unoin all map数爆增
  10. win10系统中如何把自带的IE11降级回IE8?
  11. wps表格宏被禁用如何解禁_wps宏被禁用如何打开?
  12. 海康威视摄像头web端开发
  13. 用python做乘法口诀表_如何用python编写乘法口诀表
  14. hdu-5745 La Vie en rose bitset
  15. Pandas[加深学习]01-pandas基本数据结构
  16. 华为通用软件开发工程师面经(业务主管面挂)
  17. 小米3 SIM 卡无法识别
  18. 【随笔】方波的表示、转换与应用
  19. 关于语音会议自动转文字系统的想法
  20. 四旋翼无人机学习第8节--OpenMV电路分析

热门文章

  1. 国内与国外的域名注册商的不同
  2. 【历史上的今天】4 月 14 日:Ruby 之父诞生;GDPR 首次颁布;Lindows 更名为 Linspire
  3. 怎样将网页保存为html,如何将网页保存为书签
  4. 何鸿略加入华为消费者业务 任大中华区副总裁
  5. mp4视频无法播放的解决方法
  6. Ghost还原出错An internal inconsistency has been detected
  7. Translatium for Mac(Google在线翻译工具)
  8. 关于电信基站nid,sid,bid
  9. Neat Video Pro插件如何在Flame 2020中使用
  10. TMS320C6748开发视频教程笔记 第6章 GEL 文件