大数据文摘出品

来源:towardsdatascience

作者:lin、Andy

对于什么时候应该使用机器学习/AI,很多人都会迟疑和顾虑,而作者正是因为经历了种种顾虑后,将经验总结成这篇文章,文摘菌编译了这篇文章,希望大家能够减少顾虑,更好地与机器学习或AI一起畅享学习之旅。

试想一下,你刚准备对一个临床试验的数据集上手进行分析一下。为了让你有带入感,我自己做了一份类似数据:

假设这些数据列出了患者在60天的疗程内,所接受的治疗天数(输入特征)以和某某疗法正确剂量(输出预测)之间的对应关系。

现在想象一下你正在治疗一个病人,今天是第二天,那么你会建议服用多少剂量的药物呢?

你肯定会回答“17毫克”,因为这个太简单了,白纸黑字直接写着。那第四天呢?看看表,41毫克?完全正确!

那么现在,如果让你写一个软件来输出1-5天的正确剂量呢?你会用机器学习吗?换句话说,你会试着先在这些数据中寻找模式,然后转化成从输入到输出的模型吗?

不会,当然不会,傻子才会!你会让软件像你前面做的一样:直接去表里查结果就行。这样你就能100% 得到在所有60天内的正确答案。不需要寻找模式也不需要什么机器学习。

哪种情况下你需要机器学习

比如现在,是第61天如何?正确答案是什么呢?

那么首先,我们从来没见过第61天的数据,因此无法查找答案。那怎么办呢?怪运气不好没第61天数据吗?还是给目光投向机器学习?那也就还要看情况了。

如果输入输出之间没有什么模式可言的话,就忘掉机器学习吧。在这样的案例中,它基本上很难发挥作用...如果你觉得机器学习可以处理的话,那还是尽早放弃这个想法吧!

那什么情况下可以考虑机器学习呢?

第一,必须找到有用的模式:如果数据里有一个模式(说如果),而且能发现它,那就可以尝试用它预测或猜测第61天的结果。这样机器学习就有用。

第二,模式必须能泛化:现在问题是,光是数据里有一个模式还不够,太简单了。我们还要知道,该模式在60天之后还能适用吗。如果第61天的条件完全不同,导致模式不能泛化怎么办?因为你要知道,也许在第61天所有患者就已治愈或死亡,或开始服用不相容药物。那么这时,在之前数据中发现的模式就不会太有用。

第三,非平稳世界:如果你的数据并不能很好的反应未来—也许因为一场大流行改变了世界的一些运行规则,那么之前获得的数据再好也没什么价值。如果你生活在宇宙中一个不稳定的角落,那你就很难验证一般所说的遍历性和平稳性假设,翻译成人话就是“我相信规则并没有什么改变。”

这里,我说的不稳定并非旁人眼中所谓的不稳定现象,例如通货膨胀导致的物品平均价格随时间的波动。这种简单的不稳定性(随时间变化的可预测函数)是时序分析领域处理的问题。

其实我想谈的是,那种你几乎束手无策的极端不稳定性,因为系统规则从本质上改变,所以无法从一个周期去预测下一个。如果你过去的数据突然无法适用不确定的未来,你也就很难坦然地用昨天去预测明天。

也许你运气很好。

如果现在有一个模式,而且这个模式适用于新条件,那么就可以直接开干了。先通过已有数据去找到这个模式,做出一个模型,之后用它去获取第61以及之后每天的数据!

寻找模式并使用它们,这就是所谓的机器学习。

何时使用机器学习

在应用机器学习和AI时,你不是单纯重复之前见过的例子—这根本不用机器学习来做,只要查下表就行!记住,你是来让模型学习的。

只是重复旧答案吗?不,ML可以做得更好!它能在新实例上也进行预测。

你的任务是?搭建一套可以成功泛化的解决方案,或者…放弃治疗。

换句话说,如果你的解决方案不能处理之前从未见过的新示例,那么它就不是好的解决方案。当然这个新示例并不用完全打破稳定宇宙的所有规则,而只是在相关学习主题上有一些小变动。

我们不是在鹦鹉学舌,而是需要泛化到新情况。那才是机器学习的威力和魅力。

如果你从未见过某个具体的数据组合(比如第61天的数据),那么如何获得它地答案? 好吧,也许这就需要给旧模式总结成一个模型,之后用它来预测。例如,如果你从成千上万的动物照片中训练了一个猫分类器,你可以让它告诉你一张新照片中是否有猫,但你不应该让它告诉你一幅画是否立体派风格。

机器学习适合你吗

如果你讨厌我称机器学习为事物标签器,或是另一种编写代码的方法,那么就让换一种说法吧。

机器学习是一种自动化重复决策的方法,包括用算法从数据中寻找模式,并利用这些模式来正确处理新数据。

要了解机器学习是否适合你,我提供了三个你可能会喜欢的指南:

  • 是ML / AI项目入门者吗?22项实用检查清单:http://bit.ly/quaesita_realitycheck
  • 查找ML / AI用例的建议:http://bit.ly/quaesita_island
  • ML / AI入门?从这里开始:http://bit.ly/quaesita_dmguide

那么,存在有用的模式吗?

如果仍旧对第61天的结果好奇?那么我可以告诉你,其实示例数据中是有一个模式地。我知道这个,因为这是我设置的。甚至我可以向你保证,它将泛化到你能想到的最大数字再加一天,因为在这个极度不稳定的时代,我发现能用一个这样能随改变有规律变化的数据真是一个奢侈的享受,所以让大家也奢侈一下。

对于那些喜欢挑战的人,不妨试试看自己喜欢的机器学习算法能否找到这个数据中的模式?让我知道你认为的第61天的答案是什么。大约一周内,我会在注释中添加用于生成这些数据的代码,这样你们就能知道自己是否做对了。

我也怀疑可能大部分人会通过分析的方法,而不是通过机器学习来解决。祝你好运吧!愿最好的方法获胜!

如果你非常想尝试ML,那请别忘了按正确的顺序开始,好的方法能助你一臂之力。

相关报道:

https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29

到底什么时候不应该使用机器学习?相关推荐

  1. [机器学习] --- 红楼梦后四十回到底是谁写的?机器学习分析法

    流传到今天的<红楼梦>共有120回,很多人认为是曹雪芹写了前八十回,后四十回是高鹗续写.后来随着新材料的发现,红学界经过慎重考察,认为后四十回并不是高鹗所写,高鹗和程伟元只是整理出版了&l ...

  2. 2.3 KNN-采用机器学习库来预测鸢尾花的分类

    如下图,一朵花由很多部分组成,比如由有萼片,花被等,而山鸢尾, 杂色鸢尾和 维吉尼亚鸢尾 它们的区别在于萼片长度和宽度以及花瓣长度和宽度,根据这些特征来判断到底是哪种花 首先导入机器学习库里的数据,数 ...

  3. 反装逼指南:掀起机器学习的神秘面纱

    乾明 编译整理自 Hacker Noon 量子位 出品 | 公众号 QbitAI 机器学习是什么?给你十秒钟,请给出答案. -- 不知道?就这你还想从事人工智能行业?得了吧! 听着:机器学习使用数据中 ...

  4. 机器学习是什么?我对机器学习的理解

    第一次听到机器学习这个名词的时候,很恍惚,不知道它到底是什么? 我对机器学习的理解 机器学习是什么? 机器学习的工作流程是什么? 在机器学习中对于数据集的理解 数据分割 什么是特征工程? 特征工程分类 ...

  5. 对传统机器学习和深度学习的一些思考

    文章目录 0.写在前面 1. 机器学习是什么? 2. 从机器学习到深度学习 2.1 机器学习的发展历史 2.2 到底机器学习和深度学习的关系是什么? 3. 传统的机器学习算法没落了么?还有必要学么? ...

  6. 基础篇 | 01 机器学习基础

    本系列概述 核心内容是深度学习,只不过我们会进行代码实践,来巩固我们讲的概念的基础.会使用机器学习开发可以实际使用的工程项目,这也是我们这个系列跟其它机器学习最大区别的地方. 深度学习的意义 当然,不 ...

  7. Python入门机器学习

    点击关注我哦 一篇文章带你学习基本要求以精通机器学习 机器学习,深度学习,数据科学和人工智能(AI)是当今最常用的流行语.这些主题的受欢迎程度每天都在上升.每个人.每个企业都在尝试向这些领域靠拢.据& ...

  8. 2022年10大最受欢迎的顶级机器学习库(免费、开源)

    目录 机器学习库到底是什么? 那为什么 机器学习库最受欢迎? 2021 年10大的Python 机器学习库 机器学习库到底是什么? 在人工智能.机器学习开荒的年代,程序员需要手打公式.算法来执行ML认 ...

  9. 机器学习在无人驾驶中的应用现状及面临挑战

    https://www.toutiao.com/a6647268343461970445/ 2019-01-17 09:16:07 1月10日,在青岛举行的2019国家智能产业峰会智能驾驶平行论坛上, ...

最新文章

  1. 【Groovy】集合遍历 ( “ *. “ 展开操作符 | 代码示例 )
  2. 贝叶斯决策思想的应用与延伸
  3. 【收藏】k8s使用如下配置给pod固定ip
  4. 18行代码AC_Wet Shark and Bishops CodeForces - 621B(数学推导+映射)
  5. 如何正确创建DLL和使用DLL
  6. 如何让char不要忽略开头的空格_如何使用C语言实现JSON解析库(二)
  7. 【追光者系列】Hikari连接池大小多大合适?(第一弹)
  8. hdu 6205: card card card【输入挂】
  9. 微软专家推荐11个Chrome 插件
  10. js中的new Option默认选中
  11. java毕业设计_基于java的毕业设计
  12. windows客户端,坚果云如何开启云桥模式
  13. 愿你不会像我一样,活成狗一般的生活!
  14. 获取基金数据python库_PYTHON爬取基金数据及基金筛选
  15. linux监控工具 go实现,Gotop:另一个 TUI 图形活动监视器,使用 Go 编写
  16. 模拟MP-BGP建立全过程(BGP MPLS vpn)
  17. vue获取本地IP地址 自动配置本地请求地址
  18. 中国茶道的基本精神(转)
  19. LLC谐振变换器学习二
  20. 闩锁(latch)概述

热门文章

  1. python保存list
  2. ner pytorch project code
  3. 2021-04-03生产中实体关系抽取一般采用什么方法?
  4. oracle 和 ' 特殊字符处理
  5. oracle导出多CSV文件的靠谱的
  6. 源创Talk第1期 | 对话晶泰科技赖力鹏:AI制药独角兽的崛起之路
  7. YOLOX:高性能目标检测的最新实践 | 报告详解
  8. 图灵奖得主高德纳与 LaTex 有啥关系?90%的人都不知道
  9. 史上最全的ubuntu16.04安装nvidia驱动+cuda9.0+cuDnn7.0
  10. Emojify - v2 吴恩达老师深度学习第五课第二周编程作业2