机器学习并不“万能”

导语：机器学习有时候是好的解决方案，有时候则不是。

“如果一个人可以在1秒以内完成一项思维任务，那么可能在现在或者不久的将来，我们可以使用人工智能（AI）来自动化处理这项任务。”

——吴恩达

本文读者大多数比较熟悉机器学习，也会使用相关算法来根据数据对结果进行分类和预测。然而，很重要的一点，就是机器学习并不是解决一切问题的万能钥匙。机器学习如此有用，所以大家很难接受一个事实——有时候机器学习并不是一个问题的最佳解决方法。

这篇文章就是想告诉大家，机器学习有时候是好的解决方案，有时候则不是。

众所周知，机器学习作为人工智能的一部分，在过去十年对世界产生了革命性的影响。信息爆炸引起了大数据的采集，尤其是像脸书、谷歌这样的大公司。数据量加上处理器功耗和计算机并行处理的快速发展，使得大数据的获取和学习变得相对容易。

今天，对机器学习和人工智能的吹捧无处不再。这可能是对的，因为这个领域的潜力是巨大的。人工智能公司数量在过去几年里爆发式增加，根据 Indeed 的一份报告，2015-2018 年，与人工智能相关的岗位数量增加了 100%。

截至2018年12月，福布斯发现 47% 的企业在其业务流程中包含至少一个人工智能功能。根据 Deloitte 的报告，内置 AI 和基于云的 AI 开发服务在企业软件的渗透率估计分别达到 87% 和 83%。这些数据是非常惊人的——如果近期你想做些职业变动，人工智能看上去是个不错的选择。

一切看上去都挺美好的？公司满意，想来消费者也是满意的——否则企业是不会使用人工智能的。

这很好，因为我是机器学习和人工智能的超级粉丝。然而，有时候使用机器学习就没什么必要，也说不通，甚至在操作的时候会给人带来困难。

局限1——伦理

不难理解为什么机器学习会对世界产生如此大的影响，不用再明确它的能力是什么，可能更重要的，是知道它的局限是什么。尤瓦尔·赫拉利创造了有名的“数据主义”一词，指的是我们正在进入的一个假定的文明新阶段，在这个阶段里，我们对算法和数据的信任超过了对我们自身判断和逻辑的信任。

虽然会觉得这个想法可笑，但你想想上次去旅行的时候，是不是跟着 GPS 的导航而不是自己看着地图走——你质疑过 GPS 的判断吗？人们盲目地跟随 GPS 的指引，结果掉进了湖里...

信任数据和算法超过自身的判断，有利有弊。显然地，我们从算法中获益，不然一开始也不会使用。算法通过可用数据作出预期判断来实现自动化处理。虽然有时候，这意味着某个人的工作会被一种算法取代，产生一些伦理问题。加之，如果事情变得糟糕，我们应归责于谁？

最近讨论最广泛的例子就是自动驾驶——我们应该如何选择汽车在撞死人后应该作出的反应？未来我们在购买汽车的时候，也不得不选择自己购买自动驾驶车辆的伦理框架吗？

如果我的自动驾驶车在路上撞死了人，那么是谁的责任？

这些都是引人深思的问题，但并不是本文的主要目的。显然，机器学习不能告诉我们应该接受什么规范价值，即在世界上特定的处境里，应该如何采取行动。就像大卫·休谟著名谚语所说，一个人永远不能从“本来如此”得出“应该如此”。

限制2——确定性问题

这是我个人必须面对的一个问题，因为我的专业领域是环境科学，它严重依赖于计算建模和使用传感器/物联网设备。

机器学习对于传感器来说是非常强大的，当连接到其他测量环境变量(如温度、压力和湿度)的传感器时，机器学习可以帮助校准和校正传感器。这些传感器信号之间的相关性可以用来发展自校准程序，这在我研究的大气化学研究领域中是一个热点研究课题。

然而，当涉及到计算建模时，事情会变得更有趣。

运行模拟全球天气、地球的排放和这些排放的传输的计算模型在计算上是非常昂贵的。事实上，计算成本太高，即使在超级计算机上运行，研究级的模拟也可能需要数周的时间。

MM5和WRF是这方面的很好的例子，它们是用于气候研究和在早间新闻上给你天气预报的数值天气预报模型。知道天气预报员一整天都做些什么吗？答案：运行并研究这些模型。

运行天气模型是很好，但是现在我们有了机器学习，我们是否可以用它来获取我们的天气预报呢？我们能利用卫星、气象站的数据，并使用基本的预测算法来判断明天是否会下雨吗？

令人惊讶，答案是肯定的。如果我们了解某一区域周围的空气压力、空气中的湿度水平、风速、与相邻点及其自身变量有关的信息，就有可能训练，例如，神经网络。但代价是什么？

用一个有上千个输入的神经网络来确定明天波士顿是否会下雨是可能的。然而，利用神经网络忽略了整个天气系统的物理过程。

机器学习是随机的，而不是确定性的。

神经网络不理解牛顿第二定律，或者说密度不可能是负的-没有物理约束。

然而，这可能不会是一个长期的限制。有多个研究人员正在研究在神经网络和其他算法中加入物理约束，以便它们能够被用于类似这样的目的。

局限3——数据

这是最明显的限制。模型喂得不好，输出结果就不好，主要表现为两种方式：缺乏数据和缺乏优质数据。

缺乏数据

许多机器学习算法在给出有用结果之前需要大量的数据，一个好的例子就是神经网络。神经网络是需要大量训练数据的数据喂养机器。网络的架构越大，产生可用结果需要的数据就越多。重复使用数据是不好的想法，一定程度上数据增强是有用的，但是有更多的数据往往是更好的解决方法。

如果可以获得数据，那就用上。

缺乏优质数据

虽然看上去相似，这种情况和上述情况也是不同的。我们来想象一下，你认为你可以通过给神经网络放入1万个生成的假数据来蒙混过关，当你把它们放进入的时候，会发生什么？

网络会自己训练自己，当你用一组没见过的数据测试网络的时候，效果就不会好：你有了数据，但是数据的质量没有达到标准。

同样地，缺乏优质的特征会导致算法表现不佳，缺乏优质的正确标注数据也会限制模型的能力。没有一家公司愿意使用比人工水平误差还大的机器学习模型。

类似地，将在一种情况下一组数据训练出地模型应用于另一种情况，效果并不相当。目前为止我发现最好的例子，就是乳腺癌预测。

胸部X光数据库包含了大量照片，但是近几年这些数据库面临一个共同的引发热议的问题——几乎所有的X光片都来源于白人女性。这听起来不像什么大事，但实际上，因为检测和获取医疗的差异等各种因素，黑人女性死于乳腺癌的概率已达到了42%。因此，主要基于白人女性训练出的算法，对黑人女性并不友好。

在这个例子里，需要的就是在训练集中增加更多黑人病人的 X 光片数量。更多与导致这42%增加的相关特征，以及通过相关性进行数据分层的更客观的算法。

如果你还有疑问或想要了解更多，建议阅读这篇文章。

局限4——误用

和前面第二个讨论的局限性相关，不管是自然界中的确定性问题还是统计性问题，人们盲目地使用机器学习来尝试分析系统，于是形成了所谓的“学术研究中机器学习的危害”。

在局限 2 中讨论原因的时候提到，将机器学习应用于统计性系统是可行的，但算法不会学习两个变量间的关系，也不知道何时违背了物理定律。我们只是给网络一些输入和输出，告诉它们去学习联系——就像一个人将字典又用文字翻译一遍，算法只是掌握简单的基础物理。

对于统计性（随机）系统，情况就不太明显。机器学习用于统计性系统的危害主要有两种表现形式：

P 值篡改
分析范围

P 值篡改

当一个人可以获得大量数据，可能上百、上千，甚至上百万的变量，就不难发现显著性统计结果（假设大多数研究设定的显著性水平 p<0.05）。这通常为导致伪相关的发现，这些伪相关是从 P 值篡改获取的（查看大数据，直到发现统计显著相关）。这些并不是真正的相关，只是对测量噪声进行的响应。

这已导致个体通过大数据集在统计显著相关性上“钓鱼”，把它们伪装成真相关。有时候，这只是无意的失误（这种情况下，科学家需要更好地训练）。但另外一些时候，被研究员用来增加发布论文的数量——即使在学术世界，竞争也是非常激烈的，人们为了提升指标无所不用其极。

分析范围

统计模型和机器学习的分析范围存在本质区别——统计模型本质是确定性的，机器学习本质是探索性的。

我们可以把确定性分析和模型看成某人的博士课题或研究领域。想象一下，你和一个顾问合作，试着建立一个理论框架来学习一些真实世界的系统。这个系统有一组受其影响的预定义特征，并且，在仔细设计实验和开发假设后，可以运行测试以确定假设的有效性。

另一方面，探索性缺乏和确定性分析的相关的一些特点。事实上，在真正大量数据和信息的情况下，由于数据的巨大体量，确认性方法完全无法使用。换言之，在存在上百个、上千个，乃至上百万个特征的情况下，根本不可能仔细地布置一组有限的可测试假设。

因此从广义上讲，在有大量数据和可计算负责特征的情况下，机器学习算法和方法是探索预测模型和分类的最佳选择。一些人认为它们可以用于“小”数据，但为什么在经典的多变量统计方法这样做时，信息更多呢？

机器学习是一个领域，很大程度上解决了来自信息技术、计算机科学等领域的重要问题，这些问题既有理论性的也有应用问题。正如此，机器学习和像物理、数学、概率论、统计学等领域也相关，但它也确实是一个独立的领域。机器学习领域不会受其他学科提出问题的影响。大多是机器学习专家和从业者提出的解决方法都犯了严重错误...但他们还是完成了工作。

局限5——可解释性

可解释性是机器学习的主要问题之一。一家人工智能公司试图向一家只使用传统统计方法的企业讲解，但如果他们认为模型不可解释，就可以停止了。如果你不能向客户确保你明白算法是如何得到结果的，那如何让他们信任你和你的专业度？

正如《商业数据挖掘——机器学习视角》中所言：

“在商务项目中，如果机器学习的结果是可解释的，那么商业经理人会更倾向于机器学习的推荐。”

除非可以解释这些模型，不然它们显得无能为力，而且人类解释过程遵守的规则，远远超出技术能力。因此，可解释性成为机器学习应用于实践需要实现的一个重要指标。

特别地，兴起的组学科学（基因组学，蛋白质组学，代谢组学等）已经成为机器学习研究者的主要目标，因为这些科学对大型和有意义数据库具有依赖性。然而，尽管取得了明显的成功，但他们的方法缺乏可解释性。

总结及Peter Voss' 列表

不可否认，在人工智能开辟了大量有前景机会的同时，也导致了一种被称为“人工智能解决主义”的心态的出现。这种心态是一种哲学，假定数据足够多，机器学习算法就可以解决所有的人类问题。

希望我在文中清楚表示了在目前情况下机器学习存在的一些限制，从而防止一些情况的发生。神经网络永远不会告诉我们如何做一个好人，至少现在不会，也不会理解牛顿运动定律和爱因斯坦相对论。

机器学习基础理论——计算学习理论里也存在基本限制，主要是统计限制。我们已经讨论了分析范围和 p 值篡改危害的相关问题，这些会带来虚假结论。还有结果可解释性的问题，如果不能让客户和投资者确信他们的方法是准确可信的，就对商业会产生消极影响。

我己经在文章内大量介绍了人工智能的最重要的局限，最后，我会把Peter Voss’在 2016 年 10 月发布的文章列一张表，整理更全面的关于人工智能的局限。虽然目前在细小领域内主流技术是非常强大的，但它们通常会列出部分或所有约束列表，我在这里进行完整引用：

每个特定的应用都需要经过专门训练
需要大量手工标记的结构化的数据
学习通常必须要受监督：训练数据必须被标记
需要冗长的离线/批量训练
不要实时地以增量或交互的方式学习
迁移学习、模型重复使用和集成的能力差
系统不透明，很难进行调试
“长尾”效应难以审核和保证
它们编码相关性，而不是因果关系或本体论关系
实体之间不进行实体或空间的编码
只能处理自然语言里非常局限的部分
不适合高层次，象征推理或计划

话虽如此，机器学习和人工智能将继续为工业带来革命，而且在未来几年只会变得更加普及。虽然我建议大家最大限度地利用机器学习和人工智能，但我也建议你记住手里工具的局限性——毕竟，没有什么是完美的。