来源:ScienceAI

编译:萝卜皮

研究人员希望更多用户友好的机器学习系统将使非专家能够分析大数据——但这样的系统能完全自主吗?

麻省理工学院计算机科学家 Kalyan Veeramachaneni 分享了他对自动化机器学习 (AutoML)现状、创建全自动机器学习系统的挑战以及未来道路的看法。

Kalyan Veeramachaneni

从银行业到医疗保健再到环境监测,跨领域大数据的激增刺激了对机器学习工具的需求不断增长,这些工具可帮助组织根据收集到的数据做出决策。

不断增长的行业需求促使研究人员探索自动化机器学习的可能性,该技术旨在自动化机器学习解决方案的开发,以使非专家可以使用它们,提高他们的效率,并加速机器学习研究。例如,AutoML 系统可帮助医生利用他们的专业知识来解释脑电图(EEG)结果来构建一个模型,该模型可以预测哪些患者患癫痫的风险更高——而无需医生具有数据科学背景。

然而,尽管进行了十多年的工作,研究人员仍无法完全自动化机器学习开发过程中的所有步骤。即使是最高效的商业 AutoML 系统仍然需要在领域专家(如营销经理或机械工程师)和数据科学家之间进行长时间的来回交流,从而使流程效率低下。

Kalyan Veeramachaneni 是麻省理工学院信息与决策系统实验室的首席研究科学家,自 2010 年以来一直在研究 AutoML,他在 ACM Computing Surveys 杂志上合著了一篇论文,详细介绍了一个七层示意图,用于根据 AutoML 工具的自主级别来评估它们。

论文链接:

https://dl.acm.org/doi/10.1145/3470918

零级系统没有自动化,需要数据科学家从头开始并手工构建模型,而六级工具是完全自动化的,非专家也可以轻松有效地使用。大多数商业系统都处于中间位置。

Veeramachaneni 谈到了 AutoML 的当前状态、阻碍真正自动机器学习系统的障碍以及 AutoML 研究人员的未来之路。

问:自动机器学习在过去十年中是如何发展的,AutoML 系统的现状如何?

答:2010 年,我们开始看到转变,企业希望投资于从商业智能之外的数据中获取价值。那么问题来了,也许在基于机器学习的解决方案的开发中,我们可以自动化某些事情?AutoML 的第一次迭代是让我们作为数据科学家的工作更有效率。我们能否将日常繁重的工作去掉,并通过使用软件系统将其自动化?这个研究领域一直持续到 2015 年左右,当时我们意识到我们仍然无法加快这个开发过程。

然后另一个线程出现了。有很多问题可以用数据解决,它们来自了解这些问题的专家,他们每天都与这些问题一起生活。这些人与机器学习或软件工程几乎没有关系。我们如何将它们带入折叠中?那真的是下一个技术前沿。

这些领域专家在机器学习系统中有三个方面有很强的投入。首先是定义问题本身,然后帮助将其制定为机器学习模型要解决的预测任务。其次,他们知道数据是如何收集的,因此他们也很直观地知道如何处理这些数据。最后,机器学习模型只给你解决方案的很小一部分——它们只是给你一个预测。机器学习模型的输出只是帮助领域专家做出决定或行动的一个输入。

问:机器学习流程的哪些步骤最难自动化,为什么自动化它们如此具有挑战性?

答:问题制定部分极难自动化。例如,如果我是一名想要获得更多政府资助的研究人员,并且我有很多关于我撰写的研究计划的内容以及我是否获得资助的数据,那么机器学习是否有帮助?我们还不知道。在问题表述中,我利用我的领域专业知识将问题转化为更切实可预测的问题,这需要非常了解该领域的人。他也知道如何在预测后使用该信息。这个问题是拒绝自动化。

问题制定的一部分可以自动化。事实证明,我们可以查看数据并自动以数学方式表达几个可能的预测任务。然后我们可以与领域专家共享这些预测任务,看看它们中的任何一个是否有助于解决他们试图解决的更大问题。然后一旦你选择了预测任务,你就需要做很多中间步骤,包括特征工程、建模等;这些步骤非常机械且易于自动化。

但是定义预测任务通常是数据科学家和领域专家之间的协作努力,因为除非您了解领域,否则您无法将领域问题转化为预测任务。然后有时领域专家不知道「预测」是什么意思。双方需要频繁交流,这导致了这个过程中的大量的无效重复工作。如果有了自动化这一步,那么机器学习的渗透和使用数据来创建有意义的预测将大大增加。

那么机器学习模型给出预测之后会发生什么?我们可以自动化其中的软件和技术部分,但归根结底,它是根本原因分析以及人类直觉和决策。我们可以用很多工具来增强它们,但我们不能完全自动化。

问:您希望通过您在论文中概述的用于评估 AutoML 系统的七层框架实现什么目标?

答:我希望人们开始认识到某些程度的自动化已经实现,有些还需要解决。在研究界,我们倾向于专注于我们感到舒服的事情。我们已经习惯于自动化某些步骤,然后我们就坚持下去。自动化机器学习解决方案开发的这些其他部分非常重要,这也是最大的瓶颈所在。

我的第二个希望是研究人员将非常清楚地了解领域专业知识的含义。许多 AutoML 工作仍在由学者进行,问题是我们通常不做应用工作。领域专家是什么并没有一个非常清晰的定义,「领域专家」本身就是一个非常模糊的词组。我们所说的领域专家是指您尝试使用机器学习解决的问题的专家。我希望每个人都围绕这一点统一起来,因为这会让事情变得更加清晰。

我仍然相信我们无法为那么多问题构建那么多模型,但即使对于我们正在构建的模型,它们中的大多数也没有在日常生活中得到部署和使用。机器学习的输出只是某人决策中的另一个数据点,一个增强的数据点。他们如何根据这些输入做出这些决定,这将如何改变他们的行为,以及他们将如何调整他们的工作风格,这仍然是一个很大的悬而未决的问题。一旦我们自动化了一切,那就是下一步。

我们必须确定在银行贷款的人的日常工作流程中需要从根本上改变什么,或者教育工作者试图决定他是否应该改变在线课程中的作业。他们将如何使用机器学习的输出?我们需要专注于我们必须构建的基本事物,以使机器学习更有用。

相关报道:

https://news.mit.edu/2021/automated-machine-learning-veeramachaneni-1006

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

3 个问题:MIT专家论述关于阻碍AutoML发展的障碍相关推荐

  1. 黄铁军:沉迷于寻求通用智能理论,将是阻碍 AI 发展的最大障碍 | Yann LeCun 自传《科学之路》序...

    导读:近日,中信出版社出版了2018 年图灵奖获得者.「卷积神经网络之父」 Yann LeCun 的自传--<科学之路>.智源研究院院长黄铁军教授受邀为<科学之路>作序--&l ...

  2. 网民担心网店新规阻碍电子商务发展

    导读: 业内人士分析,淘宝网目前6200万注册用户,受到新规定冲击后保守估计至少还会有3000万家继续经营,单验证费用一项,缴费总额就将达到150亿元. 近日,中国互联网络信息中心(CNNIC)发布& ...

  3. 不写代码,用图形界面搞机器学习:MIT发布“全球最快AutoML”,刷新DARPA比赛成绩...

    栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI △ 来自<铁男> 科幻剧情里,没有看过哪位大佬拿Python写代码. 眼前净是蓝汪汪的全息画面,用手指拖几下,再点几下,就算出 ...

  4. MIT发布“全球最快AutoML”,刷新DARPA比赛成绩

    栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI 来自<铁男> 科幻剧情里,没有看过哪位大佬拿Python写代码. 眼前净是蓝汪汪的全息画面,用手指拖几下,再点几下,就算出了结果 ...

  5. 阿里云天池携手产学研心血管专家,共话心血管AI发展

    简介: 为进一步推动人工智能在心血管领域的应用和落地,由合肥高新区管委会与阿里云计算有限公司主办,阿里云创新中心-合肥高新.合肥迪比空间技术服务有限公司.杭州师范大学承办,安徽华米信息科技有限公司.杭 ...

  6. 自由软件之父 Stallman:微软的 Windows Subsystem for Linux (WSL)会阻碍自由软件发展

    (图左:Richard Stallman,图右:Mark Shuttleworth) 关于微软突然对 Linux 表现出极大的热情,TechRepublic 从 Canonical 的创始人兼首席执行 ...

  7. 低学历并不是阻碍职业发展的绊脚石

    低学历并不是阻挡你职业的绊脚石,那我来举例子吧,本人普通专科毕业,当时在我们省内算是不错的专科院校,但是毕业之后来到大城市,才感觉到原来专科学历是多么弱小,感觉到了学历是多么重要,我去投递简历的时候, ...

  8. 涡流核聚变反应堆项目

    涡流核聚变反应堆项目 一. 研发背景 随着我国国民经济的不断发展,综合国力的显著增强,我国民用核工业得到了极大的发展,民用核反应堆的需求数量近年来也在大幅增长. 二.项目技术可行性分析 项目名称: 涡 ...

  9. 在高温环境下利用金属钋、铍和锂制备氚化锂的方法

    在高温环境下利用金属钋.铍和锂制备氚化锂的方法 (2016-12-01 08:52:12)[编辑][删除] 转载▼ 一. 研发背景 随着我国国民经济的不断发展,综合国力的显著增强,核工业生产对氚化锂的 ...

最新文章

  1. python post请求 415_接收错误415:使用REST API发送GET请求时不支持媒体类型
  2. 利用PowerDesigner15在win7系统下对MySQL 进行反向project(二)
  3. 【Python3_进阶系列_010】Python3-生成器
  4. UVA12416 Excessive Space Remover【对数+字符流】
  5. 计算机仿真技术交通灯设计,交通灯的设计心得体会总结
  6. sqlserver tvps java_中毒了,请高手看一下诊断报告。
  7. python 温度 符号_python中温度单位转换的实例方法
  8. GPS在ROS中的测试和使用
  9. mac 安装virtualbox虚拟机
  10. 触动精灵中return-break-exit的使用总结
  11. 15个好用的百度网盘搜索引擎
  12. hexo更换icarus主题和美化
  13. 画春天的景色计算机教案,最新《画春天》教案
  14. 微信小程序打包的原理_说说微信小程序和它的打包加密算法
  15. 微信群管理助手哪里弄的?
  16. google的高级搜索语法说明
  17. 大数据、Java、Python、区块链、人工智能前景简单对比
  18. 光纤网卡千兆和万兆、光口和电口之间的区别?与PC网卡、HBA卡的区别有哪些?
  19. Hidden Message
  20. nwjs自动更新 node-webkit-updater

热门文章

  1. 比CycleGAN更强的非监督GAN----DistanceGAN
  2. 独家 | Python 3.10发布——你应该知道的五大新特性
  3. 图挖掘与多关系学习:工具与应用,亚马逊与CMU-WWW2021教程(附ppt)
  4. 清华大数据能力提升项目《数据分析方法》选课开始 !(附旁听名额)
  5. 盘点近期重大技术成就及其将带给你的影响,与你我息息相关!
  6. 90行代码!大一学生自学编程,自创搜题网站,已在GitHub开源
  7. VALSE 青年学者 | 心中的象牙塔:怎样才能拿到理想的教职offer?
  8. 【CVPR2020】目标检测方向论文更新
  9. SAP WM中阶存储类型里的Full stk rmvl 字段和Return Storage type字段
  10. SAP MM初阶之事务代码MIGO界面批次拆分最多输入15行?