作者 | Sergii Shelpuk

译者 | 陆离

编辑 | 夕颜

出品 | AI科技大本营(ID: rgznai100)

【导读】2019年是AI领域更加冷静的一年,少了些喧嚣和泡沫,大浪淘沙留下的是经过检验的真正的AI研究者、实践者。但是你也许没有发现,本来被寄予厚望要解决一切“疑难杂症”的AI,现在正在陷入一个怪圈:关注的领域越来越狭隘,集中于计算机视觉和NLP两个领域,关于AI应用缺少了天马行空。

在过去的8年里,本文作者作为AI社区的一员,曾经为不同的公司在不同的岗位上工作过。在DeepTrait,随着更多地关注遗传分析和工程方面的AI应用,他得以从一个全新的视角来审视一下AI社区。本文中,作者将分别从内部和外部的角度来阐述对AI的看法。

在2012年,AlexNet网络在ImageNet比赛中取得的成功预示着神经网络的重生,以及在该领域开始了一个令人兴奋的新周期。我在2011年就参与到了机器学习(ML)的研究之中,在它大规模的爆发之前,我已然见证了它在这些年的发展。作为全球顶级的机器学习大会之一,ICML 2013在佐治亚州亚特兰大市的一个酒店内举行,当时有几百人参加了这次大会。2018年的大会是在瑞典的斯德哥尔摩举办的,来自世界各地的5000多人参加了会议。到了2019年12月,这一主题最大规模的会议NeurIPS则聚集了一万三千多名AI的研究人员和工程师。

       图1. 大型会议的出席人数, 来源:AI Index 2019

随着资助经费数量和参与度的提高,机器学习领域的研究蓬勃发展。由于历史方面的原因,几乎所有AI相关的文档资料都是免费的,都可以在arXiv上面查阅到。现如今,有超过6万篇AI论文发表在那里,数量自2012年以来呈指数级增长(如图2).

       图2. arXiv上按子类别列出的AI论文数量, 来源:AI Index 2019

在2013年,一个行业AI专家可能熟悉其所在子领域的所有论文。而这到了2019年,是不可能的事。如今,业内绝大多数AI工程师都依赖于“最佳论文”和其它的一些论文排行。

工作在这样一个极受欢迎并且快速发展的领域,给人的印象是AI无处不在。如果你需要一个用于目标识别的神经网络,那没问题,只要看看图像识别的最新技术,选择适合你要求的架构就可以了。如果你需要的是一些用于情感分析方面的,那么同样的,只需查阅关于这个问题的相关文档资料,再选择一些适合你的数据、硬件以及所需性能的解决方案。对于你要解决的问题,即使没有相关的资料或者解决方案,它也会涉及到“子问题的子问题”。例如,标准的增强技术不会帮助你的数据集产生理想的结果,或者,你最喜欢的神经网络架构在收集的数据上表现较差,又或者,最好的单词嵌入技术不能很好地处理任务的特定词汇表等。

多年以来,认识到这些子问题的子问题的经验让人产生这样的印象:所有AI的较大问题都已经基本上解决了,越来越多的发表论文集中在不断缩小的下级领域里。

当然,当DeepTrait开发一个AI系统用于基因组分析的时候,我们对现有的文献进行了探讨。我们认为,必须在深度学习内部对所有内容进行详细的探索,更不用说是异构数据分析中的各种相关问题了。现如今,基因组分析是人类研究中最有前途和最重要的领域之一,目前已经发表了6万多篇相关的AI论文。这就意味着一定会有大量的工作要做,是不是这样呢?

不对。2019年12月12日,当我访问arXiv,输入了“deep learning”并搜索之后,结果共有22140篇相关论文。现在,将输入改为“deep learning genome”,你会发现只有76篇相关的论文,其中许多没有涉及到基因组数据,但提到了基因组作为潜在的、未来的或相关的应用。

在搜索了包括bioRxiv在内的、所有其它来源的、用于基因组学的深度学习论文之后,我们发现相关论文数量略微超过了二百篇。其中绝大多数使用了过时的神经网络架构和相关的训练技术。这其中有相当一部分不恰当地使用了这些工具,例如,将卷积神经网络应用于SNP(Single Nucleotide Polymorphism,单核苷酸多态性)等异构数据。这就会得出一个表现差劲的模型,也是任何AI专家都很容易预测到的。我们发现这是一个重复的模式。

那些正确使用AI工具的人这样做是为了分析基因组的小型序列,例如启动子(RNA 聚合酶识别、结合和开始转录的一段DNA 序列)或蛋白质结合位点。他们的输入数据最多有1到2万个核苷酸。在拟南芥(Arabidopsis thaliana)基因组中甚至没有接近1.35亿个核苷酸,这是我们在第一次主要试验中的主要研究对象核苷酸。我们没有什么可依赖的,没有例子,没有神经网络架构,也没有训练这种大小序列的技术。什么都没有!我们不得不从头开始。

“where is everybody?”

这让我很好奇,了解基因组有巨大的潜力。高流量定序产生了大量的数据,而AI似乎是一个显而易见的用来搞清这一切的工具。尽管如此,基因组学仍只得到了AI研究者们1%的关注,这是从论文的占比来看。那剩下的99%呢?这显然是一个机会,如果可以忽略这样一个成熟的机会,或许还会有更多的机会。

我回到arXiv,寻找其它可能具有创新性的AI应用。例如,现代天文学产生了大量高度可变的数据。图像数据、无线电频率、天空中每一个微小部分的天体注释等。可能会改变我们对宇宙理解的大问题,比如“什么是暗物质?”还有我们自己,比如著名的Enrico Fermi的文章——《where is everybody?》。利用AI的力量通过探测宇宙错综复杂的天文数据来解决这些重要的谜团,这应该是一个显而易见的想法,对吧?

尽管如此,在arXiv上查询“deep learning dark matter(深度学习暗物质)”,现在会给你20个结果。

接下来呢?材料科学怎么样?现代强化学习模型可以击败围棋和《星际争霸2》中最好的人类玩家。这些模型都很好,AlphaGo的成功在自然属性中是很有特点的,最近世界上最好的围棋手李世石退役了,他说“AI cannot be defeated(AI不能被打败)”。

这应该是很鼓舞人心的,是不是?那么把同样的方法应用于材料科学怎么样?人类已经对物理和化学有了相当多的了解。我们可以建立一个模拟器,其中强化学习可以学习如何创建新的材料,如石墨烯。这些新材料可以使新型的飞机和船舶设计、太空升降机、水下空间站以及可能的太空人类聚居地成为可能。这应该是一个特别令人兴奋的话题。

然而,在arXiv上搜索“深度学习水晶结构”则只给出了16篇关相关的论文。

狭隘的小世界

事实证明,几乎所有的现代AI研究和工业应用都集中在两个子领域下的十几个技术问题上:计算机视觉和自然语言处理(图3)。

       图3.AI中倒金字塔的创新

我们可以用倒金字塔来模拟AI世界。每个下一层都支撑着上一层,并在某种意义上对其进行定义。

最底层是非常深入的基础科学和技术,它涉及到对神经网络、优化算法、统计特性以及这些工具概率性质的理论上的理解。

中间是技术问题层。下面是我前面提到的十几个技术的子问题。在计算机视觉领域,这些子问题包括图像识别、图像分割和图像生成,而NLP(Natural Language Processing,自然语言处理)领域下的子技术则包括解析、文本分类、机器翻译和问答等方面。后者由通用语言理解评估(General Language Understanding Evaluation,GLUE)基准很好地表示了。

大多数研究人员和行业专家都在从事这一层上的工作。当然,并不是所有的人都专注于所获得的GLUE或视觉任务,如果你是其中的一个例外,就可能会理所当然地不认同我的观点。然而,作为一个业内人士,你也可以想一下我们中有多少人生活在这一层上,忙着解决这个任务清单上的问题,或者另一种表述或组合范围之外的事情。

中间层的界限由理论科学的底层所限定。在底层出现的任何新思路,如梯度下降、存储单元或卷积过滤器,都能在技术问题层引起一系列新的变动。

正如理论科学的进步使得整个技术领域得以发展一样,解决一个技术问题也使金字塔顶端的整个工业应用的范围得以扩展。

这一模型说明了该行业的一个本质局限性:虽然将产品理念从技术问题层面对应到工业应用中相对简单明了,但反过来很容易证明这是不可能的。把应用程序流在本质上看作一系列单向箭头。如果我们所拥有的只是十几种特定的计算机视觉和自然语言处理工具,那么许多工业应用将超出它们的能力范围。如果事实如此,那么绝大多数人都会这样做。一个致力于AI的专家可能希望预期他的某一个工业应用程序设计需求,可以在技术问题层得到解决,但实际上可能会得到更加广泛、更让人激动的成果。

AI期望值的下降

当前的技术问题和工业化实践像两个分岔路口,技术工具和应用之间有着巨大鸿沟。现有的工具一般专门针对计算机视觉和NLP中非常具体的应用,工具越先进,它的侧重点就越狭窄。

以数据量为例。在植物基因组学中,我们从拟南芥的1.35亿个“字母”基因组开始。要测量它的体量的话,如果按量印刷,每个数据点上的一个拟南芥基因组需要占用150个体量。这还只是个开始。番茄基因组有9.5亿个“字母”文本或1055个印刷体量,大麦基因组是53亿个“字母”或5888个印刷体量,小麦基因组是170亿个“字母”或18888个印刷体量。当前的NLP不能处理任何接近这个大小规模的内容。所有用于NLP的现代深度学习工具,如类似转换器的网络,只能处理长达数千个元素的序列。

另一个例子是数据的性质。一个基因组由四个离散核苷酸(nucleotide)组成,这些核苷酸由四个“字母”表示:A、C、T和G。A核苷酸不能得到“稍多的T”或“略少的T”。此外,改变单个T,例如,A可能导致完全不同的显形、致命疾病或致命条件。这就限制了计算机视觉技术在连续数据中的应用。数据的大小在这里也都累加起来了:以正方形四通道“图像”表示的人类基因组的分辨率将达到54772×54772“像素”,这将远远超过了任何现代计算机视觉神经网络所能处理的能力。

所有最先进的深度学习技术工具对基因组数据的性质和大小无效。没有现有的神经网络架构或训练实践,我们可以借用计算机视觉或NLP世界,来解决我们所遇到的问题。

快速地回顾一下会发现,天文学、化学、材料科学都是数据量要求巨大的应用,并且都面临着相同的问题:它们不能从非常狭隘的计算机视觉和NLP解决方案中使用现有的AI工具集。这里有几种常用的解决方法,例如将任何十六进制数据转换为图像、调整大小并将其传输给计算机视觉工具,但作用其实并不大。

在这一点上,那些坚持不懈地寻求解决方案的人也别无选择,只能进入AI的最深一层,也就是理论层面。AI生态系统的这一根源提供了许多关于神经网络工作的深度,不同的架构如何影响其行为,不同激活功能如何与特定数据分布相关联等方面的发现。换句话说,这里的工具允许你创建自己的工具集,适用于你关心的工业方面的应用。

这是一个艰难的过程,需要大量的时间、深厚的专业知识、奉献的精神以及一点点的运气,但最终,你会在AI生态系统中开发一个全新的技术问题层。尽管这个新的工具集是为特定的工业应用而设计的,但它能实现一系列的功能,就像解决图像识别问题一样,为各种产品和产品原型开辟了新的道路,从放射学分析开始,一直到类似于特斯拉自动驾驶仪这样的自动驾驶系统。

       图4.新的技术问题层使一系列的新工业应用成为可能

蓝海广阔,何必囿于一隅?

研究计算机视觉和NLP的技术问题是一个非常有把握、可预测和保险的途径。在这些领域中,有很多研究小组、初创公司和老牌公司。那些大公司为工程师提供了一个大学毕业后直接加入他们的机会。致力于研究计算机视觉或NLP还能让你接触一些很好的工具:数据集、GPU技术、框架以及大量的开源存储库,包括示例、库、基准和其它一些有用的资源。这些工具使我们的工作不再那么繁重,而且更有成效。或许,这解释了AI人才集中在这两个特定领域的原因。

另一方面,寻找适合天文学、遗传学、化学、材料科学、地球科学或经济学的工具集,将是一个充满挑战、时而令人沮丧、时而令人孤独的旅程,你能依靠的只有你自己和团队。然而,攻克难题之后的回报是整个领域,大到足以建立另一个十亿美元的公司或一个研究机构。

现如今,人类面临着成百上千个极其重要但尚未解决的问题。勇敢的先行者收集的数据量可能已经超出他们的分析能力。他们的目的很狭隘,收集数据,然后继续分析。这些数据就在你那里,可以随便访问,等待着人们从中发掘信息,有时候要花几年的时间。其中许多问题仍然没有答案,因为事实证明根本不可能找到解决方法。然而,这正是AI技术大显身手的地方,因为它能够学习如何解决无法解决的问题。

跳出拥挤的人群,抬眼去看那被忽视的AI世界,它已等待了数十年,翘首等待先驱者的到来。这片未经探索的处女地,将会回报那些勇于探索的人以无尽的财富。

原文链接:

https://medium.com/towards-artificial-intelligence/the-too-small-world-of-artificial-intelligence-553c0ee05856

(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)

精彩公开课

推荐阅读

AI研究过于集中狭隘,我们是不是该反思了?相关推荐

  1. 拒绝赛博朋克:斯坦福HAI报告警示“科技巨头垄断AI研究已成威胁”,力挺「国家安全云」计划...

    来源:AI科技评论 作者:莓酊 编辑:青暮 人工智能技术从诞生伊始就被冠以悬在人类头上的达摩克利斯剑之名.在游戏<赛博朋克2077>(Cyberpunk 2077)中,超级科技企业荒坂集团 ...

  2. 从事了两年 AI 研究,我学到了什么?

    作者 | Tom Silver 译者 | 弯月 出品 | CSDN 我从事人工智能研究的工作已经有两年了,有朋友问我都学到了什么,所以我想借本文分享一些迄今为止积累的经验教训.我将在本文中分享一些常见 ...

  3. 乔丹LeCun李开复隔空对话:我们对智能一无所知;AI研究的12大趋势

    夏乙 允中 假装发自 国会 量子位 出品 | 公众号 QbitAI "我们还没造出智能,也不知道智能是什么." "机器要想像人类.动物一样智能,需要先获得大量知识.&qu ...

  4. 李飞飞:我怎样走上AI研究之路

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源:cnbc 编辑:肖琴 转载自:新智元 [导读]近日,李飞飞接受CNBC专访,针对AI未来的发展方 ...

  5. 被遗忘的图灵:一文溯源AI研究(附下载)

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文共4200字,建议阅读12分钟. "有时候,正是那些意想不到之人,成就了无人能成之事."-- 艾 ...

  6. 2021-01-24过去十年十大AI研究热点,分别为深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译。

    专利申请量全球第一!清华人工智能发展报告:国内215所高校成立相关本科专业 发布时间:01-2415:20万象大会年度获奖创作者,东方财富网官方帐号 1月20日,清华大学人工智能研究院.清华-中国工程 ...

  7. 中国AI研究新突破,周六见!

    智源悟道1.0 大规模预训练模型项目,本周六发布! 想知道我们将迎来哪些AI研究新突破? 想知道我们将回答哪些面向「通用人工智能」的新问题? 想知道智源「悟道」大规模预训练模型项目,取得了哪些崭新进展 ...

  8. Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

    来源:机器之心 本文约4000字,建议阅读8分钟 本文为你介绍一种叫做分层 JEPA(联合嵌入预测架构)的架构. LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测, ...

  9. 图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

    来源:机器之心 LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构.该架构可以通过堆叠的方式进行更抽 ...

最新文章

  1. R语言ggplot2可视化:可视化箱图、在箱图中添加抖动数据点(Dot + Box Plot)、自定义抖动数据点的大小、颜色、数据点分布在箱图中间、添加主标题、副标题、题注信息
  2. java都市男人心痒痒_说的男人心痒痒的情话 让男人心痒痒的话,谁能帮我弄几句呀?...
  3. 由浅入深之Tensorflow(3)----数据读取之TFRecords
  4. finalshell连接超时怎么解决_电脑无线网络连接不上怎么回事 电脑连不上无线网络的解决方法...
  5. Ubuntu Docker安装
  6. oracle命令格式,OraCmD(Oracle命令行工具) V3.1 官方版
  7. 最新出炉-阿里 2020届算法工程师-自然语言处理(实习生)以及补充:快递最短路径
  8. JDBC第二篇 【PreparedStatment、批处理、处理二进制、自动主键、调用存储过程、函数】...
  9. 从LFS官方文档构建完整Linux系统
  10. Java学生实训平台_基于jsp的学生实训平台-JavaEE实现学生实训平台 - java项目源码...
  11. “Replit 威胁我,要求我关闭我的开源项目!”
  12. 南京工业大学计算机研究生分数,2019南京工业大学研究生分数线汇总(含2016-2019历年复试)...
  13. Ajxa验证用户和二级联动的实例(五)
  14. hadoop 学习心得
  15. Java实现学生管理系统
  16. 使用DirectX播放wav声音文件
  17. c语言程序设计判断是否是素数,C语言编程输入一个数判断是否为素数(质数)...
  18. 综合布线:如何选择多模光纤和单模光纤
  19. 西南大学2019春计算机作业答案,2019年西南大学作业答案[1175]《仪器分析》
  20. 为什么upupoo显示服务器维护中,首先,电脑能正常上网,有的网站可以上传图片,但就是不能显示上传图片的功能按钮,网页打开都正常。...

热门文章

  1. easyui在IE中: SCRIPT1003: 缺少 ':'
  2. B00009 C语言分割字符串库函数strtok
  3. Linux性能研究(总)
  4. ASP.NET技巧:两个截取字符串的实用方法
  5. EIGRP OSFP 利用NULL0接口防止路由环路 Loopback Null0接口揭秘
  6. 设置Button控件创建完毕时触发的事件.
  7. NHibernate和Cuyahoga(二)(翻译):
  8. 100道 Dubbo面试题及答案(2021最新)
  9. java 判断ocx是否存在_OCX控件的注册卸载,以及判断是否注册
  10. Bézier曲线 和 Bézier曲面 ( 贝塞尔曲线 和 贝塞尔曲面 )