作者 | 张拳石

来源 | 知乎

导读:近日,几何智能(后被 Uber 收购)创始人兼 CEO Gary Marcus 在他的文章 “Deep Learning: A Critical Appraisal” in arXiv:1801.00631 中分析了目前深度学习发展的瓶颈和面临的挑战。之后,上海交通大学副教授张拳石对这篇文章中提到的十大挑战进行了分析。他表示,这类文章可以让人在浮躁的论文海洋里,找到深入的思考和共鸣。

这篇文章为深度学习列出了以下十大挑战。当然,有些人不屑于这些思考,因为以目前的方法论而言,很多问题是无解的(tricky的解法不算),故而人们认为这就是深度学习必要的代价,从而可以忽略其存在。我认为,做研究不仅仅是眼前的论文,更要有诗和远方。推动学科边界的延伸,才是科研根本的意义。

(1) Deep learning thus far is data hungry

目前大部分深度学习算法需要大数据去进行训练。相较之下,真正的高级人工智能需要有能力完成 few-shot learning,即从一两个样本出发,就可以总结出高层语义概念,总结出逻辑链条,并且举一反三,触类旁通。

(2) Deep learning thus far is shallow and has limited capacity for Transfer

目前深度学习算法往往针对某个特定的任务学习一套特定的表达,而不是学习一种可以充分迁移的,放之四海而皆准的通用表达。目前迁移学习也需要少量samples in target domain 作为输入进行学习。当然了,目前方法论能解决的问题距离以上的目标还很远,甚至无从下手。这才是真正的瓶颈和我们应该思考的问题。

(3) Deep learning thus far has no natural way to deal with hierarchical structure

目前深度学习方法还没有能力去处理结构化的知识。我认为此论断可以更进一步:目前深度学习无法自动的把内部知识组织成一种清晰、结构化、有语义的表达形式。大部分算法依然学的是 black-box models。

(4) Deep learning thus far has struggled with open-ended inference

自然世界的知识往往是非结构化的,模糊组织的,而深度网络的输入输出需要确定性的输入输出格式,这样深度学习方法先天地对非 open-ended inference 不太兼容。当然了,VQA 的研究者都以做纯粹的,没有先验假设的图灵测试为目标,但是目前的技术距离这个大目标还有较大距离。

(5) Deep learning thus far is not sufficiently transparent

神经网络的知识表达是黑箱。这是个老生常谈的问题。

(6) Deep learning thus far has not been well integrated with prior knowledge

目前大部分深度学习方法完全从训练样本去学习全部表达,但是真正重要的问题是如何给这些算法加入先验知识的接口。我很怀疑,人类是否从出生开始才去学习知识。就像初生的小鹿就会奔跑一样,人类也有印在基因里面的先验知识。或许这些先验知识是通往强人工智能的必经之路。

(7) Deep learning thus far cannot inherently distinguish causation from correlation

大部分Deep learning算法无法很好区分因果性和相关性。或者可以说,deep learning算法大多无法从regression的方法论进化到罗辑推理的层面。

(8) Deep learning presumes a largely stable world, in ways that may be problematic

Deep learning 算法往往有个特定的环境假设,无法适应实时变化的世界。

(9) Deep learning thus far works well as an approximation, but its answers often cannot be fully trusted

很多深度学习算法往往利用“记忆的”模式,对输入数据进行逼近拟合,从而做出判断。因而,这些算法不具有充分的解释性,为每个具体的预测结果无法给出令人信服的理由。

(10) Deep learning thus far is difficult to engineer with

端对端的学习神经网络无法像编程一样实时 debug 其中的内部表达,无法实时与人交流其内部的表达,无法像父亲教孩子一样手把手地教学,无法像搭积木一样去组织算法的功能。

我很庆幸的是,近两年自己的研究覆盖了其中的八个挑战。当然了,这些研究仅仅在这些挑战上做一些粗浅的尝试而已,未来还需要做更多的工作。

Q. Zhang, Y.N. Wu, and S.-C. Zhu, “Interpretable Convolutional Neural Networks” in CVPR, 2018

Q. Zhang, R. Cao, F. Shi, Y.N. Wu, and S.-C. Zhu, “Interpreting CNN knowledge using an Explanatory Graph” in AAAI, 2018

Q. Zhang, R. Cao, Y.N. Wu, and S.-C. Zhu, "Growing Interpretable Part Graphs on ConvNets via Multi-Shot Learning," in AAAI 2017.

在第一篇文章中,我们提出了一个端对端学习卷积神经网络(CNN),使得其内部每个高层 filter 都表示某个清晰的语义(并且不需要标注 texture 或 part 作为额外的训练指导)。

另外两篇文章旨在用无监督的方法把 CNN 的 black-box 表达转化成一个graphical model。我们的目的不是用 graphical model 代替 CNN 去做分类或分割等任务,而是把 graphical model 作为一个对 CNN 的辅助性的解释性的模型,去阐述一个 CNN 中建模了多少种不同的 object-part patterns,这些 patterns 的空间关系和语义层次关系是什么,等等。

其中在 explanatory graph 算法中,无监督把混乱的 CNN 特征表达拆分成人可以理解的图模型,即模型回答了每个 filter 潜在包含了多少种不同的 object-part patterns,并用一个 graph node 代表某个特定的 part pattern。算法同时建模了不同 object-part patterns 的层次化的包含从属关系。

所以,这些研究紧紧联系着“Deep learning thus far is not sufficiently transparent”和“Deep learning thus far has no natural way to deal with hierarchical structure”等两大问题。

Q. Zhang, R. Cao, Y.N. Wu, and S.-C. Zhu, "Mining Object Parts from CNNs via Active Question Answering," in CVPR 2017.

Q. Zhang, R. Cao, Y.N. Wu, M. Edmonds, and S.-C. Zhu,“Interactively Transferring CNN Patterns for Part Localization” in arXiv:1708.01783, 2017

基于之前提到的 graphical models to explain CNN representations,这两篇文章进一步把这些拆分好的 graphical models 作为对 pre-trained CNNs 内部知识的中层表达,从而提出了 middle-to-end learning via network interpretability。这些方法用 pre-trained CNN 作为视觉模式知识库,并且缕清了网络内部的知识结构。

当我们可以清楚拆分并且表达 CNN 内部语义时,我们可以进一步用人机交互的方式去搭建新的模型,就像搭建乐高积木一样。如果希望得到一个“头”的检测器,我们就直接使用眼睛和鼻子对应的 patterns 组合出一个新的模型就行,而不需要使用大量标注学习新的模型。

这些方法对应了上文提到的“Deep learning thus far is shallow and has limited capacity for Transfer” “Deep learning thus far is data hungry” “Deep learning thus far is difficult to engineer with”等三大问题。

Q. Zhang, Y. Yang, Y.N. Wu, and S.-C. Zhu, “Interpreting CNNs via Decision Trees” in arXiv:1802.00121, 2018

基于之前可解释性 CNN 的工作,我们进一步使用一个决策树去表示一个 CNN 的 fully connected 中的逻辑信息。当 CNN 为某个图像输入做出预测时,这个决策树可以为该预测做出定量的解释。即当 CNN 对某个类别的分类 score 是 0.9,决策树告诉我们某个 filter 为这个分类贡献了 0.02,而另一个 filter贡献了 -0.01。更进一步,因为在之前可解释性 CNN 的工作中,我们已经可以无监督地保证每个高层 filter 表示某个特定的 object part,所以决策树还可以在object part语义层面上给出解释。比如,头部 pattern 贡献了 0.3,身体pattern 贡献了0.2,等等。

该工作与“Deep learning thus far cannot inherently distinguish causation from correlation”和“Deep learning thus far works well as an approximation, but its answers often cannot be fully trusted”这两个问题密切相关。

Q. Zhang, W. Wang, and S.-C. Zhu, “Examining CNN representations with respect to Dataset Bias” in AAAI, 2018.

这篇论文中的工作用先验的语义知识诊断 CNN 内部潜在的错误知识表达。我们可以使用如下的先验知识,如人的发色与人的性别无关,而人的微笑的表情主要与嘴的形状相关。我们用这些先验知识诊断 CNN 中潜在的failure modes(常常出错的modes)和blind spots(知识盲点)。

这篇文章与“Deep learning thus far has not been well integrated with prior knowledge”这个问题相关。

印在基因里面的先验知识,或许是通往强人工智能的必经之路相关推荐

  1. 综述:如何给模型加入先验知识

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Billy Z@知乎(已授权) 来源丨https://zhua ...

  2. 谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 搜狐科技 10-12 15:29 选自:Google Research Blog 参与:李泽南、

    谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 昨天,谷歌发布了 TensorFlow 1.4.0 先行版,将 tf.data 等功能加入了 A ...

  3. AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型

    ©PaperWeekly 原创 · 作者|Chen Ma 学校|清华大学 研究方向|人脸识别和物体检测 这篇论文率先利用先验知识和物体检测技术做 Action Unit 人脸表情识别,在 BP4D 和 ...

  4. 如何给模型加入先验知识?

    @作者 | Billy Z 模型加入先验知识的必要性 端到端的深度神经网络是个黑盒子,虽然能够自动学习到一些可区分度好的特征,但是往往会拟合到一些非重要特征,导致模型会局部坍塌到一些不好的特征上面.常 ...

  5. 主题模型综述:短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持

    原文链接:https://www.zhihu.com/question/34801598/answer/765580727 主题模型当然有用咯,谁用谁知道!这次我来展示下它的7个"变种&qu ...

  6. 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...

    赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...

  7. 不使用先验知识与复杂训练策略,从头训练二值神经网络!

    选自 arxiv 作者:Joseph Bethge.Marvin Bornstein.Adrian Loy.Haojin Yang.Christoph Meinel 机器之心编译 参与:张玺.路 来自 ...

  8. 机器人学习--粒子滤波/MCL定位的理论基础(先验知识)

    跨学科(未学过数理统计和滤波等课程)的研究人员看懂粒子滤波或MCL定位的理论 2019年剑桥大学一名教授 Simon Godsill 发表了一篇论文: Godsill S. Particle filt ...

  9. 直播 | WWW 2021:用先验知识指导BERT注意力机制的语义文本匹配

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. 为啥我从后台查到的值在页面显示的是undefined_再谈一个管理后台列表功能应有的素质...
  2. AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
  3. CSS题目系列(1) - 可滚动的Table
  4. 测试嵌套JavaScript对象键的存在
  5. python怎样给对象赋值_Python对象赋值、浅拷贝和深拷贝
  6. 3.1.4 如何使深度学习模型达到人类水平以及超高人类水平
  7. c语言静态图片做成动态效果,如何使静态图片做成动态效果?怎么让静态图片动起来...
  8. 案例分析:免费的维护服务
  9. laravel log 对象_swoole运行模式加速laravel应用的详细介绍(life)
  10. 中国最大字幕组“人人影视”凉了!警方通报:因盗版视频14人被抓
  11. access中主键自动增长_ACCESS与EXCEL融合应用系列(一) :把数据导入Access
  12. [设计模式-结构型]组合(Composite )
  13. QObject类 moc处理后代码
  14. 安装flash player提示版本不是最新,无法安装
  15. 嵌入式就业去哪?中国10大军工央企,1000+单位!史上最全!
  16. 利用R绘制venn图(VennDiagram、eulerr、venneuler、limma)
  17. 转载:Docker从入门到上瘾
  18. 大数据云计算技术概述_云计算–概述,类型,优势和未来范围
  19. File `xx.sty‘ not found——LaTex解决方案
  20. 敏捷宣言的第五项原则

热门文章

  1. QT跨平台桌面软件开发技术汇总
  2. js 返回上一页的操作
  3. vb.net 教程 4-7 文本文件编码 1
  4. 推荐系统图结构Graph Embedding技术
  5. 阿里巴巴高管换血,吴永明接替张勇
  6. c语言:给定5个整数,请按身高排序.当然可能有两人的身高相同.,高分!C程序设计题目...
  7. 清科-2018中国PE投资机构排名
  8. 超级计算机与生命科学,游戏做生命科学研究:玩家强过超级计算机
  9. ISP路由表分发中的AS与BGP
  10. [summ]network traffic measurement and analysis-challenges and solutions