智源导读:「预训练-调优」的方法,在近几年,对NLP领域带来了颠覆性的影响。然而即使我们使用了包含大量参数的大模型(例如,GPT-3),却仍然存在很多常识和推理上的问题无法解决。也有一些研究工作试图将“逻辑”加入学习框架,从而在推理的任务上获得一定的性能提升,但目前效果还并不显著。

那么,

  • 面对当前大模型遇到的瓶颈式问题,当前的原理是否能够解决?

  • 我们真的只需向这种框架中加入一些新的技术,就可以解决当前遇到的问题吗?

  • 或者说,当前「预训练-调优」的研究路线还是否可行?

对此类问题的思考,也将决定着NLP领域学者未来数年的工作方式。以下是几位知名学者在「智源悟道1.0 AI研究成果发布会 暨大规模预训练模型交流论坛」上对这些问题的回答,观点深浅皆有,特别是杨植麟博士的回答提出了一种技术创新的方法论,引人深思。

整理 | 熊宇轩

校对 | 贾   伟

刘知远:这取决于未来我们的目标。按照我的理解,所谓的「预训练」是一个通用的学习过程,但是「调优」类似于在大学中选择一个专业,学习特定领域相关的知识。二者的差别与义务教育和专业教育的区别有些类似。

实际上,我认为这种框架仍然是合理的。因为,我们首先还是应该学习一些通用的能力。

但是,我们的预训练模型,当前具备的通用学习的能力,仍然不够强;这些模型,对于没有标注的无监督数据,进行总结归纳的能力,仍然远远不够。这种归纳能力的不足,反过来也会影响模型在特定的专业领域的学习。

因此,我认为当前的技术路线还是合理的,只不过框架中的各个部分仍然没有达到完美的状态,未来仍然存在对模型进行改进的空间。

文继荣:我觉得这种框架是合理的。对于「预训练-调优」范式而言,目前我们认为预训练相当于学习常识,就好比义务教育。对于人类而言,我们在学校学到的知识是十分有限的,而我们对整个世界的理解以及常识,大多来自于日常的生活。我们往往是在日常生活中学习到常识性和逻辑性的知识。

曾经,在我们研究专家系统时,真正困难的地方在于如何引入「常识」。尽管现在的预训练结果与真正的常识还有一定距离,但是通过预训练学习通用知识,进而在专业领域中进行调优,是比较有道理的一条技术路径。

兰艳艳:请问文老师是否相信所有的知识都是包含在我们看见的事物中?这是否意味着我们通过预训练,总是可以从数据中学到这些知识,只不过现在的具体方法还不能完全做到这一点?

文继荣:是的,「预训练-调优」是我们目前想到的一条技术路径。我们都知道引入「常识」是非常重要的,但是真正能够解决该问题的方法仍然有待探究。也许「预训练-调优」就是一种可能有前景的研究思路,在研究过程中,可能会浮现出一些好的结果,如果这条思路最终取得成功,确实是一个很有意义的重大突破。在信息检索领域中,这种预训练模型得到的结果实际上提供了背景模型(Background Model)。

王仲远:从某种程度上说,人工智能技术希望解决的问题是让机器与人类越来越相似,我们希望机器可以像人一样思考,并做出决策。实际上,人在做决策的时候可能会有两种路径。

一种是偏感性的路径,另一种则是偏理性的路径。

就偏感性的路径而言,通常人们会直接得到答案,而并不知晓决策背后的原由。这就好比我们如今使用的深度学习技术,只需要将数据输入给模型就可以直接得到一个结论。

然而,人类在做决策时,往往还会进行理性的思考。理性的思考涉及大量的逻辑推理等过程,我们也希望把知识加入到这个过程中,实现逻辑推理。

在当前的训练范式下,我们会把知识加入预训练中,但是值得探讨的是:这种方式是否合适,它是否是最有效的融入知识的方式?实际上,这一问题还没有得到论证。未来,我们希望机器与人类越来越相似,既有「感性」的一面,也有「理性」的一面。

邓亚峰:我也认为「预训练-调优」的范式是合理的,但可能仅仅这样做还并不能实现通用人工智能。

我们不妨类比一下,将神经网络结构比作人的大脑,大脑与生俱来地具备某种先验结构;在人类成长的过程中,有父母的言传身教,在某种程度上相当于预训练的过程;而之后我们可能会针对某些具体的学科进行学习,这就与调优的过程相类似。

我认为 GPT-3 的工作机制是正确的。但是该模型得到的结果会存在一些很显而易见的错误。

究其原因,如今的神经网络大多欠缺对知识和逻辑的考虑,而人类的思维框架即包含知觉的部分,也包含知识的部分。

在我看来,如果我们继续沿着「预训练-调优」的路径研究下去,如果不改变随机梯度下降等网络的学习模式,很难实现真正的通用人工智能。

杨植麟:在我看来,技术进步的本质是一个组合的过程,我们对以前发展出来的技术做一系列组合,从而创造出新的技术。

这个组合的过程是缓慢的,但是在某些节点上,组合产生的新技术会带来一些质变。

以 GPT 为例,我们可以从该模型中拆解出两个重要的思想:预训练、Transformer。沿着这个路径往下延伸,我们依次拆解出 Transformer、自注意力机制、残差连接、层归一化等思想。再往前追溯,我们用到的基础原型还包括随机梯度下降,以及上世纪九十年代的反向传播算法,七、八十年代那些只有一两层的神经网络……这是一个不断演进的过程。

在遥远的未来,我们所使用的技术框架也许会跟现在使用的技术看起来有很大差别,但也有可能沿用许多内在的思想。

在人工智能技术七十年的发展历程中,从整体上来说,我们是沿着一个「正途」在开展研究,我们会复用一些之前提出技术,而这些技术的积累会产生质变。比如,在 2019 年,预训练模型领域就产生了质变,未来还会存在一些质变的节点。

站在目前的时间点上看,许多研究人员的科研工作是组合式,这些工作可能是目标驱动的组合,也可能是工具驱动的组合。

目前,一种可行的研究方法就是,在大的研究框架中找到最核心的问题,并且试图通过组合演进的方式解决该问题,而不是从头开始设计一种全新的框架。在历史的长河中,往往很少出现这种全新的框架。

举例而言,就人类制造飞机的历史来看,从早期的螺旋桨飞机到喷气式飞机就完成了一种质变。但是,喷气式飞机的原理和子模块的技术都已经存在,喷气式飞机的研发者也是做了一种组合的工作。

在我们所涉足的研究领域中,BERT 和 GPT 都是一种组合式的工作,只不过这些工作的量级有大有小。

在我看来,大多数的研究还是会沿着这种组合演进的路线开展下去。当然,并非一两个团队或者一两个人的努力就可以取得最终的成功,而是在整个研究社区中的同行一起通过量变到质变的方式,自然而然地迈向下一个新的框架。

裘捷中:我认为目前的技术路线是有道理的。我一直信奉,我们生活在一个遵循大数定理的世界中:在研究过程中,我们之所以处于当前的历史方位,是因为有其他人做了大量的尝试,并且发现那些方法行不通;我们现在遵循的学习范式必定有其独到之处。

我十分赞同杨植麟博士的看法,我们现在所使用的技术框架是一代代进化出来的,是很多思想融合的结果。

同时,我也承认 GPT 这种大规模预训练模型可能存在一些不足,当务之急是找出这些框架中的短板。也许,我们在预训练模型的过程中已经学习到了某些常识,而在调优的过程中没有很好地用到这些常识。此时,我们也许可以求助于 P-Tuning 这样的技术。

此外,也可能是预训练文本中已经包含了某些常识的信息,但是由于 Transfomer 或者优化算法的某些限制,导致我们无法在学习中达到最优情况,此时我们也许应该考虑改进模型框架。

再往前推,也许语料库中的常识是不够的。在这种情况下,我们的研究路线就应该是如何在文本中增加更多的常识信息。所以,在我看来,定位核心的问题是比较关键的。

「预训练-调优」范式的未来相关推荐

  1. 敖丙「数据库调优」连招

    被敖丙用烂的「数据库调优」连招?真香,淦!

  2. 精华推荐 | 【JVM深层系列】「GC底层调优系列」一文带你彻底加强夯实底层原理之GC垃圾回收技术的分析指南(GC原理透析)

    前提介绍 很多小伙伴,都跟我反馈,说自己总是对JVM这一块的学习和认识不够扎实也不够成熟,因为JVM的一些特性以及运作机制总是混淆以及不确定,导致面试和工作实战中出现了很多的纰漏和短板,解决广大小伙伴 ...

  3. 《预训练周刊》第9期:TABBIE:表格数据的预训练表示、「视觉预训练神作」:不用图片却训出图像识别SOTA?...

    No.09 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第9期< ...

  4. sql调优的几种方式_「数据库调优」屡试不爽的面试连环combo

    点赞再看,养成习惯,微信搜索[三太子敖丙]关注这个互联网苟且偷生的工具人. 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试完整考点.资料以及我的 ...

  5. 一文速览!多模态预训练中的 Prompt 范式

    作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP 上一篇博文整理了预训练新范式,见 预训练新范式!为什么Prompt会更有效? 主要是围绕NLP上的成果,具体的概念本文也不做过多 ...

  6. 预训练时代微调新范式,高性能加速2800%,NLPer赶紧看过来!

    导读 PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包,提供中文领域丰富的预训练模型和部署工具,被高校.企业开发者广泛应用.近日,PaddleNLP v2.1正式发布, ...

  7. 李宏毅hw4,训练+调优

    作业简述 本次作業為 Twitter 上收集到的推文,每則推文都會被標注為正面或負面 数据集: labeled training data :20萬 unlabeled training data : ...

  8. 大规模图训练调优指南

    ©PaperWeekly 原创 · 作者|桑运鑫 学校|上海交通大学硕士生 研究方向|图神经网络应用 最近对一个大规模的图训练嵌入,发现相关的中文资料还是很欠缺的,把自己踩的一些坑记下来.本文主要针对 ...

  9. 【CANN训练营第三季】基于昇腾PyTorch框架的模型训练调优

    文章目录 性能分析工具PyTorch Profiling 性能分析工具CANN Profiling 结业考核 1.使用Pytorch实现LeNet网络的minist手写数字识别. 2.采用课程中学习到 ...

最新文章

  1. [Java学习]Striing StringBuffer StringBuilder 的比
  2. 直方图均衡化为何需要累积概率的通俗解释,保证让你秒懂
  3. C语言实现QR(正交三角)分解(附完整源码)
  4. 详解三种主流分布式事务方案的优劣
  5. DPM2012系列之十三:如何清理无法联系的客户端代理
  6. 记录一下自己的VScode插件
  7. PostgreSQL 13 Beta 1 发布,大量新特性
  8. 本文详细介绍Python 设计模式系列之二: 创建型 Simple Factory 模式(转载)
  9. 15b万用表怎么测电容_指针式万用表和数字式万用表的使用与口诀,值得收藏!...
  10. Qt总结之十二:C/C++内存分配方式与存储区
  11. 在visual studio2015中使用easyX画图
  12. MySQL查询日期类数据常用函数
  13. android自动完成输入框,Android——自动完成输入框提示功能的菜单_AutoCompleteTextView...
  14. 软件测试周刊(第21期):不要告诉我你想干什么
  15. 计算机安全关联的软件,紫鸟超级浏览器亚马逊账号防关联工具
  16. python视频转化_python实现视频读取和转化图片
  17. MJPEG和MP4——视频转换随想
  18. linux删除 grub rescue,删除Ubuntu后 开机grub rescue无法进入BIOS
  19. java 通过onvif抓取海康摄像头图片
  20. OSChina 周四乱弹 —— 神转折段子?

热门文章

  1. mysql 分库分表 建表_【分库分表】sharding-jdbc实践—分库分表入门
  2. 计算机中英语GAI缩写,等等英语_英语中“等等”缩写成为etc吗要加一点吗全拼是什么谢谢大家_淘题吧...
  3. 波段 ku_X和Ku波段小尺寸无线电设计
  4. 【c语言】蓝桥杯算法训练 整除问题
  5. 华东师范计算机入门平时作业,计算机入门模拟卷A-华东师范大学.doc
  6. aspen软件对电脑的要求_BIM软件对电脑配置的要求——Fuzor软件对电脑配置的要求...
  7. python中def _init_是什么意思_Python中self和__init__的含义与使用
  8. 隐私全无!错发1700多条Alexa录音,上报后亚马逊淡定回应是“个人错误”
  9. 【Java】Java中的数据类型说明
  10. 嵌入式开发之赛灵思 xilinx Zynq芯片简介---Zynq-7000 EPP (XC7Z010 and XC7Z020)