「预训练-调优」范式的未来

智源导读：「预训练-调优」的方法，在近几年，对NLP领域带来了颠覆性的影响。然而即使我们使用了包含大量参数的大模型（例如，GPT-3），却仍然存在很多常识和推理上的问题无法解决。也有一些研究工作试图将“逻辑”加入学习框架，从而在推理的任务上获得一定的性能提升，但目前效果还并不显著。

那么，

面对当前大模型遇到的瓶颈式问题，当前的原理是否能够解决？
我们真的只需向这种框架中加入一些新的技术，就可以解决当前遇到的问题吗？
或者说，当前「预训练-调优」的研究路线还是否可行？

对此类问题的思考，也将决定着NLP领域学者未来数年的工作方式。以下是几位知名学者在「智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛」上对这些问题的回答，观点深浅皆有，特别是杨植麟博士的回答提出了一种技术创新的方法论，引人深思。

整理 | 熊宇轩

校对 | 贾伟

刘知远：这取决于未来我们的目标。按照我的理解，所谓的「预训练」是一个通用的学习过程，但是「调优」类似于在大学中选择一个专业，学习特定领域相关的知识。二者的差别与义务教育和专业教育的区别有些类似。

实际上，我认为这种框架仍然是合理的。因为，我们首先还是应该学习一些通用的能力。

但是，我们的预训练模型，当前具备的通用学习的能力，仍然不够强；这些模型，对于没有标注的无监督数据，进行总结归纳的能力，仍然远远不够。这种归纳能力的不足，反过来也会影响模型在特定的专业领域的学习。

因此，我认为当前的技术路线还是合理的，只不过框架中的各个部分仍然没有达到完美的状态，未来仍然存在对模型进行改进的空间。

文继荣：我觉得这种框架是合理的。对于「预训练-调优」范式而言，目前我们认为预训练相当于学习常识，就好比义务教育。对于人类而言，我们在学校学到的知识是十分有限的，而我们对整个世界的理解以及常识，大多来自于日常的生活。我们往往是在日常生活中学习到常识性和逻辑性的知识。

曾经，在我们研究专家系统时，真正困难的地方在于如何引入「常识」。尽管现在的预训练结果与真正的常识还有一定距离，但是通过预训练学习通用知识，进而在专业领域中进行调优，是比较有道理的一条技术路径。

兰艳艳：请问文老师是否相信所有的知识都是包含在我们看见的事物中？这是否意味着我们通过预训练，总是可以从数据中学到这些知识，只不过现在的具体方法还不能完全做到这一点？

文继荣：是的，「预训练-调优」是我们目前想到的一条技术路径。我们都知道引入「常识」是非常重要的，但是真正能够解决该问题的方法仍然有待探究。也许「预训练-调优」就是一种可能有前景的研究思路，在研究过程中，可能会浮现出一些好的结果，如果这条思路最终取得成功，确实是一个很有意义的重大突破。在信息检索领域中，这种预训练模型得到的结果实际上提供了背景模型（Background Model）。

王仲远：从某种程度上说，人工智能技术希望解决的问题是让机器与人类越来越相似，我们希望机器可以像人一样思考，并做出决策。实际上，人在做决策的时候可能会有两种路径。

一种是偏感性的路径，另一种则是偏理性的路径。

就偏感性的路径而言，通常人们会直接得到答案，而并不知晓决策背后的原由。这就好比我们如今使用的深度学习技术，只需要将数据输入给模型就可以直接得到一个结论。

然而，人类在做决策时，往往还会进行理性的思考。理性的思考涉及大量的逻辑推理等过程，我们也希望把知识加入到这个过程中，实现逻辑推理。

在当前的训练范式下，我们会把知识加入预训练中，但是值得探讨的是：这种方式是否合适，它是否是最有效的融入知识的方式？实际上，这一问题还没有得到论证。未来，我们希望机器与人类越来越相似，既有「感性」的一面，也有「理性」的一面。

邓亚峰：我也认为「预训练-调优」的范式是合理的，但可能仅仅这样做还并不能实现通用人工智能。

我们不妨类比一下，将神经网络结构比作人的大脑，大脑与生俱来地具备某种先验结构；在人类成长的过程中，有父母的言传身教，在某种程度上相当于预训练的过程；而之后我们可能会针对某些具体的学科进行学习，这就与调优的过程相类似。

我认为 GPT-3 的工作机制是正确的。但是该模型得到的结果会存在一些很显而易见的错误。

究其原因，如今的神经网络大多欠缺对知识和逻辑的考虑，而人类的思维框架即包含知觉的部分，也包含知识的部分。

在我看来，如果我们继续沿着「预训练-调优」的路径研究下去，如果不改变随机梯度下降等网络的学习模式，很难实现真正的通用人工智能。

杨植麟：在我看来，技术进步的本质是一个组合的过程，我们对以前发展出来的技术做一系列组合，从而创造出新的技术。

这个组合的过程是缓慢的，但是在某些节点上，组合产生的新技术会带来一些质变。

以 GPT 为例，我们可以从该模型中拆解出两个重要的思想：预训练、Transformer。沿着这个路径往下延伸，我们依次拆解出 Transformer、自注意力机制、残差连接、层归一化等思想。再往前追溯，我们用到的基础原型还包括随机梯度下降，以及上世纪九十年代的反向传播算法，七、八十年代那些只有一两层的神经网络……这是一个不断演进的过程。

在遥远的未来，我们所使用的技术框架也许会跟现在使用的技术看起来有很大差别，但也有可能沿用许多内在的思想。

在人工智能技术七十年的发展历程中，从整体上来说，我们是沿着一个「正途」在开展研究，我们会复用一些之前提出技术，而这些技术的积累会产生质变。比如，在 2019 年，预训练模型领域就产生了质变，未来还会存在一些质变的节点。

站在目前的时间点上看，许多研究人员的科研工作是组合式，这些工作可能是目标驱动的组合，也可能是工具驱动的组合。

目前，一种可行的研究方法就是，在大的研究框架中找到最核心的问题，并且试图通过组合演进的方式解决该问题，而不是从头开始设计一种全新的框架。在历史的长河中，往往很少出现这种全新的框架。

举例而言，就人类制造飞机的历史来看，从早期的螺旋桨飞机到喷气式飞机就完成了一种质变。但是，喷气式飞机的原理和子模块的技术都已经存在，喷气式飞机的研发者也是做了一种组合的工作。

在我们所涉足的研究领域中，BERT 和 GPT 都是一种组合式的工作，只不过这些工作的量级有大有小。

在我看来，大多数的研究还是会沿着这种组合演进的路线开展下去。当然，并非一两个团队或者一两个人的努力就可以取得最终的成功，而是在整个研究社区中的同行一起通过量变到质变的方式，自然而然地迈向下一个新的框架。

裘捷中：我认为目前的技术路线是有道理的。我一直信奉，我们生活在一个遵循大数定理的世界中：在研究过程中，我们之所以处于当前的历史方位，是因为有其他人做了大量的尝试，并且发现那些方法行不通；我们现在遵循的学习范式必定有其独到之处。

我十分赞同杨植麟博士的看法，我们现在所使用的技术框架是一代代进化出来的，是很多思想融合的结果。

同时，我也承认 GPT 这种大规模预训练模型可能存在一些不足，当务之急是找出这些框架中的短板。也许，我们在预训练模型的过程中已经学习到了某些常识，而在调优的过程中没有很好地用到这些常识。此时，我们也许可以求助于 P-Tuning 这样的技术。

此外，也可能是预训练文本中已经包含了某些常识的信息，但是由于 Transfomer 或者优化算法的某些限制，导致我们无法在学习中达到最优情况，此时我们也许应该考虑改进模型框架。

再往前推，也许语料库中的常识是不够的。在这种情况下，我们的研究路线就应该是如何在文本中增加更多的常识信息。所以，在我看来，定位核心的问题是比较关键的。

「预训练-调优」范式的未来相关推荐

敖丙「数据库调优」连招
被敖丙用烂的「数据库调优」连招?真香,淦!
精华推荐 | 【JVM深层系列】「GC底层调优系列」一文带你彻底加强夯实底层原理之GC垃圾回收技术的分析指南（GC原理透析）
前提介绍很多小伙伴,都跟我反馈,说自己总是对JVM这一块的学习和认识不够扎实也不够成熟,因为JVM的一些特性以及运作机制总是混淆以及不确定,导致面试和工作实战中出现了很多的纰漏和短板,解决广大小伙伴 ...
《预训练周刊》第9期：TABBIE：表格数据的预训练表示、「视觉预训练神作」：不用图片却训出图像识别SOTA？...
No.09 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第9期< ...
sql调优的几种方式_「数据库调优」屡试不爽的面试连环combo
点赞再看,养成习惯,微信搜索[三太子敖丙]关注这个互联网苟且偷生的工具人. 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试完整考点.资料以及我的 ...
一文速览！多模态预训练中的 Prompt 范式
作者 | 上杉翔二悠闲会 · 信息检索整理 | NewBeeNLP 上一篇博文整理了预训练新范式,见预训练新范式!为什么Prompt会更有效? 主要是围绕NLP上的成果,具体的概念本文也不做过多 ...
预训练时代微调新范式，高性能加速2800%，NLPer赶紧看过来！
导读 PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包,提供中文领域丰富的预训练模型和部署工具,被高校.企业开发者广泛应用.近日,PaddleNLP v2.1正式发布, ...
李宏毅hw4,训练+调优
作业简述本次作業為 Twitter 上收集到的推文,每則推文都會被標注為正面或負面数据集: labeled training data :20萬 unlabeled training data : ...
【CANN训练营第三季】基于昇腾PyTorch框架的模型训练调优
文章目录性能分析工具PyTorch Profiling 性能分析工具CANN Profiling 结业考核 1.使用Pytorch实现LeNet网络的minist手写数字识别. 2.采用课程中学习到 ...

「预训练-调优」范式的未来

「预训练-调优」范式的未来相关推荐

最新文章

热门文章