2020-02-13 15:06:27

【编者按】在过去的一年中，人们对文本生成模型的兴趣重新燃起，这在很大程度上要归功于GPT2（openAI设计的大规模非监督文本生成模型），它主要展示了使用更大模型、更大数据和更大计算量的Transformer架构的有效性。值得注意的是，在没有经过训练的情况下，该模型在几个语言建模数据集上就获得了SOTA结果，这显示了其惊人的泛化能力。

然而这些模型也显示出一些缺陷，并且这些缺陷可能无法仅通过扩大模型（更大的模型、数据、计算量）来弥补。在这篇文章中，我们将快速概览其中的一些缺陷并尝试解决这些问题，并在此基础上讨论未来研究的一些潜在方向。

作者 | 伯克利AI研究院官博（BAIR）

译者 | 凯隐，责编 | 夕颜

出品 | CSDN（ID: CSDNnews）

以下为译文：

随着GPT2的成功，其他一些实体也加入了这一潮流，并发布了自己的大型单向语言模型，例如Grover，Nvidia的Megatron-LM和Salesforce的CTRL。且不说OpenAI声称该模型“太危险而不能发布”而引发的争议，GPT2生成的文本从各方面来看都要比以前的文本生成模型好很多。

什么是自回归语言模型？为何这种模型很重要？

语言建模的核心问题是使用参数化函数逼近英语(或Lojban，Navajo，Python等) 中自然语言序列的分布。为了让建模更加灵活，自回归语言模型中将理想模型

表示为：

可以从公式中看到，条件概率在xi处的值总是基于之前的值（），换句话说，为了使建模问题更易于处理，我们转而训练参数化的函数，根据前面的符号来预测下一个符号，并使用附加到原始上下文的新生成的符号作为新上下文重复此操作。接着，我们可以通过对这些条件概率求积，得到对任意给定序列的可能性的估计。

包括分类和翻译在内的许多问题都可以等价地表述为自回归问题，或者可以显著地从一个强大的预训练自回归语言模型中受益，因此自回归语言模型是具有很强的泛化性的，其重要性不言而喻。从这个角度上讲，改进语言建模也可能是解决一般人工智能问题的重要一步。

定向搜索和文本重复性

在提供的GPT2样本中，作者使用top-k滤波和温度进行采样，而不是使用beam搜索，这样可以通过最大化似然得到更高质量的样本。然而令人惊讶的是， “The Curious Case of Neural Text Degeneration” (Holzman et al. 2019) 指出GPT2通过更高的预测概率得到的样本实际上质量更差，并且采样得到的文本趋向于高重复性。作者认为这个建模问题本质上是因为最大似然是一个根本错误的采样目标，并提出了核抽样，这种抽样方法可以截断低似然的符号，类似于top-k采样，同时保留长尾分布。然而高似然采样可以从更直观的角度理解，可以认为，既然从理想的语言模型中抽取了一个极大似然样本，根据定义，这个样本将提供最可能出现的英文文本，这已经考虑到了极其乏味和重复的文本的可能性！因此问题是出在训练目标，而不是采样目标。

因此另一个简单的解决方法就是在训练时添加对重复性的惩罚，事实上，在神经文本退化论文发表后不久，我就独立地实现了我自己的GPT2波束搜索采样器。在重新考虑文本退化问题之后，我为重复的字符添加了一个简单的、任意时间可解码惩罚，乍一看结果还可以接受，但在理论上几乎没有理由这样做。最近，“Neural Text DeGeneration with Unlikelihood Training” (Welleck, Kulikov et al. 2019)提出了一种更加复杂的训练时间惩罚方案，包括在训练目标函数中添加一项额外惩罚项：

其中Ct是之前已经使用过的符号。虽然从经验上来说是成功的，但是没有很好的理论理由来解释为什么较少的重复量会更好地模拟潜在的分布。

曝光误差

通过最大似然来训练自回归语言模型的一个主要问题是曝光误差(exposure bias, Ranzato et al., 2015)。自回归模型只对从目标语言分布中抽取的样本进行训练和评估，而在评估时则输入由该模型生成的样本。这个错误会极其迅速地加剧，并且人们已经观察到，GPT2在经过一定次数的训练后，其质量急剧下降，尽管这已经是公认的事实。

未来工作展望

这个问题与强化学习中的许多问题高度相似，目前许多工作，例如 “SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient” (Yu et al., 2016), “Improving Conditional Sequence Generative Adversarial Networks by Stepwise Evaluation” (Tuan et al., 2018), and “Toward Diverse Text Generation with Inverse Reinforcement Learning” (Shi et al., 2018) 使用强化学习来训练序列生成模型中的各个部分，从在GAN设置中传播生成器梯度到使用反向强化学习(它本身与GANs紧密相连)。

在这些基于强化学习的方法对GPT2中的模型这样大的模型变得实用之前，还有很长的路要走。中间步骤是使用现有的预训练语言模型，并在强化学习环境中对它们进行调优。此外，一个能够很好地量化曝光误差的评估指标对于适当的定量分析也很重要，该方向的一篇不错的论文是“Jointly Measuring Diversity and Quality in Text Generation Models” (Montahaei et al., 2019)。

总结

虽然最近的工作已经证明由于模型大小的增加，神经文本生成的质量有了巨大的改进，但是曝光误差的问题仍然存在于生成的长序列文本中。这方面的进展可能需要从强化学习的工作中吸取经验。事实上，在强化学习和语言建模的相互结合这个思路上，已经出现了许多有前途的工作。希望这些改进的语言模型不仅是在单个段落的尺度内，也可以在整篇文章的范围内与人工文本一较高下。

参考链接

GPT2:https://openai.com/blog/better-language-models/

“The Curious Case of Neural Text Degeneration” :https://arxiv.org/abs/1904.09751

“Neural Text DeGeneration with Unlikelihood Training” : https://arxiv.org/abs/1908.04319

原文链接：

https://bair.berkeley.edu/blog/2019/12/18/smirl/

伯克利AI研究院：强化学习是GPT2等自回归语言模型弥补不足的良方？相关推荐

伯克利AI研究院解析「反向课程学习」，改善「强化学习智能体」并应用于机器人技术
原文来源:arXiv 作者:Wieland Brendel.Jonas Rauber.Matthias Bethge 「雷克世界」编译:嗯~阿童木呀.哆啦A亮众所周知,强化学习(RL)是一种强大的技 ...
UC伯克利最新深度强化学习课程上线，视频已上传到B站
乾明发自凹非寺量子位报道 | 公众号 QbitAI 又有新的AI学习资源上线了. 这次是来自UC伯克利的秋季课程:Deep Reinforcement Learning,课程代号CS 285 ...
AI 发展方向大争论：混合AI ？强化学习？将实际知识和常识整合到AI中？
作者:Ben Dickson是一名软件工程师,还是探讨技术在如何解决和带来问题的TechTalks博客的创始人. 对于AI界来说意义重大,这归功于深度学习领域取得了惊人的进步,AI的这个分支因收集.存 ...
只有大规模算力才能救AI？强化学习之父 vs 牛津教授掀起隔空论战
乾明安妮发自凹非寺量子位出品 | 公众号 QbitAI 70年来, 人们在AI领域"一直连续犯着同样的错误". 这是"强化学习之父"理查德·萨顿(Ri ...
赛题分析：AI决策•强化学习落地挑战赛——学习指定平等的促销策略
赛事官方入口:https://codalab.lisn.upsaclay.fr/competitions/823#learn_the_details-overview 深度强化实验室的中文说明: ht ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习文章目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
AI绘画发展史(伪)：从免费到吃屎；YSDA·自然语言处理课程8K Star；伯克利CS285·深度强化学习课程；前沿论文 | ShowMeAI资讯日报
【Nature重磅】OpenAI科学家提出全新强化学习算法，推动AI向智能体进化
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 近年来,人工智能(AI)在强化 ...
AI 大战 AI，一个深度强化学习多智能体竞赛系统
小伙伴们快看过来!这是一款全新打造的 ⚔️ AI vs. AI ⚔️--深度强化学习多智能体竞赛系统. 这个工具托管在 Space 上,允许我们创建多智能体竞赛.它包含三个元素: 一个带匹配算法的 S ...

伯克利AI研究院：强化学习是GPT2等自回归语言模型弥补不足的良方？

什么是自回归语言模型？为何这种模型很重要？

定向搜索和文本重复性

曝光误差

未来工作展望

伯克利AI研究院：强化学习是GPT2等自回归语言模型弥补不足的良方？相关推荐

最新文章

热门文章