2020-02-13 15:06:27

【编者按】在过去的一年中,人们对文本生成模型的兴趣重新燃起,这在很大程度上要归功于GPT2(openAI设计的大规模非监督文本生成模型),它主要展示了使用更大模型、更大数据和更大计算量的Transformer架构的有效性。值得注意的是,在没有经过训练的情况下,该模型在几个语言建模数据集上就获得了SOTA结果,这显示了其惊人的泛化能力。

然而这些模型也显示出一些缺陷,并且这些缺陷可能无法仅通过扩大模型(更大的模型、数据、计算量)来弥补。在这篇文章中,我们将快速概览其中的一些缺陷并尝试解决这些问题,并在此基础上讨论未来研究的一些潜在方向。

作者 | 伯克利AI研究院官博(BAIR)

译者 | 凯隐,责编 | 夕颜

出品 | CSDN(ID: CSDNnews)

以下为译文:

随着GPT2的成功,其他一些实体也加入了这一潮流,并发布了自己的大型单向语言模型,例如Grover,Nvidia的Megatron-LM和Salesforce的CTRL。且不说OpenAI声称该模型“太危险而不能发布”而引发的争议,GPT2生成的文本从各方面来看都要比以前的文本生成模型好很多。

什么是自回归语言模型?为何这种模型很重要?

语言建模的核心问题是使用参数化函数逼近英语(或Lojban,Navajo,Python等) 中自然语言序列的分布。为了让建模更加灵活,自回归语言模型中将理想模型

表示为:

可以从公式中看到,条件概率在xi处的值总是基于之前的值(),换句话说,为了使建模问题更易于处理,我们转而训练参数化的函数,根据前面的符号来预测下一个符号,并使用附加到原始上下文的新生成的符号作为新上下文重复此操作。接着,我们可以通过对这些条件概率求积,得到对任意给定序列的可能性的估计。

包括分类和翻译在内的许多问题都可以等价地表述为自回归问题,或者可以显著地从一个强大的预训练自回归语言模型中受益,因此自回归语言模型是具有很强的泛化性的,其重要性不言而喻。从这个角度上讲,改进语言建模也可能是解决一般人工智能问题的重要一步。

定向搜索和文本重复性

在提供的GPT2样本中,作者使用top-k滤波和温度进行采样,而不是使用beam搜索,这样可以通过最大化似然得到更高质量的样本。然而令人惊讶的是, “The Curious Case of Neural Text Degeneration” (Holzman et al. 2019) 指出GPT2通过更高的预测概率得到的样本实际上质量更差,并且采样得到的文本趋向于高重复性。作者认为这个建模问题本质上是因为最大似然是一个根本错误的采样目标,并提出了核抽样,这种抽样方法可以截断低似然的符号,类似于top-k采样,同时保留长尾分布。然而高似然采样可以从更直观的角度理解,可以认为,既然从理想的语言模型 中抽取了一个极大似然样本,根据定义,这个样本将提供最可能出现的英文文本,这已经考虑到了极其乏味和重复的文本的可能性!因此问题是出在训练目标,而不是采样目标。

因此另一个简单的解决方法就是在训练时添加对重复性的惩罚,事实上,在神经文本退化论文发表后不久,我就独立地实现了我自己的GPT2波束搜索采样器。在重新考虑文本退化问题之后,我为重复的字符添加了一个简单的、任意时间可解码惩罚,乍一看结果还可以接受,但在理论上几乎没有理由这样做。最近,“Neural Text DeGeneration with Unlikelihood Training” (Welleck, Kulikov et al. 2019)提出了一种更加复杂的训练时间惩罚方案,包括在训练目标函数中添加一项额外惩罚项:

其中Ct是之前已经使用过的符号。虽然从经验上来说是成功的,但是没有很好的理论理由来解释为什么较少的重复量会更好地模拟潜在的分布。

曝光误差

通过最大似然来训练自回归语言模型的一个主要问题是曝光误差(exposure bias, Ranzato et al., 2015)。自回归模型只对从目标语言分布中抽取的样本进行训练和评估,而在评估时则输入由该模型生成的样本。这个错误会极其迅速地加剧,并且人们已经观察到,GPT2在经过一定次数的训练后,其质量急剧下降,尽管这已经是公认的事实。

未来工作展望

这个问题与强化学习中的许多问题高度相似,目前许多工作,例如 “SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient” (Yu et al., 2016), “Improving Conditional Sequence Generative Adversarial Networks by Stepwise Evaluation” (Tuan et al., 2018), and “Toward Diverse Text Generation with Inverse Reinforcement Learning” (Shi et al., 2018) 使用强化学习来训练序列生成模型中的各个部分,从在GAN设置中传播生成器梯度到使用反向强化学习(它本身与GANs紧密相连)。

在这些基于强化学习的方法对GPT2中的模型这样大的模型变得实用之前,还有很长的路要走。中间步骤是使用现有的预训练语言模型,并在强化学习环境中对它们进行调优。此外,一个能够很好地量化曝光误差的评估指标对于适当的定量分析也很重要,该方向的一篇不错的论文是“Jointly Measuring Diversity and Quality in Text Generation Models” (Montahaei et al., 2019)。

总结

虽然最近的工作已经证明由于模型大小的增加,神经文本生成的质量有了巨大的改进,但是曝光误差的问题仍然存在于生成的长序列文本中。这方面的进展可能需要从强化学习的工作中吸取经验。事实上,在强化学习和语言建模的相互结合这个思路上,已经出现了许多有前途的工作。希望这些改进的语言模型不仅是在单个段落的尺度内,也可以在整篇文章的范围内与人工文本一较高下。

参考链接

GPT2:https://openai.com/blog/better-language-models/

“The Curious Case of Neural Text Degeneration” :https://arxiv.org/abs/1904.09751

“Neural Text DeGeneration with Unlikelihood Training” : https://arxiv.org/abs/1908.04319

原文链接:

https://bair.berkeley.edu/blog/2019/12/18/smirl/

伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?相关推荐

  1. 伯克利AI研究院解析「反向课程学习」,改善「强化学习智能体」并应用于机器人技术

    原文来源:arXiv 作者:Wieland Brendel.Jonas Rauber.Matthias Bethge 「雷克世界」编译:嗯~阿童木呀.哆啦A亮 众所周知,强化学习(RL)是一种强大的技 ...

  2. UC伯克利最新深度强化学习课程上线,视频已上传到B站

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又有新的AI学习资源上线了. 这次是来自UC伯克利的秋季课程:Deep Reinforcement Learning,课程代号CS 285 ...

  3. AI 发展方向大争论:混合AI ?强化学习 ?将实际知识和常识整合到AI中 ?

    作者:Ben Dickson是一名软件工程师,还是探讨技术在如何解决和带来问题的TechTalks博客的创始人. 对于AI界来说意义重大,这归功于深度学习领域取得了惊人的进步,AI的这个分支因收集.存 ...

  4. 只有大规模算力才能救AI?强化学习之父 vs 牛津教授掀起隔空论战

    乾明 安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 70年来, 人们在AI领域"一直连续犯着同样的错误". 这是"强化学习之父"理查德·萨顿(Ri ...

  5. 赛题分析:AI决策•强化学习落地挑战赛——学习指定平等的促销策略

    赛事官方入口:https://codalab.lisn.upsaclay.fr/competitions/823#learn_the_details-overview 深度强化实验室的中文说明: ht ...

  6. AI之强化学习、无监督学习、半监督学习和对抗学习

    1.强化学习 文章目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习 强化学习(英语:Reinforcement Learning,简称 ...

  7. AI绘画发展史(伪):从免费到吃屎;YSDA·自然语言处理课程8K Star;伯克利CS285·深度强化学习课程;前沿论文 | ShowMeAI资讯日报

  8. 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 近年来,人工智能(AI)在强化 ...

  9. AI 大战 AI,一个深度强化学习多智能体竞赛系统

    小伙伴们快看过来!这是一款全新打造的 ⚔️ AI vs. AI ⚔️--深度强化学习多智能体竞赛系统. 这个工具托管在 Space 上,允许我们创建多智能体竞赛.它包含三个元素: 一个带匹配算法的 S ...

最新文章

  1. 宇宙的第一推动力,必然存在吗?
  2. AI面试官也太好骗了!用书架图片做视频背景,能提高15%好感度
  3. ad16自动布线设置规则_Cadence的allegro下设置阻抗
  4. 在Ubuntu上安装openResty #1
  5. H5解码H264实时视频流
  6. OPC向UNIX的演进(OPC evolution toward UNIX)
  7. Linux内核哈希表分析与应用
  8. ssh网络服务的搭建和配置
  9. CISCO ASA防火墙配置实验
  10. 论文赏析[TACL17]基于中序转移的成分句法分析
  11. 证明同步函数使用的this锁
  12. 智遥工作流--加签功能详解
  13. 强烈建议你把这5个跨境神器都收藏了
  14. 开源技术领域有哪些免费又好用的OA办公软件?最好是.NET平台
  15. SAP MR21修改标准价
  16. java调用webservice axis
  17. uniapp 解决phoneX原生tabbar 安全区域问题
  18. 计算机网络工程的话术,话术工具电脑版
  19. 二代身份证号码最后一位校验位的计算方法
  20. “精致穷”的年轻人养出百亿小样经济

热门文章

  1. java虚拟机参数-X 与 -XX的区别
  2. 访问权限的等级最大到最小依次是:
  3. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖 | 青源 Talk 第 8 期
  4. 张宏江:开源时代如何解决人的思维孤岛
  5. 开发你的第一个 Android 应用
  6. 徒劳的对抗——如何做好极客的老婆(灵感来源于《你就是极客》)
  7. 对话推荐算法研究综述
  8. 独家 | 可预测COVID-19病例峰值的新算法
  9. 近期活动盘点:首期AI Time PhD:清北师兄分享前沿研究成果、“科技驱动,正向创新”医工结合高峰论坛...
  10. PyTorch 1.3发布:能在移动端部署,支持Colab云TPU,阿里云上也能用