主要贡献

提出了一种核采样方法Nucleus Sampling，解决了现有解码方式的局限性。关键的直觉是，绝大多数的概率质量集中在分布的核心部分，即词汇表的一个小子集，它跨越了从一个到几百个候选词之间的任何地方。我们不依赖于固定的顶部k，而是建议从概率质量的顶部p部分进行抽样，动态地扩展和收缩候选池。核采样有效地减少了从不可靠的尾分布(机器文本中许多笨拙短语的来源)提取单词的风险，同时允许比似然最大化译码方法更多样化。

主要内容

Open-ended Generation

Open-ended Generation的任务是生成上下文连贯的文本。包括条件性的故事生成与上下文连续文本生成。
Context:m个token组成的句子{x1 . . . xm}
Goal：生成接下来连续的n个连续token去获得完整的句子{x1 . . . xm+n}

Non-open-ended Generation

自由度比开放式的要小，作者提出的解决方法能够解决这种生成面临的挑战，就像开放式情况一样。开放生成和非开放生成并不是严格的两分法，因为有些任务可能介于两者之间，这取决于输出生成中预期的自由度或输入与输出之间的语义一致性程度。例如，书籍级别的摘要更接近于开放式的情况，而句子压缩更接近于非开放式的情况。

Why Does Probability Maximization Lead to Degenerate Text?

之前的方法：

但是从递归神经语言模型计算最优argmax序列是不容易处理的，因此，考虑两种接近argmax的著名解码方法Beam search和Greedy。但是最常用的Beam search方法会导致不断地重复。
作者的研究揭示了两个惊人的发现，为argmax解码导致退化文本提供了新的见解:(1)最大化自然导致重复反馈循环(2)最大似然解码的分布特性与人类文本有很大的不同，甚至从语言模型的角度来看也是如此。
另一个令人惊讶的发现是，人类文本的概率分布与机器文本的概率分布存在显著差异，特别是当机器文本使用argmax解码(如波束搜索)生成时。总之，基于最大化的解码会导致文本具有不自然的高概率和太少的方差，这将导致明显不自然的输出。这激发了随机化而不是最大化的使用，允许我们从模型的数据分布近似值中取样，而不是优化输出概率。
1.一个不好的样本会导致恶性迭代。这在一定程度上是由于近因偏差和解释回避问题，其中语言模型有过度依赖短期上下文的倾向，而短期上下文可以很容易地解释长期上下文
2.极有可能从尾部取样。尽管如此，我们仍然可以假设，在尾部分布的单词的概率是如此之低，以至于在实践中它们不会被频繁采样，从而显著降低相干性。

文献中的采样方法

Sampling with Temperature
使用温度t∈[0,1]，使得分布更加倾向于高概率事件，这就隐含了削弱尾部分布的作用。
Top-k Sampling
在某些上下文中，下一个单词的分布可能在数百个合理的选项中是平坦的。在这种情况下，有许多超过k个合理的候选项，而将抽样限制在只有前k个选择的情况下，可能会产生乏味和可能重复的文本。
作者提出的Nucleus (Top-p) Sampling

选择概率最大的token，其累计概率质量超过预先选择的阈值p。让

The Curious Case of Neural Text Degeneration相关推荐

读论文：SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 链接论文原文: 源代码等全部信息: 今天先看摘要吧摘 ...
读论文2：SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers Abstract:[上一篇:读论文1](https:// ...
读论文3：SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
标题读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 标题 Abstract:[读论文1](h ...
人生若彷如倒序。。。本杰明·巴顿奇事 The Curious Case of Benjamin Button
有些人在河边出生: 有些人闪电击中过: 有些人对音乐有着非凡的天赋: 有些人是艺术家: 有些人游泳: 有些人懂得纽扣: 有些人知道莎士比亚: 而有些人是母亲: 也有些人能够跳舞... ...
《The Curious Case of Benjamin Button》让我哭了
近来几天都在加班,今天晚上不想加班,闲来无事就到迅雷上找片子看,无意之中看了<返老还童>这部片子,已经没有很久没有一部片子让我能这么专注的从头看到尾了,特别是最后tizzy和本杰明最后的日 ...
GPT2文本生成有问题？这里有些潜在解决思路
作者 | Leo Gao 译者 | 凯隐编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100) [导读]在过去的一年中,人们对文本生成模型的兴趣重新燃起,这在很大程度上要归功于GPT ...
知识图谱如何助力文本摘要生成
来源:丁香园大数据本文约3800字,建议阅读8分钟本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言文本生成类任务应用场景广泛, ...
ICLR2020 NLP优秀论文分享（附源码）
来源:知乎 https://zhuanlan.zhihu.com/p/139069973 作者:清华阿罗本文长度为1500字,建议阅读5分钟为你分享ICLR2020 NLP优秀论文. 1.REFO ...
伯克利AI研究院：强化学习是GPT2等自回归语言模型弥补不足的良方？
2020-02-13 15:06:27 [编者按]在过去的一年中,人们对文本生成模型的兴趣重新燃起,这在很大程度上要归功于GPT2(openAI设计的大规模非监督文本生成模型),它主要展示了使用更大模 ...
如何应对Seq2Seq中的“根本停不下来”问题？
©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络在 Seq2Seq 的解码过程中,我们是逐个 token 地递归生成的,直到出现标记为止,这就是所谓的& ...

The Curious Case of Neural Text Degeneration