The Curious Case of Neural Text Degeneration
The Curious Case of Neural Text Degeneration
- 主要贡献
- 主要内容
- Open-ended Generation
- Non-open-ended Generation
- Why Does Probability Maximization Lead to Degenerate Text?
- 文献中的采样方法
主要贡献
提出了一种核采样方法Nucleus Sampling,解决了现有解码方式的局限性。关键的直觉是,绝大多数的概率质量集中在分布的核心部分,即词汇表的一个小子集,它跨越了从一个到几百个候选词之间的任何地方。我们不依赖于固定的顶部k,而是建议从概率质量的顶部p部分进行抽样,动态地扩展和收缩候选池。核采样有效地减少了从不可靠的尾分布(机器文本中许多笨拙短语的来源)提取单词的风险,同时允许比似然最大化译码方法更多样化。
主要内容
Open-ended Generation
Open-ended Generation的任务是生成上下文连贯的文本。包括条件性的故事生成与上下文连续文本生成。
Context:m个token组成的句子{x1 . . . xm}
Goal:生成接下来连续的n个连续token去获得完整的句子{x1 . . . xm+n}
Non-open-ended Generation
自由度比开放式的要小,作者提出的解决方法能够解决这种生成面临的挑战,就像开放式情况一样。开放生成和非开放生成并不是严格的两分法,因为有些任务可能介于两者之间,这取决于输出生成中预期的自由度或输入与输出之间的语义一致性程度。例如,书籍级别的摘要更接近于开放式的情况,而句子压缩更接近于非开放式的情况。
Why Does Probability Maximization Lead to Degenerate Text?
之前的方法:
但是从递归神经语言模型计算最优argmax序列是不容易处理的,因此,考虑两种接近argmax的著名解码方法Beam search和Greedy。但是最常用的Beam search方法会导致不断地重复。
作者的研究揭示了两个惊人的发现,为argmax解码导致退化文本提供了新的见解:(1)最大化自然导致重复反馈循环(2)最大似然解码的分布特性与人类文本有很大的不同,甚至从语言模型的角度来看也是如此。
另一个令人惊讶的发现是,人类文本的概率分布与机器文本的概率分布存在显著差异,特别是当机器文本使用argmax解码(如波束搜索)生成时。总之,基于最大化的解码会导致文本具有不自然的高概率和太少的方差,这将导致明显不自然的输出。这激发了随机化而不是最大化的使用,允许我们从模型的数据分布近似值中取样,而不是优化输出概率。
1.一个不好的样本会导致恶性迭代。这在一定程度上是由于近因偏差和解释回避问题,其中语言模型有过度依赖短期上下文的倾向,而短期上下文可以很容易地解释长期上下文
2.极有可能从尾部取样。尽管如此,我们仍然可以假设,在尾部分布的单词的概率是如此之低,以至于在实践中它们不会被频繁采样,从而显著降低相干性。
文献中的采样方法
Sampling with Temperature
使用温度t∈[0,1],使得分布更加倾向于高概率事件,这就隐含了削弱尾部分布的作用。
Top-k Sampling
在某些上下文中,下一个单词的分布可能在数百个合理的选项中是平坦的。在这种情况下,有许多超过k个合理的候选项,而将抽样限制在只有前k个选择的情况下,可能会产生乏味和可能重复的文本。
作者提出的Nucleus (Top-p) Sampling
选择概率最大的token,其累计概率质量超过预先选择的阈值p。让
The Curious Case of Neural Text Degeneration相关推荐
- 读论文:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 链接 论文原文: 源代码等全部信息: 今天先看摘要吧 摘 ...
- 读论文2:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers Abstract:[上一篇:读论文1](https:// ...
- 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
标题 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 标题 Abstract:[读论文1](h ...
- 人生若彷如倒序。。。本杰明·巴顿奇事 The Curious Case of Benjamin Button
有些人 在河边出生: 有些人 闪电击中过: 有些人 对音乐有着非凡的天赋: 有些人 是艺术家: 有些人 游泳: 有些人 懂得纽扣: 有些人 知道莎士比亚: 而有些人 是母亲: 也有些人 能够跳舞... ...
- 《The Curious Case of Benjamin Button》让我哭了
近来几天都在加班,今天晚上不想加班,闲来无事就到迅雷上找片子看,无意之中看了<返老还童>这部片子,已经没有很久没有一部片子让我能这么专注的从头看到尾了,特别是最后tizzy和本杰明最后的日 ...
- GPT2文本生成有问题?这里有些潜在解决思路
作者 | Leo Gao 译者 | 凯隐 编辑 | 夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]在过去的一年中,人们对文本生成模型的兴趣重新燃起,这在很大程度上要归功于GPT ...
- 知识图谱如何助力文本摘要生成
来源:丁香园大数据 本文约3800字,建议阅读8分钟 本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言 文本生成类任务应用场景广泛, ...
- ICLR2020 NLP优秀论文分享(附源码)
来源:知乎 https://zhuanlan.zhihu.com/p/139069973 作者:清华阿罗 本文长度为1500字,建议阅读5分钟 为你分享ICLR2020 NLP优秀论文. 1.REFO ...
- 伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?
2020-02-13 15:06:27 [编者按]在过去的一年中,人们对文本生成模型的兴趣重新燃起,这在很大程度上要归功于GPT2(openAI设计的大规模非监督文本生成模型),它主要展示了使用更大模 ...
- 如何应对Seq2Seq中的“根本停不下来”问题?
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 在 Seq2Seq 的解码过程中,我们是逐个 token 地递归生成的,直到出现 标记为止,这就是所谓的& ...
最新文章
- 离职10天,面挂4家公司!
- win10+VS2015+boost_1.60.0
- 产品经理日常数据分析工作
- 华为手机怎么看图片属性_华为手机怎么才能息屏显示时间?操作方法很简单,看完涨知识了...
- length函数的头文件_Framebuffer 应用编程中涉及的 API 函数
- Hibernate 中出现 xxx表 is not mapped xxx的问题
- Bootstrap3 工具提示插件的选项
- 思科修复运营商级路由器中的两个已遭利用漏洞
- VBA实战技巧精粹013:宏代码保存工作簿的3种方法
- 代码分析工具推荐Understand
- 知识图谱概论(二):概念具象化描述
- UVA10815 安迪的第一个字典 Andy‘s First Dictionary
- AI元宇宙数字人直播带货软件 全天24小时直播带货系统 含搭建教程
- 新手应该如何学习SEO优化
- 几百块的投影仪靠谱吗?性能怎么样?
- asp新闻发布系统 html,构建你的网站新闻自动发布系统之一_asp实例
- 1219_SCons的配置文件SConstruct
- PCI Express 协议基础
- 使用word插入无法编辑的对象
- 事理图谱,下一代知识图谱
热门文章
- SAP 小写金额转大写
- classic shell_使用Classic Shell将Windows 7开始菜单带到Windows 10
- VSCode选择远程服务器的虚拟环境
- JavaScript实现输出100以内含7和7倍数所有数
- [渝粤教育] 西北农林科技大学 国际贸易实务 参考 资料
- 【通知】4月18日22:00至4月19日2:00网站服务暂停公告
- 分赛区决赛见!2021eBay全国跨境电商创新创业大赛分赛区决赛晋级名单
- 【转】蔡康永的说话之道
- 什么是设备管理系统,包括哪些内容?一文读懂
- Unity Mesh网格编程(三) Shader实现水面或旗帜飘扬效果