文本生成解码策略笔记-常见解码策略

在Seq2Seq模型生成文本的decoder端，假设处于第t步，则生成的结果依赖于encoder端对输入句子的向量hidden state和先前生成的t-1个字；我们会得到一个第t个字的向量，然后通过softmax的方式得到该步时的整个vocabulary的概率分布。当前字到底生成候选词典(vocab)中的哪一个，需要一定的策略,显然遍历的复杂度较高，如何选取也会影响生成文本的质量，一些常见的优化方法如下。

一、贪心搜索
即第t+1时间步取一个词使得第1步到第t+1的概率最大，然后依次进行递进搜索。例如下图，每一个时间步都取出对应使得概率最大的词(可以联系语言模型的定义)，生成了序列[A,B,C]

二、Beam Search
又称集束搜索，Beam Search（集束搜索）是一种启发式图搜索算法，通常用在图的解空间比较大的情况下，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，剪掉一些质量比较差的结点，保留下一些质量较高的结点。这样减少了空间消耗，并提高了时间效率，但缺点就是有可能存在潜在的最佳方案被丢弃，因此Beam Search算法是不完全的，一般用于解空间较大的系统中。

相对贪心策略绝大的搜索空间，我们每次选制定的个数，num_beams个；num_beams=1时集束搜索就退化成了贪心搜索；num_beams=2，即，每个时间步都会保留到当前步为止条件概率最优的2个序列。然后依次往前递推；

如下图所示，假设字典vocab是之含有A,B,C,D,E的大小为5的字典；第一步有两个候选 A,C概率最高先被选出；第二步有AA,AB,AC,AD,AE，CA,CB,…,CD,CE共10种可能，依然只选概率最高的两种，如下图是AB，CE被选出，因为这两个概率最高

三、随机采样
虽然Beam Search优化了空间效率，高效的选取了一些结点，但还是容易生成重复、无意义的文本，这点在做实验中比较容易遇到。目前提出了随机采样(sampling)的做法对Beam Search做出一些改进；候选字有一定的概率分布，通过一些策略提高生成文本的质量。比较常见的做法如下:

1.Temperature Sampling

在softmax计算过程中引入温度参数 t来改变vocabulary probability distribution，使其更偏向high probability words
P(x∣x1:t−1)=exp(ut/t)∑t′exp(ut′/t))P(x|x_{1:t-1})=\frac{exp(u_{t}/t)}{\sum _{{t}'}exp(u_{{t}'}/t))}P(x∣x1:t−1)=∑t′exp(ut′/t))exp(ut/t)，其中t的取值在[0,1)之间。

2.Top-k 采样
在解码过程中从 P(x∣x1:i−1)P(x|x_{1:i-1})P(x∣x1:i−1)分布中，取概率最高的k个tokens，将其概率求和记为sum-topk。概率重新分布转化如下：上述这k个tokens分别除以概率和sum-topk得到各自新的概率，其余token概率变为0。Top-k Sampling存在的问题是，常数k是给定的值，k设置过小则会容易生成更平淡或泛的句子。当k很大的时候，候选集合会包含一些不合适的token。下面的核采样方法则会有更动态的选取策略。

3.NUCLEUS SAMPLING 方法，或记为Top-p方法
主要的想法根据概率的分布来决定一个可以用来被采样的token集合。给定所有候选tokenx的分布 P(x∣x1:i−1)P(x|x_{1:i-1})P(x∣x1:i−1)，这样的满足top-p条件的集合V(p)⊂VV^{(p)}\subset VV(p)⊂V。
sumx∈V(p)P(x∣x1:i−1)≥psum_{x\in V^{(p)}}P(x|x_{1:i-1})\geq psumx∈V(p)P(x∣x1:i−1)≥p

让p′=sumx∈V(p)P(x∣x1:i−1)≥pp'=sum_{x\in V^{(p)}}P(x|x_{1:i-1})\geq pp′=sumx∈V(p)P(x∣x1:i−1)≥p，原始的分布重新计算转化到一个新的分布如下，可以看到不在候选集里的直接概率为0，屏蔽掉了，在候选集里的要除以这个和p’。
P′(x∣x1:i−1)={P(x∣x1:i−1)/p′ifx∈V(p)0othersizeP'(x|x_{1:i-1})=\left\{\begin{matrix} P(x|x_{1:i-1})/p'&if x\in V^{(p)}\\ 0 & othersize \end{matrix}\right.P′(x∣x1:i−1)={P(x∣x1:i−1)/p′0ifx∈V(p)othersize

参考链接

[1]https://blog.csdn.net/hecongqing/article/details/105040105?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control
[2]https://zhuanlan.zhihu.com/p/68383015
[3]The Curious Case of Neural Text Degeneration（https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1904.09751)

文本生成解码策略笔记-常见解码策略相关推荐

文本生成图像简述4——扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功. 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据 ...
文本生成中的OOV问题
oov问题是文本生成任务中很常见的现象,oov问题是怎么产生的呢? Vocab 首先,我们在做文本生成的时候,都要先定义一个vocab语料库,这个语料库可能是在训练集中经过分词构建的,可能是这个模型自 ...
搜索，然后学习：两阶段的无监督文本生成
论文标题: Unsupervised Text Generation by Learning from Search 论文作者: Jingjing Li, Zichao Li, Lili Mou, X ...
浅谈文本生成或者文本翻译解码策略《转》
原文链接,感谢原作者目录一.文本生成和翻译的基本流程翻译类模型的训练和解码训练过程解码过程生成类模型的训练和解码(GPT系列) 训练过程解码过程二.解码策略 1.贪心搜索(greedy ...
浅谈文本生成或者文本翻译解码策略
目录一.文本生成和翻译的基本流程翻译类模型的训练和解码训练过程解码过程生成类模型的训练和解码(GPT系列) 训练过程解码过程二.解码策略 1.贪心搜索(greedy search) 2. ...
【自然语言处理】【文本生成】Transformers中用于语言生成的不同解码方法
Transformers中用于语言生成的不同解码方法原文地址:https://huggingface.co/blog/how-to-generate 相关博客 [自然语言处理][ChatGPT系列] ...
我的Android进阶之旅------gt;Android中编解码学习笔记
编解码学习笔记(一):基本概念媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等 ...
Qt 5.12学习笔记--QML性能策略
Qt 5.12学习笔记--QML性能策略 1 简介 2 时间因素 2 性能分析 3 JavaScript 部分 4 绑定 5 类型转换 6 解析属性 6 属性绑定 7 序列提示(Sequence ti ...
编解码学习笔记(基础)
编解码学习笔记(一):基本概念媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等 ...
【NLP笔记】文本生成？还不快上知识库
来自 | 知乎地址 | https://zhuanlan.zhihu.com/p/163343976 作者 | 三和厂妹编辑 | 机器学习算法与自然语言处理公众号本文已获得作者授权,未经许可禁止 ...

文本生成解码策略笔记-常见解码策略

参考链接

文本生成解码策略笔记-常见解码策略相关推荐

最新文章

热门文章