1 Greedy search

一个自然的想法是贪心搜索(greedy search),即decoder的每一步都选择最可能的单词,最后得到句子的每一个单词都是每一步认为最合适的单词。但这样并不保证整个句子的概率是最大的,即不能保证整个句子最合适。实际上,贪心搜索的每一步搜索都处理成仅仅与前面刚生成的一个单词相关,类似于马尔科夫假设。这显然是不合理的,具体来说,贪心搜索到的句子yy概率是使得下式概率最大:

P(y|x)=∏nk=1p(yk|x,yk−1)P(y|x)=∏k=1np(yk|x,yk−1)

而实际上,根据全概率公式计算得到P(y|x)P(y|x)为:

P(y|x)=∏nk=1p(yk|x,y1,y2,...,yk−1)P(y|x)=∏k=1np(yk|x,y1,y2,...,yk−1)

2 Beam search

译为束搜索。思想是,每步选取最可能的kk个结果,再从最后的kk个结果中选取最合适的句子。kk称为beam size。

具体做法是:

首先decoder第一步搜索出最可能的kk个单词,即找到y11,y12,...,y1ky11,y12,...,y1k,他们的概率p(y11|x),...,p(y1k|x)p(y11|x),...,p(y1k|x)为最大的kk个。

进行第二步搜索,分别进行kk个模型副本的搜索。每个副本ii,根据上一步选取的单词y1iy1i,选取概率最大的kk个结果y21,y22,...,y2ky21,y22,...,y2k。这样,就有了k∗kk∗k个可能的结果,从这些结果中选择kk个概率最大的结果,即p(y1i|x)∗p(y2j|x,y1i)p(y1i|x)∗p(y2j|x,y1i)最大的kk个结果。

进行第三步搜索,从第二步中确定的kk个结果出发,再进行kk个模型副本的搜索,直到最后一步,从最后的kk个结果中选取概率最大者。

显然,若k=1k=1则为贪心搜索,kk越大则占用内存越大,计算代价越大,实际应用中取10即可。

另外,可以发现概率的连乘使得概率越来越小,很可能溢出,为了保证模型的稳定性,常对概率连乘计算+log变为加法。

P(y|x)=log(∏nk=1p(yk|x,y1,y2,...,yk−1))P(y|x)=log(∏k=1np(yk|x,y1,y2,...,yk−1))

3 改进Beam search

从Beam search的搜索过程中可以发现,Beam search偏向于找到更短的句子,也就是说,如果搜索过程中有一支搜索提前发现了<EOS><EOS>,而另外k−1k−1支继续搜索找到其余更长的结果,那么由于概率连乘(或log连加),越长的结果概率肯定越小。因此有必要进行模型修正,即进行长度归一化,具体来说,即:

选择概率P(y|x)=1nlog(∏nk=1p(yk|x,y1,y2,...,yk−1))P(y|x)=1nlog(∏k=1np(yk|x,y1,y2,...,yk−1))最大的句子,式中,nn为该结果序列长度。

另外,实践中还做了如下修正:

P(y|x)=1nαlog(∏nk=1p(yk|x,y1,y2,...,yk−1))P(y|x)=1nαlog(∏k=1np(yk|x,y1,y2,...,yk−1))

式中,超参数αα取0.7比较合适。

Greedy search 和 beam search相关推荐

  1. Greedy search与beam search

    最近在看End-to-end Relation Extraction using LSTMs on Sequences and Tree Structures这篇文章时,看到此文在Entity det ...

  2. Greedy Search VS Beam Search 贪心搜索 vs 集束搜索

    在做NLP领域的NMT或者chatbot等方面的工作时,在进行inference(推理)的时候,经常会用到两种搜索方式,即Greedy Search和Beam Search. 1. Greedy Se ...

  3. Exhaustive search 和 Beam search 详解(图文并茂)

    1.Exhaustive search decoding Exhaustive search :也称为穷举法 我们理想的翻译序列 y 能够使如下条件概率最大 Exhaustive search 方法是 ...

  4. 【NLP】选择目标序列:贪心搜索和Beam search

    构建seq2seq模型,并训练完成后,我们只要将源句子输入进训练好的模型,执行一次前向传播就能得到目标句子,但是值得注意的是: seq2seq模型的decoder部分实际上相当于一个语言模型,相比于R ...

  5. 【自然语言处理】【文本生成】Transformers中使用约束Beam Search指导文本生成

    Transformers中使用约束Beam Search指导文本生成 原文地址:https://huggingface.co/blog/constrained-beam-search 相关博客 [自然 ...

  6. Beam Search 及5种优化方法

    文章目录 Beam Search 及优化 1. Review Beam Search 2. Beam Search Refinement 2.1 Hypothesis filtering 2.2 No ...

  7. 十分钟读懂Beam Search(1/2)

    最近研究了一下用基于BERT的encoder-decoder结构做文本生成任务,碰巧管老师昨天的文章也介绍了以生成任务见长的GPT模型,于是决定用两篇文章大家介绍一下在文本生成任务中常用的解码策略Be ...

  8. NLP自然语言处理 集束搜索(beam search)和贪心搜索(greedy search)

    https://blog.csdn.net/qq_16234613/article/details/83012046 https://blog.csdn.net/weixin_38937984/art ...

  9. 贪心搜索(greedy search)、集束搜索(beam search)、随机采样(random sample)

    当我们训练完成一个自然语言生成模型后,需要使用这个模型生成新的语言(句子),如何生成这些句子,使用如下的方法:贪心搜索,集束搜索,随机搜索. 贪心搜索(greedy search)/采样(Sampli ...

  10. 集束搜索(beam search)和贪心搜索(greedy search)

    最近读论文的时候看到文中经常用到集束搜索(beam search),可能很多人不懂这到底是个什么算法,其实很简单,顺便把贪心搜索(greedy search)也介绍一下. 贪心搜索(greedy se ...

最新文章

  1. 只有14秒,假老黄才是假的!黄仁勋没有骗了全世界,英伟达「元宇宙」验明正身...
  2. centos7 docker 启动报错 Job for docker.service failed 解决办法
  3. 计算机科学与技术的深度研究,专业深度分析--计算机科学与技术.docx
  4. tp5数组为什么要中括号_VBA数组与字典解决方案第7讲:为什么要采用数组公式(一)...
  5. Linux 自动删除N天前的文件
  6. Xshell配置ssh免密码登录-密钥公钥(Public key)
  7. matlab中prprob,pr-sr-master
  8. PyChram简单使用教程
  9. 企业微信开放客户朋友圈功能 无需审核即可使用
  10. Swift3 数组复制
  11. 交换机tftp服务器修改ip,华为交换机tftp服务器地址
  12. 贺利坚老师汇编课程55笔记:带进位加法指令ADC
  13. Nodejs设备接入阿里云IoT平台
  14. SegNet论文笔记及其创新点代码解析
  15. 代码编辑器CodeMirror及其简单的配置
  16. 找到堡垒后的目标--逆向CDN的各种方式总结(干货,附解决方案
  17. eureka服务返回的数据是xml格式
  18. 计算机一级ms必考知识点,计算机一级MsOffice考试知识点整理重点.docx
  19. android+平板+输入法,搜狗推首款Android3.0平板电脑输入法
  20. 歌谣学前端之展开...

热门文章

  1. 【笔记本双屏外界显示屏分辨率调高】解决方法
  2. ajax 发送 put 请求
  3. HR面试问题总结(HR面经)
  4. element-ui图片上传组件之限制每次5张上传(或者自定义每次几张上传)
  5. CCNA学习-路由器交换机的管理配置
  6. 魔兽世界 圣骑士唯一的远程武器任务
  7. 大屏幕显示屏 html,在大屏幕上显示墙的三种解决方案
  8. 2021年高处安装、维护、拆除考试及高处安装、维护、拆除考试题
  9. 51中程序存储器和数据存储器
  10. Tony Bai带你入门Go语言