BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems

问题:
提高exploration的效率; 比ε-greedy, Boltzmann, bootstrap- ping, and intrinsic-reward-based都好

背景:

在探索下一个动作的时候(特别是目标很不明确的时候)如何选择,
过去常用是ε-greedy,Boltzmann, bootstrapping, and intrinsic-reward-based ,
我们的方法:使用thompson sampling,从一个 Bayes-by-Backprop的网络抽取蒙特卡洛样本
创新:

  • thompson sampling:基于贝叶斯思想,全部用概率分布来表达不确定性。

    • 在每一次选择时,都根据上一个最优动作的后验概率分布来确定下一个动作如何选。;;;;已知的初始动作值分布,然后每一步都更新这个分。。如果给定足够多的次数的话,我们可以考虑所有的行动,以及每个行动下的所有可能奖励,然后计算,挑出最好的。
  • 蒙特卡洛样本:
  • Bayes-by-Backprop的网络:
    假设一个L层的MLP网络,每一层是w = {Wl, bl}l=1到L: yˆ = WL · φ(WL−1 · …· φ(W1 ·x+b1)+…+bL−1)+bL, φ 是激活函数。
    给w加一个先验分布。然后学习参数w的后验分布。p(w|D) ∝ p(w)p(D|w)。D = {xi,yi}i从1到N,是训练集。但是这样不可导。所以使用q(w|θ)来近似前面的数学设定。
    θ = {(μi,ρi)}Di=1,σi = log(1 + exp(ρi)),wi 从正态分布N(μi,σi2)中抽样,即服从Gaussian分布。
    使用KL散度来使q(w|θ)近似p(w|D)。
    具体的优化目标是 f(D,θ) = log q(w|θ) − log p(w) − log p(D|w)。

但是还不明白和贝叶斯有什么关系

具体过程:使用Q-learning。使用bayes网络来近似Q函数。使用MLP网络而不是CNN或者RNN。使用DQN,有两个网络。

BBQN with intrinsic reward:
不是很明白,主要是一种trick,目的是
https://zhuanlan.zhihu.com/p/48042454

实验结果
很不错

对话系统论文集(1)-BBQ网络相关推荐

  1. 一周AI看点 | AI界的体操运动员Atlas上线,第一家金融AI公司纽交所上市

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 行业 柯洁苦战终结AI 41连胜,深夜失眠发文感慨 11月18日凌晨,世界围棋第一人柯洁发微博,庆祝自己在网络上下棋击败已经4 ...

  2. 论文浅尝 | 具有图卷积网络和顺序注意力机制的应用于目标导向的对话系统

    论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理. 来源:2019 Association for Computational Linguistics 论文链接:https://www.mit ...

  3. 当我们谈论「Chatbot」时,我们在读什么? | 论文集精选 #05

    PaperWeekly 是一个 AI 学术分享社区.这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文. 点击本文底部的「阅读原文」即刻加入社区,创建属于你的论文集. 这里是第 5 ...

  4. 表面缺陷检测数据集汇总及其相关论文集收集 | Github开源

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Github:Surface-Defect-Detection ???????? 我不断总结表面缺陷研 ...

  5. Stephen Wolfram专访Judea Pearl:从贝叶斯网络到元胞自动机

    导语 2022年人工智能与数学国际研讨会(ISAIM 2022)恰逢著名计算机科学家.贝叶斯网络之父 Judea Pearl 85岁生日,会议期间Mathematica创始人 Stephen Wolf ...

  6. 生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中

    刚做完实验,来答一答自然语言处理方面GAN的应用. 直接把GAN应用到NLP领域(主要是生成序列),有两方面的问题: 1. GAN最开始是设计用于生成连续数据,但是自然语言处理中我们要用来生成离散to ...

  7. 基于matlab的fisher线性判别及感知器判别_Deep Domain Adaptation论文集(一):基于label迁移知识...

    本系列简单梳理一下<Deep Visual Domain Adaptation: A Survey>这篇综述文章的内容,囊括了现在用深度网络做领域自适应DA(Domain Adaptati ...

  8. 人一样自然流畅地说话,下一代智能对话系统还有多长的路要走?

    为了推动 AI 技术的应用创新,促进人工智能领域的学术交流.人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新大赛,并得到了阿 ...

  9. 百度 UNIT 技术负责人揭秘:如何让你的对话系统更智能

    分享 UNIT 核心技术的,是百度理解与交互技术平台(Understanding and Interaction Technology, UNIT)的技术负责人孙珂,他着重讲解了百度在理解与交互方面所 ...

最新文章

  1. mysql用语_mysql基本sql语句大全(基础用语篇)
  2. AI,来感受被「分手厨房」支配的恐惧吧!
  3. Shell Sort 希尔排序 收藏
  4. cordova 插件开发
  5. java 枚举学习--从小程序中学习
  6. 对dedecms、php168,phpcms、VeryCMS、DiyPage五款开源整站系统的简单评点(
  7. ffmpeg——vs集成ffmpeg相关开发
  8. Jmeter(二)目录介绍
  9. servlet的请求转发与重定向
  10. centos8 用u盘安装失败_CentOS 8 安装图解
  11. Java、十六进制转二进制
  12. php 集成 spss,spss怎么录入数据
  13. 如何使用手机裁剪图片大小?
  14. 10个互联网兼职平台,让你的一技之长变现,副业薪资比日常搬砖高也太爽了
  15. 2021年茶艺师(中级)考试及茶艺师(中级)复审模拟考试
  16. Windows 去除桌面烦人的小箭头
  17. 点餐小程序实战教程03-店铺信息展示
  18. 服务器4块固态硬盘做raid5,RAID 5与RAID 10、硬盘和固态硬盘
  19. linux编译sqrt,linux c sqrt
  20. uni-app z-index无效的解决办法(遮罩层)

热门文章

  1. 小白看了直呼细节--CPP“引用”
  2. Sparrow: 适用于细粒度tasks低延迟调度的去中心化无状态分布式调度器
  3. 公众号如何开通留言功能?
  4. Git 工作流的一些经验分享
  5. 那一年,我与电脑结下了不解之缘
  6. 上传文件到服务器打不开,关于软件上传到服务器后出现图片打不开的解决方法...
  7. 计算机ip无法连接打印机,网络打印机无法连接的原因与解决办法-电脑故障
  8. Unity3D如何快速入门
  9. Java工程师学快速Python(4)----- I/O与异常处理
  10. OSI 模型简单介绍与速记