WWW 2021 | 通过强化学习控制对话式检索的风险

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

本文由犹他大学发表于 WWW 2021。考虑到当前的对话式系统可能由于提出一些不好的澄清式问题，导致用户拥有不好的搜索的体验，本文作者提出了一种基于强化学习的 agent，来判断基于当前的状态，系统应该向用户返回澄清式问题还是结果。

论文标题：

Controlling the Risk of Conversational Search via Reinforcement Learning

论文链接：

https://arxiv.org/abs/2101.06327

模型

该模型主要包括问题/答案重排序网络、决策网络以及他们的训练方法，具体来说，该模型首先根据当前对话的上下文信息，对候选的澄清式问题集合和候选答案集合中所有的元素给出匹配分数，因为本文希望验证提出的 agent 在各类的匹配网络上，都能做出较好的决策，所以主要考虑了 Bi-encoder（分别建模上下文和候选，并通过内积得到相关性分数）和 poly-encoder（一种快速且交互式的相关性编码器）两种模型来实现重排序。

生成候选集合的排序分数后，作者通过一个 DQN 的网络，将上下文信息和候选集合信息所生成的 embedding 以及重排序分数作为输入，分别计算提出问题和给出答案的预测 reward，具体来说，该网络通过了一个两层的前向传输层，并考虑到输出是 reward 而不是分类结果，故最后一层没有使用激活函数。

在训练阶段，作者使用二元的 cross-entropy loss 来训练重排序模型，并通过 MSE loss 计算真实 reward 和预测 reward 之间的差距。具体来说，作者使用结果列表的 MRR 为选择返回的 reward，而如果选择提问，提出一个好的问题则给定一个固定的奖励，而提出一个差的问题则给出一个固定的惩罚，由此训练 DQN 网络，使其能够尽量好的作出决策。

实验

本文的实验在 MSDialog 数据集上进行，作者比较了 3 种固定的策略（即固定提出 0-2 个澄清式问题），以及一个简单的分类方法。选择的评价指标是候选答案排在第一位的比例（Recall@1），候选列表的 MRR 以及作出错误决策的比例（Decision Error），并考虑了用户能忍受的最多错误问题数，实验结果如下：

可以看到，当我们使用 poly-encoder 这种更加好的匹配网络时，我们的模型都显著更好，虽然有一项上 MRR 略低，但是 MRR 指标更偏向于不提出澄清式问题，并不能作为主要的评价指标。而当我们使用较差的匹配网络时，可以看到用户容忍度较高的情况下，固定提出一个问题效果较好，这是因为该模型主要在提出 0-1 个问题之间权衡，而在该条件下，不提出问题的效果太差（即 Q0A），一定程度上可以解释本文模型效果略低于提出一个问题。

结论

在本文中，作者列出了在对话搜索中向用户提出澄清问题的风险。本文提出了一种考虑风险的对话代理，该代理通过综合评估和比较在提出澄清问题和回答用户的询问之间做出决策。在训练时，作者提出强化学习来训练，而无需何时提出澄清问题以及何时向用户提供答案的标注数据。通过使用不同用户模型的模拟实验，作者证明了该代理可以在与检索系统进行交互时提高回答质量和用户体验。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

WWW 2021 | 通过强化学习控制对话式检索的风险相关推荐

CS224n研究热点11 深度强化学习用于对话生成
为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-deep-reinforcem ...
深度强化学习控制六足机器人移动个人学习笔记（一）
深度强化学习控制六足机器人移动个人学习笔记(一) 注意事项 ubuntu18对应的ros版本不是Kinect gym算法执行中部分包要求Python不低于3.6 conda虚拟环境安装gym-gaze ...
深度强化学习控制移动机器人
联系方式:860122112@qq.com 一.实验目的使用深度强化学习控制移动机器人在复杂环境中避障.收集物品到指定点.所用到的算法包括DQN.Deuling-DDQN.A3C.DDPG.NAF. ...
招全奖博士！UNC Charlotte招收机器人/强化学习/控制博士
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达导师介绍: Dr. Wenhao Luo 目前就职于UNC Charlotte, 担任计算机系助理教授.Dr ...
IJCAI 2021 ICAPS 2021自动强化学习挑战赛正式开赛
近日,国际人工智能联合会议(International Joint Conference on Artificial Intelligence)公布了比赛议程,其中,由第四范式.巴黎萨克雷大学.香港科 ...
百度PARL再度夺冠NeurIPS仿生人挑战赛：强化学习控制的流畅行走
在最近的 NeurlPS 2019 强化学习赛事中,百度凭借基于飞桨的自研强化学习框架「PARL」再次夺冠. 机器学习领域顶级会议 NeurIPS 2019 将于 12 月 8 日-14 日在加拿 ...
深度强化学习用于对话生成（论文笔记）
一.如何定义一个好的对话尽管SEQ2SEQ模式在对话生成方面取得了成功,但仍出现了两个问题(图1): 通过使用最大似然估计(MLE)目标函数预测给定会话上下文中的下一个对话转角来训练SEQ2SEQ模 ...
《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用
No.24 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于CORL 2021学 ...

WWW 2021 | 通过强化学习控制对话式检索的风险

WWW 2021 | 通过强化学习控制对话式检索的风险相关推荐

最新文章

热门文章