©PaperWeekly 原创 · 作者|张琨

学校|中国科学技术大学博士生

研究方向|自然语言处理

论文标题:

Beyond Relevance: Trustworthy Answer Selection via Consensus Verification

论文作者:

Lixin Su , Ruqing Zhang , Jiafeng Guo , Yixing Fan , Jiangui Chen , Yanyan Lan , Xueqi Chen

论文来源:

WSDM 2021

论文链接:

https://dl.acm.org/doi/abs/10.1145/3437963.3441781

Motivation

社区问答(CQA)是 NLP 中的问答系统研究中的一个重要组成部分,既有丰富的数据,同时又有实际的应用。因此是很多人的研究方向。但同时 CQA 又存在自己的问题,因为答案都是用户生成的,所以答案的质量良莠不齐,而这会直接影响到模型最终的效果。

传统的方法大多是将 CQA 转变为一个检索的问题,根据和问题的相关性对所有的答案进行排序,从而找到最合适的答案,但本文认为,CQA 问题不仅仅是选择一个好答案的问题,例如下图的例子,可以看出来两个答案都是和问题十分相关的,但明显第一个答案就要优于第二个。因此要更好的解决 CQA 问题,首先要解决的就是什么是好答案?

在本文中,作者受真理共识论(Consensus theory of truth)的启发提出了一个好答案是由两部分组成的:相关性,可信性。一个好答案必定是相关的,但一个相关的答案不一定是好答案。还要考虑是否具有可信性。这里真理共识论是指如果一个结论是好的,那么必定是被大多数人接受的。

在 CQA 中的话,最好理解的形式就是如果一个问题获得的投票更多,那儿它就更可能是最好的答案。基于这个想法,作者提出了一个 Matching-Verification (MV)的框架。

Method

首先是模型的整体框架图,如下图所示:

模型整体分为两部分,Matching 部分和 Verification 部分。前者主要用于判断问题和答案的相关,而后者主要用于判断答案的质量,即答案的可信性。

2.1 Matching component

这部分相对来说简单一些,将问题和每个答案进行拼接,然后过 BERT,将 BERT 的输出结果再过一个 FC 层,最后做一个分类即可。性对传统的匹配方法

2.2 Verification Component

这部分是本文的重点。首先从思路上讲是没有问题的,但实际上一个用户并不一定能每次都找到非常好的答案。即数据本身是有噪声的,那么本文的挑战就是如何从有噪声的数据中找到可信的表示。为了解决这个问题,本文提出了 Verification 的框架,该框架如下图所示:

该框架主要包含两部分内容。真理表示学习(Consensus Representation Learning)和答案-真理验证(Answer-consensus Verification)

首先就是真理表示学习。在这里,考虑到并没有 ground truth 可以利用,作者借鉴了 EM 算法的思想,提出了一种 EM 框架,其中 E 步是选出一个 pivoted supporting evidence,M 步使用一种新的注意力机制得到真理表示。具体分为以下步骤:

  1. 找到合适的输入:作者通过网页和用户生成内容分别得到和问题相关的 Top-k 个相关的证据。

  2. 对输出的处理:这步相对简单,分别通过 BERT 对答案和 evidence 进行处理,得到最终的每个词的表示。如下图所示:

  3. pivoted supporting evidence:该步基于的一个假设是如果一个 evidence 和其他的许多重要的 evidence 相关,那么它也是非常重要的。为此,作者通过两个 evidences 之间的矩阵乘(相当于 co-attention),然后做 softmax,平均,最后再去最大值,就得到了最终的 pivoted supporting evidence,可以表示为如下过程:

  4. Consensus Representation:这部分最主要的目的就是得到真理的表示,或者说大多数答案形成的共识。为此,在得到 pivoted supporting evidence 之后,作者提出了一种新的注意力机制,称之为 pivoted attention mechanism,其实就是利用得到的 ,去所有的 evidence 中找到他们各自对应的权重,最后通过加权和的形式得到 evidence 的融合表示,即这里的真理表示


这就是整个真理表示学习(Consensus Representation Learning)的技术内容。

接下来就是答案-真理验证部分了,这部分就相对来说简单一些,首先是答案和真理表示 做矩阵乘,然后分别得到利用答案表示的真理,和利用真理表示得到的答案,可以表示为如下形式:

在接下来就是融合层,在这里,作者不是是简单的使用启发式的匹配方法,而是通过将多个不同的输入送给不同的全连阶层,然后再次全连接,通过这种形式最终得到融合后的表示,最后就是过池化层,然后是个 sigmoid 函数计算得出答案和真理之间的匹配得分,可以表示为:

2.3 Confidence-based Combination of Matching and Verification

这部分就是将匹配的得分和验证的得分整合起来,首先为了验证所有的 evidence 之间是否是一致的,作者提出了一种自交互网络,简单讲就是通过拼接,卷积,池化,MLP 得到最后的一致性得分,而这个得分就是为了确保 evidence 是有用的。

如果检索到的结果都是没有用的,那么上一步计算得到的答案和真理之间的得分就会获得很小的权重,模型就更依赖匹配模块的得分。这个也是为了解决数据噪声的问题,具体可以表示为:

最终,作者选择了 pairwise learning 的方法用于训练整个模型,以下就是整个模型的目标函数。

Experiments

作者分别在 AmazonQA ,YahooQA ,QuoraQA 三个 CQA 的数据集上进行了模型的验证,模型效果如下,可以看出模型的效果还是很不错的。

同时,作者也给出了一些 case study 用于验证模型真实的效果,在这个例子中,作者分别给出了相关性得分和可靠性得分,而且给出了好的答案和相关的答案的相关结果数据,还是非常直观的。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

不只是相关:基于真理共识论的社区问答可信答案选择新方法相关推荐

  1. 基于cnn的短文本分类_基于时频分布和CNN的信号调制识别分类方法

    文章来源:IET Radar, Sonar & Navigation, 2018, Vol. 12, Iss. 2, pp. 244-249. 作者:Juan Zhang1, Yong Li2 ...

  2. EOSC孤矢:公链需要基于DPoS共识的高性能低延时计算 | 链茶访

    本文转自 链茶访 EOS公链所采用的DPoS共识机制,可以支撑公链进行高性能低延时的计算,而DPoS机制本身却不够去中心化.EOSC作为EOS主网上首条分叉链,对EOSIO的选举机制进行了优化,在创世 ...

  3. 联盟链Quorum(基于raft共识)部署流程(三)- 部署基于Quorum链的区块链浏览器

    这篇文章算得上是继联盟链Quorum(基于raft共识)部署流程(二)的续篇 我的演示系统环境时 Ubuntu 18.04 LTS. 环境要求: DockerDocker-Compose 安装方法见下 ...

  4. 基于raft共识搭建的Fabric1.4网络环境

    基于Raft共识搭建多机Fabric1.4网络环境 ​ 由于近期fabric官方继fabric1.4LTS版本之后,又推出了fabric1.4.1的正式补丁版本,虽然fabric1.4.1是fabri ...

  5. 基于Raft共识协议的KV数据库

    基于 Raft 共识协议的 KV 数据库 项目介绍 分布式一致性是构建容错系统的基础,它使得一些机器可以构成集群工作,并容许其中一些节点失效.Raft 是一个比较常见的分布式共识协议,Raft 首先选 ...

  6. geth基于PoA共识机制构建联盟链

    1 PoA共识机制 PoW机制的缺陷 以太坊现阶段是基于PoW共识机制,PoW工作量证明机制就是区块链网络中一堆计算机通过计算随机数的Hash值,谁先找到这个随机数谁就赢的当前区块的记账权.PoW通过 ...

  7. 一个基于PoS共识算法的区块链实例解析(升级版)

    一个基于PoS共识算法的区块链实例解析(升级版) 一.前言 前面我们简单的介绍了一个基于PoS共识算法的例子,今天我们来解析一个升级版的例子.如果喜欢博主的话,记得点赞,关注,收藏哦~ 二.本例中的一 ...

  8. Windows环境下搭建基于PoA共识算法的多节点以太坊私链

    本文阐述在一台windows电脑上,搭建基于PoA共识算法的以太坊私链(3个挖矿节点),步骤如下: (1)生成3个矿工账号 假设3个节点的数据目录分别是: 节点1 e:\work\test\1_poa ...

  9. 综述:基于点云的自动驾驶3D目标检测和分类方法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 参考论文:Point-Cloud based 3D Object ...

最新文章

  1. MySQL数据库锁构建_MySQL数据库InnoDB存储引擎中的锁机制
  2. ajax参数中字符串最大长度_6.7 C++数组名作函数参数 | 求3*4矩阵中最大的值
  3. 在线考试系统设计+源码
  4. 关于vivo手机调试安装“解析程序包时出现问题”的解决方案
  5. 标准差、均方误差、均方根误差、平均绝对误差
  6. HBuilder 第一个app项目
  7. 卡特兰数(Catalan)
  8. 05 Python基础
  9. 笔记本电脑显示dns服务器出错,电脑出现dns错误无法上网的解决方法详解
  10. 高翔视觉slam十四讲习题(1)
  11. 让你的 Mac 用上最美的屏保,Aerial 使用教程
  12. sql嵌套查询出现类型问题
  13. Java开发环境基础配置
  14. 验证input和textarea的输入是否有效,也就是不为空,也不都是空格
  15. cos47度怎么用计算机算,cos47度等于多少
  16. MD5 加密安全吗?
  17. MySQL同步机制、主从复制半同步和双主配置
  18. 当程序员们决定去考公
  19. Mac iterm2 中文乱码
  20. powder design16.5记录

热门文章

  1. go mod依赖离线安装_go mod 无法自动下载依赖包的问题
  2. 【图论】Tarjan 缩点
  3. 今天写一个关于浮动的页面,页面高度不能设置。用元素将他撑开。
  4. tkinter中button按钮控件(三)
  5. Redis的基本操作以及info命令
  6. kafka概念使用简介注意点
  7. elasticsearch 基本配置
  8. SqlServer清空数据表数据
  9. 虚幻4蓝图快速入门(二)
  10. KMP POJ 3461 Oulipo