作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理

论文动机

社区问答一直是一个非常热门的地方,人们在这里提出问题,寻找答案,例如知乎,Quora 等。但是社区问答一直有一个很严重的问题,那就是有很多重复性的问题,这就给搜索引擎带来了很大的挑战,如果过滤这些重复问题,为用户提供更好的答案推荐是这类网站不断探索的。

当前很多的方法更多的是关注如何构建问题的语义表征,通过这些语义表征区分相似问题和不相似问题。但这存在一些问题,有些问题虽然问的问题看起来不一样,但是结合先验知识就会发现他们其实问的是一个问题,例如下图中的第一个例子。

这个时候答案就可以为我们提供这种先验知识,通过答案就能发现两个问题问的内容是相同的。而利用答案来增强对问题的理解是目前大多数工作没有考虑到的。那么是否可以直接将答案和问题放到一起,然后进行分类呢?答案是否定的,某些情况下,答案虽然是相同的,但是针对的问题却是完全不同的,例如下图中的第二个例子,这时答案的引入反而会影响到对问题的判断。

因此如何才能准确的利用答案的信息去增强对文本的理解,同时不会引入更多的噪声呢?这就是本文想要解决的问题。

模型结构


为了解决以上两个问题,本文设计了一个自适应的多头注意力网络,在引入答案信息的同时不会引入过多的噪声,模型的整体结构如下:

Representation Layer

因为引入了答案信息,因此在该工作中,整个问题的输入变成了两个问题,以及对应的两个答案。首先通过预训练的词向量,字符级别的词向量,以及一些语法特征来表示每个词,然后使用 Bi-LSTM 处理每个输入,得到每个词的情境信息丰富的向量表示,$Q1, A1, Q2, A2$。

Adaptive Multi-Attention Layer

在该层,作者使用了三种不同的注意力计算方法来将答案信息自适应的融入到问题的语义表示中,并且过滤不相关的信息,这三种注意力计算方法如下:

1. Self-Attention:这可以认为是一种常规操作,通过自注意力机制抽取句子的重要信息,并且解决了长依赖问题,最终得到一个句子级别的语义表示。以问题 1 为例,计算方法如下:

2. Cross Attention:这个操作是为了获取问题之间的交互,在 sentence semantic matching 任务中,我们需要建模两个句子之间的语义关系,因此一般会用 co-attention 来计算细粒度的相似性,具体方法如下:

也是一个比较常规的操作,通过这样的方法,我们可以分别使用对方句子来表示己方句子,得到细粒度的语义表示内容,同样的方法也可以得到两个答案之间的语义交互

3. Adaptive Co-Attention:之前的操作并没有将答案和问题结合起来,因此该操作主要做的就是利用答案信息来增强对问题语义的理解,同时过滤掉可能的噪声,相关的结构图如模型图右侧的图所示,首先针对第 i 个词,利用它做指导,挑选出对第 i 个问题词的表示最重要的信息:

接下来使用相同的方法得到问题的新的表示:

此时通过对答案和问题的交互,分别得到了针对问题中的第i个词的答案和问题的新的表示,那么接下来就是将这些信息融合到一起,这里作者使用了一种类似于 GRU 的门操作:

如前文提到的,答案信息可能会引入噪声,干扰模型对文本的理解,因此,作者在这里加入了一个过滤门,用于整合上一步得到的融合特征以及原始的问题文本特征,从而避免了噪声的干扰:

至此就得到了问题中第 i 个词的增强表示。相同的操作应用于问题 1 中的其他词和问题 2 中的所有词,就得到了利用答案信息进行增强的问题语义表示

Interaction and Prediction Layer

在上一层得到了问题的语义增强表示,而本文针对的还是判断两个问题是否相同的分类问题,因此这一层就更加关注于两个句子之间的交互,首先是对上一层得到的信息与原始的问题表示进行融合,常规操作,很好理解:

接下来作者使用了一个 Bi-LSTM 来处理这些序列表示,用于最后生成问题的句子级别语义表示:

接下来作者使用最大池化和均值池化来整合 Bi-LSTM 的隐层状态表示,并将所有的结果拼接起来,得到最后的分类表示向量,接下来就是一个 MLP+softmax 进行分类:

以上就是整个模型的技术细节。

实验

作者在两个数据集上进行了模型效果的展示,在这里我们展示其中的一个实验结果

从实验结果上看,作者提出的模型达到了最优的效果,同时作者还在子类的分类上进行效果的验证,作者提出的模型也基本上是全方位碾压了当前最好的一些模型。同时作者还给出了在最前边的例子上的实验效果。

模型不仅能够准确进行判断,同时还能自适应的调整是否要使用答案信息,这是一个非常有意思的现象。

总结

社区问答算是一个比较老的问题了,但作者另辟蹊径,通过答案来增强对问题的理解,而且并不是单纯的将答案信息融入到模型中,而是通过一个过滤门来考虑答案信息是否是有用的,模型对注意力机制的使用具有很高的借鉴意义。同时,作者的文章书写也非常具有参考价值,是一篇非常不错的文章。

点击以下标题查看更多往期内容:

  • 图神经网络综述:模型与应用

  • ACL 2019 | 基于知识增强的语言表示模型

  • ACL 2019 | 基于上下文感知的向量优化

  • 基于小样本学习的意图识别冷启动

  • 复旦大学邱锡鹏:词法、句法分析研究进展综述

  • ACL 2019 | 句对匹配的样本选择偏差与去偏方法

  • 深度长文:NLP的巨人肩膀(上)

  • NLP 的巨人肩膀(下):从 CoVe 到 BERT

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

SIGIR 2019 开源论文 | 结合答案信息的重复问题检测方法相关推荐

  1. SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 对话系统一直是自然语言理解领域一个重要的研究内容,它可以使人们更便捷的与机器进行交互,多模态的对话系统就是其中非常重要的一个 ...

  2. SIGIR 2019 开源论文 | 基于图神经网络的协同过滤算法

    作者丨纪厚业 单位丨北京邮电大学博士生 研究方向丨异质图神经网络,异质图表示学习和推荐系统 引言 协同过滤作为一种经典的推荐算法在推荐领域有举足轻重的地位.协同过滤(collaborative fil ...

  3. 图注意力网络_EMNLP 2019开源论文:针对短文本分类的异质图注意力网络

    本文同步发表在 PaperWeekly EMNLP 2019开源论文:针对短文本分类的异质图注意力网络​mp.weixin.qq.com 本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2 ...

  4. NeurIPS 2019 开源论文 | 万能的GNN解释器

    作者丨纪厚业 学校丨北京邮电大学博士生 研究方向丨异质图神经网络及其应用 本文由斯坦福 Jure 组发表在 NeurIPS 2019 上,一作 Rex Ying 也是著名的 GraphSAGE 的作者 ...

  5. CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...

  6. CVPR 2019开源论文 | Rob-GAN:生成器、鉴别器以及对抗攻击者

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 研究动机 自 2014 年 Goodfellow 等人提出生成式对抗网络 (Generative Adversarial Networks, ...

  7. ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法

    作者丨张冠华 单位丨腾讯实习生 & 哈工大本科生 研究方向丨自然语言处理 导读 句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句 ...

  8. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量.并且大多数研究将实体映射到低维空 ...

  9. 论文《基于深度学习的表面缺陷检测方法综述》学习笔记

    <基于深度学习的表面缺陷检测方法综述>学习笔记 前段时间完成了<基于图像的零部件缺陷识别系统设计>毕业课程设计,过程中收获了很多,老师也分享了很多论文,在此记录一下学习的收获. ...

最新文章

  1. Unable to instantiate Action, MenuAction, defined for 'QueryMenuAll' in namespace '/'MenuAction
  2. 吊打 Tomcat ,Undertow 性能很炸!!
  3. ip打包相对路径 vivado_Vivado自定义IP封装流程
  4. jqueryppt_jquery简单实现幻灯片的方法
  5. Request中的方法调用
  6. javascript 西瓜一期 12 八进制的数数进位解析
  7. pytorch中RNN注意事项(关于input和output维度)
  8. ReportMachine通过嵌套表达式计算某个值。
  9. Python采集豆瓣网电影资源--疑问
  10. 用python画滑稽表情_Python-画一个滑稽
  11. 项目经理的工具箱---走出软件作坊:三五个人十来条枪 如何成为开发正规军(三)
  12. Postgresql备份恢复用backup文件(pgadmin恢复功能不能点击)
  13. php jwt token刷新方案,laravel JWT自动刷新 自定义验证器
  14. 当封号成为一种常态,网络营销人该何去何从?
  15. 抓娃娃机vue版本和jquery版本
  16. QT 软键盘实现
  17. win7为什么打开桌面上的计算机很卡很慢,Win7电脑开机速度慢解决方法
  18. 2022年第十三届蓝桥杯大赛软件类决赛C/C++大学B组C题卡牌
  19. ByteV打造3D海上风电监控平台 ——助力风电能源可持续发展
  20. 【C++】初识输入输出

热门文章

  1. php定时发送生日模块消息_RocketMQ消息队列介绍与应用
  2. 从一点儿不会开始——Unity3D游戏开发学习(一)
  3. 三年程序猿的实战开发经验之谈-做人做事建议
  4. hdu 4417 Super Mario 树状数组||主席树
  5. 数据库查找出list数据,进行处理
  6. ASP.NET MVC5+ 路由特性
  7. build 之前执行task_一次NPM前端项目的CI-Build速度优化
  8. 显示多文档标签_HTML常用基础标签,前端从入门到精通
  9. 飞飞php2.8采集失败_飞飞影视系统火车头采集器采集发布免登录接口
  10. c语言输入6名学生5门课程的成绩,求解输入10个学生5门课的成绩,分别用函数实现下列功能:...