点击上方,选择星标置顶,每天给你送干货

阅读大概需要10分钟

跟随小博主,每天进步一丢丢

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/111768258

作者 | 霸道学长炮兵兵

编辑 | 机器学习算法与自然语言处理公众号

本文仅作学术分享,若侵权,请联系后台删文处理

QA任务是指给定一个问题,自动在许多回复中寻找最相关的回复(Answer Selection),或者所有相关问题来重用它们的回答(Question Retrieval)。


Keyword-BERT:Keyword-Attentive Deep Semantic Matching [2020]

(1)计算每个单词的IDF值,引入diff-idf衡量领域单词的重要性,即

  • 通过这种方法创建领域词典,最后合并领域词典,形成keyword词典。

(2)经过上述方法提取了query pair的keywords。假设输出的keyword-attentive为。通过控制self-attention的mask控制关键词的获取,分别提取两个句子中的关键词,通过max-pooling得到每个句子中的表征,同时建模这种关键词表征的差异,得到用于分类的表征向量。

(4)负例采样

将输入语句和关键词拼接进行搜索,如果搜索引擎判断相似度低于一个阈值,则选做负样本。同时,引入query和候选$Q$的关键词重叠度。好的负样本,重叠部分和不重叠部分应该有一个平衡点。

  • 其中是效果比较好;可以看做搜索引擎返回的最大相似度。

RE2:Simple and Effective Text Matching with Richer Alignment Features [2019]

(1)定义query长度为,answer长度为;将每个序列的tokens经过embedding之后,通过个相同结构的blocks处理,第个block的输出为。定义经过embedding的输入为,之后每一个block的输入为

(2)模型结构

  • Embedding层:获取两个输入序列的Embedding;使用强化残差连接,第层除了是前两个block的输出之外,还会拼接原始的embedding向量。

  • Encoding层:通过CNN得到每个token的强化表征;

  • Alignment层:计算连个文本的CrossAttention,表示线性层。

  • Fusion层:得到每一个token的融合表征

  • Prediction层:将最后一个block两个text的输出,经过max-pooling得到text表征,并融合经过预测得到最终分数。

对于Paraphrase identification任务,为了表示两个文本的对称性,可以使用


HCAN:Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling [2019]

(1)定义输入序列query的长度为,context的长度为

(2)模型结构

  • 通过Embedding层将query和context转化为词向量矩阵,使用3种不同的编码器:

    • Deep Encoder:由多层CNN堆叠而成,来得到高级别的k-gram特征,对于不同的CNN层,query和context参数是共享的;

    • Wide Encoder:并联的CNN组成,使用不同的窗口大小,得到不同的k-gram信息;

    • Contextual Encoder:使用BiLSTM捕获长距离的上下文依赖。

相较而言,Deep Encoder更加节省参数。

  • Relevance Matching:基于编码器得到的query和context表征,计算相似度矩阵;基于列归一化得到相似度矩阵,分别进行最大池化和平均池化得到判别向量;引入权重作为先验衡量不同query terms和phrases的重要性,这里使用IDF作为重要性的值;得到

  • Semantic Matching:基于编码器得到的query和context表征,使用co-attention:

表示将输入向量转化为;在两个方向上使用co-attention,即query-to-context和context-to-query:

接着将两个矩阵拼接,并计算交叉特征,最后经过一个BiLSTM,提取最后一层的输出作为两个语句的语义匹配输出:

  • 将每一个编码层得到的RM向量和SM向量进行拼接,经过两层全连接层,使用ReLU激活函数生成最终的预测结果。


HAR:A Hierarchical Attention Retrieval Model for Healthcare Question Answering[2018]

(1)基于传统模型并没有特别关注query和document文本长度在匹配过程中的问题,本文提出针对长文本的建模方法。使用表示query文本,使用表示document中的每一个句子。

(2)模型结构:

  • 首先,使用Embedding层将输入query和document转化为词向量矩阵;

  • 经过BiGRU分别对query和document进行加强编码,每个单词得到对应的上下文表征向量;

  • 使用双向注意力机制,对document中的每一个sentence进行交叉特征编码;

  • 对query进行自注意力编码,得到query的表征;

  • 对第3步得到的每一个document的交叉注意力编码进行两层的self-attention,得到document的表征向量;

  • 将document的表征向量经过FFN得到和query维度相同的向量;

  • 将query和document向量按元素相乘,并将最终的结果经过MLP得到最后的匹配分数。


MIX:MIX: Multi-Channel Information Crossing for Text Matching [2018]

(1)模型结构

  • 输入question和answer,转化成词向量,计算unigram的交互矩阵;

  • 使用CNN分别得到question和answer的bigram向量和trigram向量,计算bigram和trigram的交互矩阵;

  • 根据question和answer对应的每个词的IDF和POS得到IDF Attention矩阵和POS Attention矩阵,同时定义一个参数化矩阵表征位置的重要性Position Attention;

  • 将3个Attention矩阵和上面得到的gram交互矩阵计算,得到27层矩阵并进行Stack;

  • 经过多层的CNN矩阵,得到表征向量输入MLP中得到最终的匹配结果。


MCAN:Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction [2018]

(1)模型结构:

  • 输入query和document,使用一层HighWay网络对单词进行强化编码;

  • 使用4种不同的Attention策略,分别是基于query和document交互矩阵的max-pooling Attention,mean-pooling Attention,Alignment Attention以及基于词向量矩阵的Self Attention;对于每一个单词向量,分别得到4个不同的Attention向量;

  • 将每种Attention得到的向量,和原始向量使用3种交互方式(concat,按元素乘积,按元素相减),得到3种向量;

  • 使用向量到标量的映射函数,将每个向量映射成一个变量(Sum或NN或FM);

  • 这样,针对每个单词得到12个标量,将这些标量进行拼接,再拼接到原始词向量的后面;

  • 将上面得到的向量经过BiLSTM,query和document共享权重,使用MeanMax池化的策略,将得到每个序列对应的向量;

  • 将query和document的向量经过(concat,按元素乘积,按元素相减)得到的向量,输出两层HighWay网络;

  • 最后将HighWay网络的输出经过线性层,得到输出。


aNMM:aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model [2016]

(1)aNMM-1模型结构

  • 输入Question和Answer,将单词映射为词向量矩阵,根据词向量计算相似度匹配矩阵;

  • 将匹配矩阵中元素的取值范围[-1, 1]等间距的划分成多个bins;

  • 对于Q中的每一个单词,计算位置每一个bin中的元素的和,通过乘以参数矩阵再经过函数激活,得到对应的节点;

  • 对于每一个单词,基于单词词向量和参数向量得到每一个单词的Attention权重,基于窗口M计算加权大小;

  • 得到向量经过MLP得到最终分数。

(2)aNMM-2模型结构

  • 输入Question和Answer,将单词映射为词向量矩阵,根据词向量计算相似度匹配矩阵;

  • 将匹配矩阵中元素的取值范围[-1, 1]等间距的划分成多个bins;

  • 对于Q中的每一个单词,计算位置每一个bin中的元素的和,通过乘以多个不同的参数矩阵,每一个单词得到多个不同的节点;

  • 将每个单词得到的个不同节点,再乘以一个参数向量,经过激活函数,每个单词得到一个节点;

  • 对于每一个单词,基于单词词向量和参数向量得到每一个单词的Attention权重,基于窗口M计算加权大小;

  • 得到向量经过MLP得到最终分数。

交流学习,进群备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

广告商、博主勿入!

【文本匹配】Question Answering论文相关推荐

  1. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

  2. Hierarchical Graph Network for Multi-hop Question Answering 论文笔记

    Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...

  3. LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记

    LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记 一.摘要 ...

  4. CL-ReLKT: Cross-lingual Language Knowledge Transfer for MultilingualRetrieval Question Answering论文阅读

    CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual Retrieval Question Answering 摘要 ...

  5. Question Answering论文(问答系统阅读理解)

    1. 概述 两种方法: 基于信息检索的问答系统 IR-based question answering 和 基于知识的问答系统 knowledge-based question answering I ...

  6. Reinforced History Backtracking for Conversational Question Answering论文翻译

    公众号 系统之神与我同在 链接如下: http://link.zhihu.com/?target=https%3A//www.aaai.org/AAAI21Papers/AAAI-1260.QiuM. ...

  7. DPR-Dense Passage Retrieval for Open-Domain Question Answering 论文阅读

    开放域的问答依赖于准确地文档召回.传统做法,通常依赖于TF-IDF或BM25这类方法.在本篇论文中,作者提出一种仅使用深度语义向量的方法进行召回,而这个文档的语义向量,即来自于简单的对偶encoder ...

  8. EMNLP2020 | 近期必读Question Answering精选论文

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  9. 智能问答(Question Answering)的主要研究方向

    非事实类问题 大多数研究关注于事实类问题,而非事实类问题的研究相对不足,包括数学类的问题.判断类的问题等. [EMNLP 2019] NumNet: Machine Reading Comprehen ...

  10. laravel 分词搜索匹配度_DSSM文本匹配模型在苏宁商品语义召回上的应用

    文本匹配是自然语言处理中的一个核心问题,它不同于MT.MRC.QA 等end-to-end型任务,一般是以文本相似度计算的形式在应用系统中起核心支撑作用1.它可以应用于各种类型的自然语言处理任务中,例 ...

最新文章

  1. 数据插入INSERT
  2. android线程间通信的几种方法_Android 技能图谱学习路线
  3. 数据结构与算法 | 归并排序
  4. 使用ganglia监控hadoop及hbase集群
  5. false libhadoop was built without ISA-L support以及编译hadoop本地库失败(没有解决)
  6. java中的List排序[转]
  7. 《我也能做CTO之程序员职业规划》之六:灵商
  8. node socketlog
  9. 驱动精灵w8ndows xp sp2,爱普生Epson TM-T86FII打印机驱动官方正式版下载,适用于winxp,winvista,win7,win8,win10-驱动精灵...
  10. 我的文档 属性设置里找不到位置选项,以及目录迁移解决方案
  11. python和mysql匹配吗_python使用mysql
  12. 搜狗输入法 与fcitx-ui-qimpanel冲突_搜狗AI录音笔E2预售开启,不只是录音笔,还能拍照翻译?丨43周新闻...
  13. 网络安全专题报告:零信任安全,数字时代的主流安全架构
  14. java邮件中添加excel_基于javaMail的邮件发送--excel作为附件
  15. 什么是固态继电器(SSR)?
  16. ubuntu安装shutter
  17. TinEye图片搜索引擎
  18. 雷军:《我十年的程序员生涯》系列之二(我赚的第一桶金)
  19. c#日期格式操作(贴吧转)
  20. 【Unity3D插件】uMOBA插件分享《Moba类游戏框架插件》

热门文章

  1. error LNK2019: 无法解析的外部符号 问题1
  2. SQLite 如何取出特定部分数据
  3. sql语句查询优化总结,建议及写法技巧(汇总)
  4. 【Python】- scrapy 爬取图片保存到本地、且返回保存路径
  5. 顺序链表的C风格实现
  6. UGUI Auto Layout 自动布局
  7. 转: Syslog协议介绍
  8. 手机网站的图片轮换教程
  9. MOSS中集成各个子网站的数据到一个页面,做决策支持页面的首选: Web Capture
  10. 【填坑】Ubuntu安装vsftpd