【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks

一、概要
该文章发于ACL 2015，作者提出了一个基于Freebase，使用multi-column convolutional neural networks(MCCNNs)的自动问答模型，分别从答案路径（answer path）, 答案背景信息（answer context）, 以及答案类型（answer type) 来理解问题，并学习它们的分布式表示（distributed representations），在不使用任何手动特征及词表等条件下在问答数据集WEBQUESTIONS 上取得了很好的结果。

二、模型方法
2.1 模型简介
假设存在问题
$q = w_{1} . . . w_{n}$ ，作者使用 Freebase Search API来找到问题中的命名实体，如果问题中不含有任何命名实体或者名词，那么就使用返回最相关的一个命名实体，然后使用其在知识库中悬着候选答案，所有的2-hops 节点的实体和关系都视为候选答案，表示为
$C_{q}$ 。
然后基于每一个候选答案a，根据模型训练得到的答案路径（answer path）, 答案背景信息（answer context）, 以及答案类型（answer type) 的vector representations，以及分别对应的问题的vector representations，即：
$f_{1}(q)，f_{2}(q)，f_{3}(q)$ ，最后根据S (q, a)才选出答案，计算方法为：

S(q,a)=f1(q)Tg1(a)+f2(q)Tg2(a)+f3(q)Tg3(a)
$S (q, a) =f_{1}(q)^{T}g_{1}(a) + f_{2}(q)^{T}g_{2}(a) + f_{3}(q)^{T}g_{3}(a)$

其中
$f_{i}(q)与g_{i}(a)$ 的维度相同，它们的计算方式为內积，最后把三项相加而得。

2.2 MCCNNs for Question Understanding
MCCNNs使用了三个管道来学习问题表示和word embeddings，分别对应答案路径，答案背景信息, 以及答案类型。假设存在问题
$q = w_{1} . . . w_{n}$ ，把每个词使用lookup转为词向量，即：
$w_{j} = W_{v}u(w_{j})$ ，
$W_{v} ∈ R^{d_{v}×|V |}$ ，
$u(w_{j} ) ∈$ {0, 1}^
${|V|}$ 为词
$w_{j}$ 的one-hot representation，|V|为词表大小。
那么对于MCCNNs的第i个通道，表示问题q的n个向量的第j个的计算方法为：

x(i)j=h(W(i)[wTj−s...wTj...wTj+s]+b(i))
$x^{(i)}_{j} =h(W_{(i)} [w^{T}_{j-s} ...w^{T}_{j}...w^{T}_{j+s}] +b^{(i)})$

其中(2s + 1)为滑窗大小，
$W^{(i)} ∈ R^{d_{q}×(2s+1)d_{v}}$ 为卷积层的权重矩阵，
$b^{(i)} ∈ R^{d_{q} ×1}$ 为偏置向量，h (·) 为非线性函数，这里与text-cnn稍微有一点点不同，这里每个卷积计算后得到的是维度为
$d_{q}$ 的向量。最后再Max-pooling层得到MCCNNs第i个通道的向量表示，即：

fi(q)=maxj=1,...,n
$f_{i} (q) = max_{j =1,...,n}$ { x(i)
$\textbf{x}_{(i)}$ }

2.3 Embedding Candidate Answers
对于每个候选答案a，其三方面的Vector representations分别表示为：
$g_{1}(a) , g_{2}(a) , g_{3}(a)$ ，其学习方式分别如下：
①Answer Path，答案路径表示为知识库中候选答案与问题中的实体节点之间路径上的所有关系（relation）集合，如上图的答案路径为：(film.film.release date s,film.film regional release date.release date)，其ector representation
$g_{1}(a)$ 计算方式为：

g1(a)=1||up(a)||1Wpup(a)
$g_{1}(a) = \frac{1}{||u_{p}(a)||_{1}}\textbf{W}_{p}u_{p}(a)$

其中
$u_{p}(a) ∈ R^{|R|×1}$ 为维度大小为|R|的向量，即如果在这个某个实体关系出现了，那么该位置值为1，否则为0，|R|表示关系的个数，
$W_{p} ∈ R^{d_{q}×|R|}$ 为权值矩阵，
$∥·∥_{1}$ 为L1范数，所以这里最终的意思可以解释为所有出现的关系（relation）的embedding的平均。
②Answer Context，所有与答案路径直接相连的实体或关系都视为答案上下文背景，其representation的计算方式为：

g2(a)=1||uc(a)||1Wcuc(a)
$g_{2}(a) = \frac{1}{||u_{c}(a)||_{1}}\textbf{W}_{c}u_{c}(a)$

其中
$u_{c}(a)∈ R^{|C|×1}$ 为维度大小为|R|的向量，即如果在这里某个实体或关系出现了，那么该位置值为1，否则为0，|C|表示在所有上下文中出现的实体和关系的个数，
$W_{c} ∈ R^{d_{q}×|C|}$ 为权值矩阵，
$∥·∥_{1}$ 为L1范数。
③Answer Type ，候选答案的类型是作为问题答案的重要线索，其representation的计算方式为：

g3(a)=1||ut(a)||1Wtut(a)
$g_{3}(a) = \frac{1}{||u_{t}(a)||_{1}}\textbf{W}_{t}u_{t}(a)$

其中
$u_{t}(a)∈ R^{|T|×1}$ 为维度大小为|R|的向量，即如果在这个某个实体关系出现了，那么该位置值为1，否则为0，|T|表示在所有类型的种类个数，
$W_{t} ∈ R^{d_{q}×|T|}$ 为权值矩阵，
$∥·∥_{1}$ 为L1范数。
2.4 Model Training
在训练集中，对于问题q的每一个正确答案
$a ∈ A_{q}$ （一个问题的正确答案可能不止一个），随机在候选答案
$C_{q}$ 中选择k个错误的答案
$a^{'}$ ，其loss函数可以构造为：

l(q,a,a′）=(m−S(q,a)+S(q,a′)+
$l(q,a,a^{'}） =(m−S(q,a)+S(q,a^{'})_{+}$

其中m为margin parameter，
$(z)_{+}$ = max{0, z}，那么最终的loss函数可以表示为：

min∑q1|Aq|∑a∈Aq∑a′∈Rql(q,a,a′）
$min\sum_{q}{\frac{1}{|A_{q}|}\sum_{a∈A_{q} }\sum_{a^{′}∈R_{q}}}l(q,a,a^{'}）$

其中
$|A_{q}|$ 表示每个问题正确答案的个数。
因为对于每一个问题，其对应的正确答案可能不止一个，所以设定了阈值m，即loss函数中的margin parameter，当通过下列公式来判别是否选为正确答案：

{ Aq
$A_{q}$ ={ a|a∈Cq
$a|a∈C_{q}$ and max{ S(q,a)−S(q,a) <m }

三、实验结果

如上图，可以看出作者提出的深度学习MCCNNs模型，其获得的结果超过了当时众多学者的结果。同时作者对不同的通道做了对比，如下左图是分别去掉相应条件下取得的结果，可以发现answer path的信息是最重要的，因为其充分获取了问题和候选答案之间的信息，而answer context处理的信息太多，所以引入的噪声相对也多，

上图左是作者基于学到的问题表示f(q)，计算问题中每个词的重要性，例如存在问题
$q = w_{1}^{n}$ ，其中第j个词
$w_{j}$ 的重要性计算方法为：

ei(wj)=||fi(wn1)−fi(w1w′jwj)||2
$e_{i}(w_{j}) = ||f_{i}(w_{1}^{n}) − f_{i}(w_{1}w_{j}^{'}w_{j})||_{2}$

其中
$w_{j}^{'}$ 为替换掉
$w_{j}$ 的词，常用is, to, a等停用词表示，从结果可以看出以wh-开头的词比较重要，另外依靠于wh-词汇的动词和名词也比较重要。下图是作者使用不同通道的问题表示f(q)，根据每个问题的余弦值计算相近问题得到的结果。

四、结论与思考
作者提出的multi-column convo- lutional neural networks (MCCNNs)模型，通过三个通道来分别针对答案路径（answer path）, 答案背景信息（answer context）, 以及答案类型（answer type) 来学习理解问题，在数据集WEBQUESTIONS 上取得了很好地结果，作者基于结果对模型出现错误的地方进行了一下分析：
①Candidate Generation，由于使用Freebase Search API返回的候选答案中可能根本就不存在正确答案的情况，比如有些问题单词使用了缩写形式，所以很难捉住重点信息。
②Time-Aware Questions ，时间序列的问题，比如问题：who is johnny cash’s first wife？答案可能会返回第二任妻子的姓名，因为first/second这样的词很难学习到相应的信息。
③Ambiguous Questions，问题有时很模糊，甚至有歧义，比如“what has anna kendrick been in”是在询问她演过什么电影，这句话中并没有含有表达其意思的关键词。

五、个人思考
①该模型可以说非常充分的考虑到了候选答案的各种信息，并基于深度学习取得了很好地效果，针对于作者后面所做的错误分析是可以突破的一些地方，同时在模型里作者使用的是词向量，可以尝试基于字符向量做一定的改进。

参考文献
①Li Dong,Furu Wei,Ming Zhou.Question Answering over Freebase with Multi-Column Convolutional Neural Networks

【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks相关推荐

AI医药论文笔记--GraphDTA: Predicting drug–target binding affinity with graph neural networks
GraphDTA:用图神经网络预测药物-靶点结合亲和力论文题目 GraphDTA: Predicting drug–target binding affinity with graph neural ...
【论文解读】Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks
Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks 论文地址:http://cadlab.c ...
【论文笔记】Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks
Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks 引言创新性本篇论文的贡献(目的) 算法步骤实验结果 ...
论文笔记：Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks
Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks(利用空间变化循环神经网络对动态场景去模糊) 这是C ...
论文阅读笔记：Retinal vessel segmentation based on Fully Convolutional Neural Networks
基于全卷积神经网络的视网膜血管分割关键词:全卷积神经网络.平稳小波变换.视网膜眼底图像.血管分割.深度学习摘要本文提出了一种新的方法,将平稳小波变换提供的多尺度分析与多尺度全卷积神经网络相结合, ...
NBJL 2020论文导读14：How Much Position Information Do Convolutional Neural Networks Encode ?
论文下载地址:https://openreview.net/pdf?id=rJeB36NKvB 发表时间:2020 会议名称:ICLR 作者:Md Amirul Islam.Sen Jia.Neil ...
论文翻译：LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks
引言传统的3D卷积神经网络(CNN)计算成本高,内存密集,容易过度拟合,最重要的是,需要改进其特征学习能力.为了解决这些问题,我们提出了整流局部相位体积(ReLPV)模块,它是标准3D卷积层的有效替 ...
《Soft Filter Pruning for Accelerating Deep Convolutional Neural Networks》论文笔记
1. 概述这篇文章中给出了一种叫作SFP(Soft Filter Pruning),它具有如下两点优点: 1)Larger model capacity.相比直接剪裁掉网络中的filters,再在这 ...
深度模型压缩论文（01）- Meta Filter Pruning to Accelerate Deep Convolutional Neural Networks
文章目录 1.摘要和介绍 1.1摘要部分 2.背景和方法 2.1 背景 2.2 贡献 2.3 方法 3.实验和结果 3.1 实验 3.2 结果 4.总结和展望 4.1 总结 4.2 展望本系列是在阅 ...

【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks

【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks相关推荐

最新文章

热门文章