论文阅读：基于多模态词向量的语句距离计算方法

论文信息

华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018.

1.主要工作

简述语句间的距离问题：自然语言处理任务是度量文本间的距离；不同阶段语言学习的难度可以抽象为距离，本文探索语句间的距离。
从两个角度阐述传统词向量距离的缺陷：基于纯文本语料的词向量构建，与人类通过多种感官途径接受信息不符；传统的多模态词向量通过拼接词向量与图像特征略显粗糙。本文提出了基于空间注意力机制的多模态词向量构建方法加强目标物体局部区域的表示。
句嵌入的构建：
在改进多模态词向量的的基础上研究句嵌入的构建：1).基于神经词袋模型。2）基于双向RNN。3）基于GRU。
语句距离计算：
基于MLP和交互注意力机制的两种距离计算方法。在释义识别，答案选择和语句难度上测试性能。实验结果表明模型能够对难度距离这一抽象概念进行建模。

2.研究内容

将视觉信息注入文本，作为多模态向量研究的基础。
多模态词向量的构建，作为本文的一个中间模块。
句嵌入的构建，作为计算语句距离的基础。
构建多模态词向量语句计算模型

3.技术方法

3.1 多模态词向量融合的准备工作

多模态词向量构建的重点是语义向量与视觉向量的融合，本文中给出了解释：

图像语义构建：
图像语义提取采用训练好的CNN模型，常见模型包括：VGGNet,ReNet，GoogleNet等。这些模型基于分类任务训练，模型的最后一层输出是各类别的概率。因此，在多模态语义任务提取时，我们选择倒数第二层（全连接层）的输出，这一层蕴含了对整幅图像的语义表示。

在使用注意力机制的情况下，为了提取所有的局部特征，将输入图片的大小调整为 224 ∗ 224像素；然后将图片的像素矩阵输入 CNN 模型；在经过最后一个卷积层后，可以得到大小14∗14∗512=196∗512的特征图。

这一步相当于把图像划分成了196个区域，每个区域由512维的向量表示。
在词向量训练时同样设置为512维度，完成融合前的准备工作。

3.2 基于空间注意力机制的融合过程

前提：单词表述的目标对象只会出现在图像的部分区域
目标：将词向量与图像语义向量进行组合。
1.词向量和图像语义分别记为分别记为Vw,Vi，计算词向量图像各区域注意力分布：

表示图像局部特征维度(512)和数量(196)，
为最终得到的注意力分布，是一个d维向量（本文为512），每一维表示各区域与词向量相关程度。
2.计算图像特征加权和：
3.将得到的图像特征与词向量按位相加：
4.进一步叠加注意力层：

以上过程计算了每个局部区域与词向量的相关度，并通过堆叠多个注意力层逐步确定相关度区域。完成了多模态词向量的匹配与融合。

3.3 语句距离计算

整体计算模块如下：

句嵌入部分采用的方法有：神经词袋（将词向量进行平均），RNN，CNN,GRU等，不再赘述。
距离计算模块:

计算句向量cos值：
对于无法用cos值描述的，如描述两个句子的难度，加入映射模块：
基于MLP计算距离

首先计算两个句向量的相似度，然后拼接，经过两个连续的隐藏层，最后通过sigmoid映射到输出。
3. 基于交互注意力机制

为了引入注意力机制，在句嵌入部分，本文的改进方法为除了保留句嵌入部分每个时间步的隐藏向量的最大池化层，还保留了每个时间步的状态，以第一个句子句嵌入作为查询关注其对第二个句子每个时间步的关注度，这样就进行了注意力交互查询，分别计算对对方的关注度。

4.实验分析

多模态词向量相关实验

评价指标：斯皮尔曼相关系数。

4.1语义相似性实验

数据集：WordSim353-sim，353对人工标注的词，分值用来表示相似性。
SimLex-999：999对人工标注，较wordsim353-sim相比更强调了相似度与相关性的区别。
示例数据：

实验结果：

多模态词向量与多种传统单一词向量进行对比，相比单一词向量，不同维度下的多模态词向量相似度得分普遍提升。在VIS部分，引入了评分人员会根据两个单词所表述物体的视觉相似度所给的评分，使得相似度结果更高，因此可以认为，视觉信息的加入有效的拉近了单词的距离。

4.2 语义相关性实验

语义相关性与相似性区别在于：相似物体具有相似性，相关物体在视觉上可能并不相似。
数据集：WordSim353-rel，353对人工标注的词，分值用来表示相关性。
MEN：基于 ESP Game 数据集中的图像标签构建，当两个词同时作为一副图像的标签出现，其出现频度越高，则得分越高。一定程度上可反应词的相关性
实验结果：

可以看出：
多模态词向量与单一词向量相比得分有所提升；
注意力的加入，反而降低了性能。
分析该结果，可能的原因是相关事物并不具备视觉相似性，不使用注意力机制时关注的是全局特征，
加入注意力机制，加重了目标任务的关注度，加强了图像区域特征，比如衣柜和衣服，加强区域特征会拉大两者的距离，反而降低了多模态词向量模型的性能。

4.3 视觉语义相似性实验

视觉语义相似性用于评价一对单词的视觉相似度和语义相似度，其可能情况是2*2排列组合。
数据集：VisSim：同时给出了视觉和语义相似度得分，[1,5]之间。
MEN：基于 ESP Game 数据集中的图像标签构建，当两个词同时作为一副图像的标签出现，其出现频度越高，则得分越高。一定程度上可反应词的相关性
实验结果：

在相似性任务上，多模态词向量获得了明显的提升。分析是由于相似单词其真实语义相似，视觉也相似，因此多模态词向量的性能会有所提升。
查看多模态和单一模态下得分最高的词对：
翻译成中文：
多模态：青蛙-蟾蜍，马-小马，飞机-喷气式飞机，公牛-母牛，杯子-杯子，公牛-牛，沙发-沙发
单一模态：飞机-喷气式飞机，杯子-杯子，导弹-火箭，猫-美洲狮，手套-棒球手套，幕布-窗帘
可以看出，多模态的高分基本都是视觉上非常相似的，单一模态的高分更倾向于物品属于同一种类。多模态更关注物品的相似性，单一模态更关注物品的相关性。

4.4语句距离计算实验：释义识别

词向量语料：wiki英文数据集
释义识别数据集：谷歌发布的QQP数据集：40万对数据，用于判断两个句子描述是否为同一件事。

判断句子释义是否相同，是对句嵌入能否表征真实语义的评价。
相比使用通用词向量，多模态词向量有更好的表现，这表明多模态词向量相比通用词向量能够概括更强的现实语义信息。此外，交互注意力机制相比普通的单向注意力机制，能够进一步有效提升模型的性能。
本文模型最佳准确率为0.854，相比最新的为释义识别设计的模型0.882有一定差距。

4.5 答案选择

数据集：WIkiQA数据集

答案选择是从候选集中选择与目标问题最相关的答案，可以理解为计算问题和答案间的距离。相比其他实验，Q与A的关联性不强，更注重两个句子间的匹配。可以看到双向+多模态+交互注意力机制组合其匹配效果更强。分析是由于，多模态词向量强化了句子真实语义，交互注意力价值，更关注了两个句子的间的反馈，解决了单一attention可能带来的噪声问题。改进的CNN（gru）与其他深度学习相比也增强了实验结果。

4.6 语句难度距离

评价:皮尔斯相关系数。
数据集：小学不同年级英文教材的手工录入

随机抽取两个句子，以评级差作为它们之间的难度距离，距离区间为即为[0,3]。根据这个方法，构造了 40000 个句对，每个距离各 10000 句。
实验结果：

可以看出，对语句难度建模中，多模态较单一模态有更好的实验结果。分析可能是由于视觉信息的加入使语句携带了更多信息，提升了语义表示。作者提到了随着年级的增加，视觉单词减少，抽象单词增加，多模态词向量的作用逐渐降低。分析这是由于抽象单词所对应的图像特征难捕捉，弱化了图像语义信息。
同时，作者认为：”语句的长度并不是评价语句难度所需要的特征，这些特征会使模型产生偏置，导致模型在其他
语料上不一定生效。“这一句话没有理解。

5.个人见解

1.多模态的引入很好的提升了语义的表征能力，可用于辅佐捕捉句子的真实语义，也可以根据句子的表述对图像的特征区域进行强调。
2.语句距离测算有广泛的应用场景，如信息检索，机器翻译，问答系统等。在其应用场景下，能否与多模态进行结合。如信息检索部分，有单独的识图和单独的文本搜索，可以探索二者间的结合。
3.很多论文工作体量大，但创新点不是很明显。

图像与文本的匹配过程：
ESP GAME数据集对每个图像进行单词标注，当一个图像频繁被打上一个标签时，就将这个单词标签作为图像标注。游戏鼓励玩家使用尽量多的单词来描述图像。因此，一副图像中可能有多个物体及多个标签。ESP Game数据集共含有100k的图像资源。平均每张图像包含14和标签，共20515个单词。
ImageNet 是一个按照 WordNet 层次结构组织的大规模图像数据库。ImageNet 数据集中的图像主要来源于网络，每幅图像都会经过人工选择并为其添加标签。因此，该数据库中的图像质量普遍较高，目标物体大都集中与图像的中间位置。