论文信息

华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018.

1.主要工作

  1. 简述语句间的距离问题:自然语言处理任务是度量文本间的距离;不同阶段语言学习的难度可以抽象为距离,本文探索语句间的距离。
  2. 从两个角度阐述传统词向量距离的缺陷:基于纯文本语料的词向量构建,与人类通过多种感官途径接受信息不符;传统的多模态词向量通过拼接词向量与图像特征略显粗糙。本文提出了基于空间注意力机制的多模态词向量构建方法加强目标物体局部区域的表示。
  3. 句嵌入的构建:
    在改进多模态词向量的的基础上研究句嵌入的构建:1).基于神经词袋模型。2)基于双向RNN。3)基于GRU。
    语句距离计算:
    基于MLP和交互注意力机制的两种距离计算方法。在释义识别,答案选择和语句难度上测试性能。实验结果表明模型能够对难度距离这一抽象概念进行建模。

2.研究内容

  1. 将视觉信息注入文本,作为多模态向量研究的基础。
  2. 多模态词向量的构建,作为本文的一个中间模块。
  3. 句嵌入的构建,作为计算语句距离的基础。
  4. 构建多模态词向量语句计算模型

3.技术方法

3.1 多模态词向量融合的准备工作

多模态词向量构建的重点是语义向量与视觉向量的融合,本文中给出了解释:

图像语义构建:
图像语义提取采用训练好的CNN模型,常见模型包括:VGGNet,ReNet,GoogleNet等。这些模型基于分类任务训练,模型的最后一层输出是各类别的概率。因此,在多模态语义任务提取时,我们选择倒数第二层(全连接层)的输出,这一层蕴含了对整幅图像的语义表示。

在使用注意力机制的情况下,为了提取所有的局部特征,将输入图片的大小调整为 224 ∗ 224像素;然后将图片的像素矩阵输入 CNN 模型;在经过 最后一个卷积层后,可以得到大小14∗14∗512=196∗512的特征图。

这一步相当于把图像划分成了196个区域,每个区域由512维的向量表示。
在词向量训练时同样设置为512维度,完成融合前的准备工作。

3.2 基于空间注意力机制的融合过程

前提:单词表述的目标对象只会出现在图像的部分区域
目标:将词向量与图像语义向量进行组合。
1.词向量和图像语义分别记为分别记为Vw,Vi,计算词向量图像各区域注意力分布

表示图像局部特征维度(512)和数量(196),
为最终得到的注意力分布,是一个d维向量(本文为512),每一维表示各区域与词向量相关程度。
2.计算图像特征加权和:
3.将得到的图像特征与词向量按位相加:
4.进一步叠加注意力层:

以上过程计算了每个局部区域与词向量的相关度,并通过堆叠多个注意力层逐步确定相关度区域。完成了多模态词向量的匹配与融合。

3.3 语句距离计算

整体计算模块如下:

句嵌入部分采用的方法有:神经词袋(将词向量进行平均),RNN,CNN,GRU等,不再赘述。
距离计算模块:

  1. 计算句向量cos值:
    对于无法用cos值描述的,如描述两个句子的难度,加入映射模块:
  2. 基于MLP计算距离


首先计算两个句向量的相似度,然后拼接,经过两个连续的隐藏层,最后通过sigmoid映射到输出。
3. 基于交互注意力机制

为了引入注意力机制,在句嵌入部分,本文的改进方法为除了保留句嵌入部分每个时间步的隐藏向量的最大池化层,还保留了每个时间步的状态,以第一个句子句嵌入作为查询关注其对第二个句子每个时间步的关注度,这样就进行了注意力交互查询,分别计算对对方的关注度。

4.实验分析

多模态词向量相关实验

评价指标:斯皮尔曼相关系数。

4.1语义相似性实验

数据集:WordSim353-sim,353对人工标注的词,分值用来表示相似性。
SimLex-999:999对人工标注,较wordsim353-sim相比更强调了相似度与相关性的区别。
示例数据:

实验结果:

多模态词向量与多种传统单一词向量进行对比,相比单一词向量,不同维度下的多模态词向量相似度得分普遍提升。在VIS部分,引入了评分人员会根据两个单词所表述物体的视觉相似度所给的评分,使得相似度结果更高,因此可以认为,视觉信息的加入有效的拉近了单词的距离。

4.2 语义相关性实验

语义相关性与相似性区别在于:相似物体具有相似性,相关物体在视觉上可能并不相似。
数据集:WordSim353-rel,353对人工标注的词,分值用来表示相关性。
MEN:基于 ESP Game 数据集中的图像标签构建,当两个词同时作为一副图像的标签出现,其出现频度越高,则得分越高。一定程度上可反应词的相关性
实验结果:

可以看出:
多模态词向量与单一词向量相比得分有所提升;
注意力的加入,反而降低了性能。
分析该结果,可能的原因是相关事物并不具备视觉相似性,不使用注意力机制时关注的是全局特征,
加入注意力机制,加重了目标任务的关注度,加强了图像区域特征,比如衣柜和衣服,加强区域特征会拉大两者的距离,反而降低了多模态词向量模型的性能。

4.3 视觉语义相似性实验

视觉语义相似性用于评价一对单词的视觉相似度和语义相似度,其可能情况是2*2排列组合。
数据集:VisSim:同时给出了视觉和语义相似度得分,[1,5]之间。
MEN:基于 ESP Game 数据集中的图像标签构建,当两个词同时作为一副图像的标签出现,其出现频度越高,则得分越高。一定程度上可反应词的相关性
实验结果:

在相似性任务上,多模态词向量获得了明显的提升。分析是由于相似单词其真实语义相似,视觉也相似,因此多模态词向量的性能会有所提升。
查看多模态和单一模态下得分最高的词对:
翻译成中文:
多模态:青蛙-蟾蜍,马-小马,飞机-喷气式飞机,公牛-母牛,杯子-杯子,公牛-牛,沙发-沙发
单一模态:飞机-喷气式飞机,杯子-杯子,导弹-火箭,猫-美洲狮,手套-棒球手套,幕布-窗帘
可以看出,多模态的高分基本都是视觉上非常相似的,单一模态的高分更倾向于物品属于同一种类。多模态更关注物品的相似性,单一模态更关注物品的相关性。

4.4语句距离计算实验:释义识别

词向量语料:wiki英文数据集
释义识别数据集:谷歌发布的QQP数据集:40万对数据,用于判断两个句子描述是否为同一件事。

判断句子释义是否相同,是对句嵌入能否表征真实语义的评价。
相比使用通用词向量,多模态词向量有更好的表现,这表明多模态词向量相比通用词向量能够概括更强的现实语义信息。此外,交互注意力机制相比普通的单向注意力机制,能够进一步有效提升模型的性能。
本文模型最佳准确率为0.854,相比最新的为释义识别设计的模型0.882有一定差距。

4.5 答案选择

数据集:WIkiQA数据集

答案选择是从候选集中选择与目标问题最相关的答案,可以理解为计算问题和答案间的距离。相比其他实验,Q与A的关联性不强,更注重两个句子间的匹配。可以看到双向+多模态+交互注意力机制组合其匹配效果更强。分析是由于,多模态词向量强化了句子真实语义,交互注意力价值,更关注了两个句子的间的反馈,解决了单一attention可能带来的噪声问题。改进的CNN(gru)与其他深度学习相比也增强了实验结果。

4.6 语句难度距离

评价:皮尔斯相关系数。
数据集:小学不同年级英文教材的手工录入


随机抽取两个句子,以评级差作为它们之间的难度距离,距离区间为即为[0,3]。根据这个方法,构造了 40000 个句对,每个距离各 10000 句。
实验结果:

可以看出,对语句难度建模中,多模态较单一模态有更好的实验结果。分析可能是由于视觉信息的加入使语句携带了更多信息,提升了语义表示。作者提到了随着年级的增加,视觉单词减少,抽象单词增加,多模态词向量的作用逐渐降低。分析这是由于抽象单词所对应的图像特征难捕捉,弱化了图像语义信息。
同时,作者认为:”语句的长度并不是评价语句难度所需要的特征,这些特征会使模型产生偏置,导致模型在其他
语料上不一定生效。“这一句话没有理解。

5.个人见解

1.多模态的引入很好的提升了语义的表征能力,可用于辅佐捕捉句子的真实语义,也可以根据句子的表述对图像的特征区域进行强调。
2.语句距离测算有广泛的应用场景,如信息检索,机器翻译,问答系统等。在其应用场景下,能否与多模态进行结合。如信息检索部分,有单独的识图和单独的文本搜索,可以探索二者间的结合。
3.很多论文工作体量大,但创新点不是很明显。

图像与文本的匹配过程:
ESP GAME数据集对每个图像进行单词标注,当一个图像频繁被打上一个标签时,就将这个单词标签作为图像标注。游戏鼓励玩家使用尽量多的单词来描述图像。因此,一副图像中可能有多个物体及多个标签。ESP Game数据集共含有100k的图像资源。平均每张图像包含14和标签,共20515个单词。
ImageNet 是一个按照 WordNet 层次结构组织的大规模图像数据库。ImageNet 数据集中的图像主要来源于网络,每幅图像都会经过人工选择并为其添加标签。因此,该数据库中的图像质量普遍较高,目标物体大都集中与图像的中间位置。

论文阅读:基于多模态词向量的语句距离计算方法相关推荐

  1. 基于w2v词向量聚类出现的问题(有待解决)

    基于w2v词向量聚类出现的问题(有待解决) 参考文章: (1)基于w2v词向量聚类出现的问题(有待解决) (2)https://www.cnblogs.com/kjkj/p/9768578.html ...

  2. 论文阅读|基于领域知识图谱的多文档摘要生成与应用

    论文地址:基于领域知识图谱的多文档摘要生成与应用 先验知识 1.多文档摘要技术: (理解:类似于每篇文章的摘要.关键词,方便通过标签筛选是否是你需要的内容) 利用计算机将同一主题下或者不同主题下的多篇 ...

  3. [软件工程程序修复论文阅读]基于代码感知机器翻译的程序修复

    本文约2871字,预计阅读时长6分钟. 原文标题为CURE: Code-Aware Neural Machine Translation for Automatic Program Repair 论文 ...

  4. 【NLP】基于GloVe词向量的迁移学习

    作者 | Kourosh Alizadeh 编译 | VK 来源 | Towards Data Science 在过去,我在为我的一个项目训练词向量,但我一直在碰壁.我在研究哲学史上的文本,试图找到可 ...

  5. 【NLP】基于Word2Vec词向量的中文文本相似度匹配

    Word2Vec 词向量可以用于测量单词之间的相似度,相同语义的单词,其词向量也应该是相似的.对词向量做降维并可视化,可以看到如下图所示的聚类效果,即相近语义的词会聚在一.     文本或句子相似度问 ...

  6. 论文阅读利器——划词翻译插件(桌面与浏览器)

    对于喜爱学习,阅读文献的各位来说,满屏的英文字母常常会磨灭我们的热情,而一般的翻译软件又有些贵,或者是根本没有很好的效果. 那么,今天,在这里介绍几款开源的插件与软件.都是可以免费使用的. 一.Edg ...

  7. 论文阅读——基于文档主题结构的关键词抽取方法研究(理解)

    1.引言 1.1关键词自动标注的主要方式与算法 关键词自动标注主要有两种方式:关键词抽取与关键词分配. 关键词抽取,是从文档内容中寻找并推荐关键词 关键词分配,是从一个预先构造好的受控词表(contr ...

  8. 论文阅读-基于深度强化学习的方法解决多智能体防御和攻击问题

    论文原题目:A deep reinforcement learning-based method applied for solving multi-agent defense and attack ...

  9. 论文阅读-NOLANet多模态伪造检测

    一.论文信息: 题目:Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMul ...

最新文章

  1. Java pinyin4j 汉字转拼音包括——多音字
  2. 华胜天成ivcs云系统初体验2
  3. Biopython(py012)统计碱基数
  4. 1024 大促书单丨神券在手,快乐我有
  5. cuda9.1 tensorflow1.6
  6. 【计算理论】计算复杂性 ( 两个带子的图灵机的时间复杂度 )
  7. 【译】 Stealing the funds of all HTC EXODUS 1 users (HTC 区块链钱包安全漏洞分析)
  8. Gentoo man手册指南
  9. 性能为MySQL 10倍!阿里云推出云原生数据仓库AnalyticDB基础版
  10. 启动TOMCAT报错 java.util.zip.ZipException: invalid LOC header (bad signature)
  11. 世界第一台电脑_2020世界计算机大会今日开幕 给市民带来全方位观展体验 - 三湘万象 - 湖南在线...
  12. ajax异步提交 java_jquery ajax异步上传
  13. CryptoPunk 3443竞拍价达3000ETH
  14. NetCore 统一处理 webapi 返回null 转为“”
  15. Python 和curl 调用sendcloud发送邮件
  16. php基础知识点指南思维导图(可下载)
  17. SketchUp教程:BIG事务所的建筑竞赛分析图表现(附笔刷+处理稿)
  18. java集合与数组的区别
  19. b站视频能外链吗html,Iframe代码嵌入BiliBili视频外链
  20. Java大作业——手把手教你写俄罗斯方块

热门文章

  1. 聚观早报 | 苹果被曝开发16英寸iPad;5.5G已经取得关键进展
  2. 华为nova6se怎么升级鸿蒙,华为EMUI11支持哪些手机
  3. frp客户端进行windows远程桌面连接
  4. 求最长递增子序列个数——C++
  5. 向日葵设置开机自启动
  6. c语言字符码,C语言字符转ASII码
  7. Kubernetes集群部署篇( 一)
  8. java 异常恢复_Java学习之异常处理
  9. 手机开热点如何查看接入热点的所有ip
  10. Elasticsearch模块——CRUD