论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型
笔记整理: 谭亦鸣,东南大学博士生
来源:NAACL’21
链接:https://aclanthology.org/2021.naacl-main.153.pdf
论文提出了一种新的知识图谱问答数据集命名为FVSQA,这是一种语音视觉知识问答类型的任务,即问题形式为音频,问题基于一个图片提出,答案是来自知识图谱的事实。FVSQA包含三个子任务:
1.基于语音转文本的问答;2.(不转文本情况下的)端到端模型;3.跨语言任务,即问题的音频语言与知识图谱语言不同情况下的问答。
背景与动机
基于事实的视觉问答(FVQA)要求问答系统依据针对图像提出的问题,从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到(多语言)音频接口的情况,考虑到目前逐渐成熟的语音识别系统,直接使用语音提问,构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。
贡献
作者总结论文的主要贡献如下:
1.论文提出了一个新的基于事实的视觉音频问答任务,并建立了一个数据集FVSQA包含5小时长度的语音数据,覆盖英语,印地语以及土耳其语。2.作者训练了一个直接使用语音信号的端到端问答模型WoW,这是第一个不需要语音识别解析模块的语音知识图谱问答模型
方法
论文的方法的整体过程如图所示,首先问题和场景检测器是被图像中的实体构成,然后图像被表示为检测到的实体的KG embedding特征集合,语音问题的MFCC特征由LSTM编码并传递到co-attention层,与图像编码进行融合,经过一个全连接层后,到达查询层,最后与查询最接近的实体被获取作为问题的答案
co-attention层的结构如下图:
这个部分的目的是融合语音问题表示以及图像表示,首先由自注意力提供一个单独的语音信号的问题embedding,然后问题embedding引导视觉attention的权重(就像文本embedding做的那样)。
FVSQA数据集的统计信息如下表
多语言数据借助了亚马逊翻译API完成,然后由人工校验,以确保问题的正确性。
实验
WoW模型的参数数量如表2所示 最终的实验结果如下表:
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型相关推荐
- 论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...
笔记整理 | 谭亦鸣,东南大学博士生 来源:COLING 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf 本文发现, ...
- 论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法
论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释.本文提出了一种新的端到端的可微的 ...
- 论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架
论文笔记整理:窦春柳,天津大学硕士. 链接:https://arxiv.org/pdf/1909.03227.pdf 动机 首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图.从图中 ...
- 论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入
论文笔记整理:谭亦鸣,东南大学博士生. 来源:ICLR2020 链接:https://openreview.net/pdf?id=BkxSmlBFvr KG embedding(KGE)模型的目标是学 ...
- 论文浅尝 | 基于复杂查询图编码的知识库问答
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答. 来源:EMNLP 2018 链接:https://www.aclweb.org/anthology/D18-1242 文章表示,复杂问答所 ...
- 论文浅尝 | 面向单关系事实问题的中文问答模型
来源:NLPCC 2017 论文下载地址:http://tcci.ccf.org.cn/conference/2017/papers/2003.pdf 动机 开放领域的QA问题是一个被广泛研究的问题, ...
- 论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识
Commonsense for Generative Multi-Hop Question Answering Tasks 链接: https://arxiv.org/abs/1809.06309 背 ...
- 论文浅尝 | 基于RNN与相似矩阵CNN的知识库问答
链接:https://arxiv.org/pdf/1804.03317.pdf 概述 当前大部分的 kbqa 方法为将 kb facts 与 question 映射到同一个向量空间上,然后计算相似性. ...
- 论文浅尝 | 一种用于多关系问答的可解释推理网络
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:COLING 2018 链接:https://www.aclweb.org/anthology/C18-1171 问题背景与 ...
最新文章
- Android进阶(六)Binder机制
- 利用gulp对项目html,js,css,图片进行压缩
- User Status code in SalesPipeline
- this--学习笔记
- js用ajax和不同页面的php互相传值的方法
- 在一个请求分页系统中,分别采用 FIFO、LRU和 OPT页面置换算法时,假如一个作业的页面走向为 4、3、2、1、4、3、5、4、3、2、1、5,当分配给该作业的物理块数M分别为 3、4时,
- laravel数组转换为字符串_LeetCode刷题实战108:将有序数组转换为二叉搜索树
- VBA 字典 键值为二维数组并不断增加行
- matlab 对数回归,对数拟合
- 十进制转换为二进制代码
- 我的日程安排表(理解代码)学习记录Java
- Oracle中的分析函数over()的详细解析
- 编程语言介绍以及特点
- 需求:世界最高峰是珠穆朗玛峰(8844.43米=8844430毫米),假如我有一张足够打的纸,它的厚度是0.1毫米 请问,我折叠多少次,可以折成珠穆朗玛峰的高度?
- Android 意图(Intent)和过滤器(Filter)
- [基于富瀚6630平台实现U盘热插拔检测并mount]
- 微波射频学习笔记21-------三极管
- python爬虫(四)爬虫的溯源(爬取mooc某个系列课程)
- 同步手机真机屏幕到PC上的软件使用方法
- C# Winform应用程序占用内存较大解决方法整理(转)-- SetProcessWorkingSetSize
热门文章
- C/C++中的占位符
- 空间换时间,查表法的经典例子
- 用单链表实现一个队列
- 快速排序非递归算法c语言实现,数据结构与算法----3.5 非递归的快速排序方法
- GetLocalTime
- OSError: [Errno 22] Invalid argument:**
- Linux Shell快速入门
- LeetCode 2035. 将数组分成两个数组并最小化数组和的差(状态压缩DP)
- LeetCode 1718. 构建字典序最大的可行序列(贪心+回溯)
- LeetCode 第 23 场双周赛(970/2044,前47.5%)