【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze
Abstract
当说话者描述一幅图像时,他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模,研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点,利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像描述的方法,其中视觉处理是按顺序建模的。经实验和分析证实,通过利用注视驱动的注意力,可以获得更好的描述,并通过比较将注视模式与语言产生对齐的不同方式,该方法在一定程度上来阐明人类的认知过程。作者发现,依次处理凝视数据会导致描述与说话者产生的描述更一致,更多样化、更自然——特别是当凝视被一个专门的循环成分编码时。
1. Introduction
描述一个图像需要不同模式的协调。认知研究表明,语言和视觉之间的相互作用是复杂的。一方面,眼球运动受到手头任务的影响,比如定位物体或口头描述图像。另一方面,视觉信息处理在指导语言生产中发挥着重要作用。这种跨模态协调在图像描述的特定任务中依次展开,也就是说,物体往往在被提及之前被观察。然而,这两种模式之间的时间对齐并不简单。
本文继续研究这些发现,并通过计算建模描述生成过程来研究图像描述中的跨模态对齐。本文采用SOTA自动图像字幕系统,并开发了几种利用来自眼
【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze相关推荐
- 【机器学习】详解 RNN
相关文章 [机器学习]详解 RNN [机器学习]详解 LSTM [机器学习]详解 GRU 目录 一.概述 二.语言模型 与 N 元语法 (N-Gram) 三.循 ...
- 【tensorflow】Sequential 模型方法
深入学习Keras中Sequential模型及方法 - 战争热诚 - bky https://www.cnblogs.com/wj-1314/p/9579490.html Sequential 序贯模 ...
- 【tensorflow】Sequential 模型方法 compile, model.compile
Sequential 顺序模型 API - Keras 中文文档 https://keras.io/zh/models/sequential/ Sequential 序贯模型 序贯模型是函数式模型的简 ...
- 【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2
[VQ-VAE-2论文精读]Generating Diverse High-Fidelity Images with VQ-VAE-2 0.前言 Abstract 1 Introduction 2 B ...
- oracle11g知乎,【AAAI】AAAI2020录用论文汇总(二)
因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看 忆臻:[AAAI]AAAI2020录 ...
- 【ECCV2020】接收论文列表part1
ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第一部分,第二部见链接 Paper ID Paper Title Category 267 Qu ...
- 【干货】一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等
引言 深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解, ...
- 【CSAPP】计算机系统知识点(新国立NUS课程,中文版)
文章目录 1. 数值系统 `Number System` 1.1 数据表示方式 `Data Representation` 1.2 十进制数值系统 `Decimal (base 10) ` 1.3 其 ...
- 【阅读】A Comprehensive Survey on Distributed Training of Graph Neural Networks——翻译
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] (本文中,涉及到公式部分的翻译不准确,请看对应原文.) 另一篇:[阅读]Distributed Graph Neural Networ ...
最新文章
- 第一次正经面试之发现自己的缺陷和不足
- zabbix监控linux文件目录,zabbix监控linux磁盘性能
- Pytorch中的 torch.as_tensor() 和 torch.from_numpy() 的区别
- 使用Eclipse开发Java Web过程中Debug调试的使用方法
- placeholder=请输入用户名(六位数字加英文字母)
- mybatis学习(6):IntelliJ IDEA 如何创建一个普通的 Java 项目,及创建 Java 文件并运行
- 一代上网人的记忆!百度浏览器将不再更新
- python 全部缩进一行_Python成为专业人士笔记–程序行空白及tab缩进的作用
- ansys17.0安装教程
- ROS 机器人操作系统:版本说明
- 【opencv-ml】支持向量机简介
- 数学分析笔记4:一元函数微分学
- 2021CCPC东北四省赛 K. City 并查集
- MAML代码及理论的深度学习 PyTorch二阶导数计算
- Python OOP 项目实践:烤地瓜,搬家具
- 【Python】 matplotlib 以pdf形式保存图片
- 软件测试 | 测试开发 | Sikuli 基于图形识别的自动化测试技术
- Junit-对涉及数据库操作的服务进行单元测试
- 转:PPT的备注的使用
- 如何通过技术实现财务自由
热门文章
- 一款基于安卓的法语电影字幕听写软件的原型
- 怎么制作升温曲线图_PCBA制造过程中几种典型的温度曲线
- 企业微信+esaywechat 扫码授权登录
- 系统规划--成本效益分析
- golang力扣leetcode 675.为高尔夫比赛砍树
- python3 pdf书_用python3在PDF上书写文本
- fast路由器初始密码 TP-Link、D-Link、ipTIME、Tenda/、Fast水星等路由器恢复出厂设置
- c# 导入Excel 存到DataTable并进行行转列操作及合并DataTable相同行的值
- linux mic阵列通道丢数据,基于XMOS平台的USB麦克风阵列多声道采集装置
- 我的七年,可能也是你的七年