Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Abstract

当说话者描述一幅图像时,他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模,研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点,利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像描述的方法,其中视觉处理是按顺序建模的。经实验和分析证实,通过利用注视驱动的注意力,可以获得更好的描述,并通过比较将注视模式与语言产生对齐的不同方式,该方法在一定程度上来阐明人类的认知过程。作者发现,依次处理凝视数据会导致描述与说话者产生的描述更一致,更多样化、更自然——特别是当凝视被一个专门的循环成分编码时。

1. Introduction

描述一个图像需要不同模式的协调。认知研究表明,语言和视觉之间的相互作用是复杂的。一方面,眼球运动受到手头任务的影响,比如定位物体或口头描述图像。另一方面,视觉信息处理在指导语言生产中发挥着重要作用。这种跨模态协调在图像描述的特定任务中依次展开,也就是说,物体往往在被提及之前被观察。然而,这两种模式之间的时间对齐并不简单。

本文继续研究这些发现,并通过计算建模描述生成过程来研究图像描述中的跨模态对齐。本文采用SOTA自动图像字幕系统,并开发了几种利用来自眼

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze相关推荐

  1. 【机器学习】详解 RNN

    相关文章       [机器学习]详解 RNN         [机器学习]详解 LSTM       [机器学习]详解 GRU 目录 一.概述 二.语言模型 与 N 元语法 (N-Gram) 三.循 ...

  2. 【tensorflow】Sequential 模型方法

    深入学习Keras中Sequential模型及方法 - 战争热诚 - bky https://www.cnblogs.com/wj-1314/p/9579490.html Sequential 序贯模 ...

  3. 【tensorflow】Sequential 模型方法 compile, model.compile

    Sequential 顺序模型 API - Keras 中文文档 https://keras.io/zh/models/sequential/ Sequential 序贯模型 序贯模型是函数式模型的简 ...

  4. 【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2

    [VQ-VAE-2论文精读]Generating Diverse High-Fidelity Images with VQ-VAE-2 0.前言 Abstract 1 Introduction 2 B ...

  5. oracle11g知乎,【AAAI】AAAI2020录用论文汇总(二)

    因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看 忆臻:[AAAI]AAAI2020录 ...

  6. 【ECCV2020】接收论文列表part1

    ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第一部分,第二部见链接 Paper ID Paper Title Category 267 Qu ...

  7. 【干货】一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

    引言 深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解, ...

  8. 【CSAPP】计算机系统知识点(新国立NUS课程,中文版)

    文章目录 1. 数值系统 `Number System` 1.1 数据表示方式 `Data Representation` 1.2 十进制数值系统 `Decimal (base 10) ` 1.3 其 ...

  9. 【阅读】A Comprehensive Survey on Distributed Training of Graph Neural Networks——翻译

    转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] (本文中,涉及到公式部分的翻译不准确,请看对应原文.) 另一篇:[阅读]Distributed Graph Neural Networ ...

最新文章

  1. 第一次正经面试之发现自己的缺陷和不足
  2. zabbix监控linux文件目录,zabbix监控linux磁盘性能
  3. Pytorch中的 torch.as_tensor() 和 torch.from_numpy() 的区别
  4. 使用Eclipse开发Java Web过程中Debug调试的使用方法
  5. placeholder=请输入用户名(六位数字加英文字母)
  6. mybatis学习(6):IntelliJ IDEA 如何创建一个普通的 Java 项目,及创建 Java 文件并运行
  7. 一代上网人的记忆!百度浏览器将不再更新
  8. python 全部缩进一行_Python成为专业人士笔记–程序行空白及tab缩进的作用
  9. ansys17.0安装教程
  10. ROS 机器人操作系统:版本说明
  11. 【opencv-ml】支持向量机简介
  12. 数学分析笔记4:一元函数微分学
  13. 2021CCPC东北四省赛 K. City 并查集
  14. MAML代码及理论的深度学习 PyTorch二阶导数计算
  15. Python OOP 项目实践:烤地瓜,搬家具
  16. 【Python】 matplotlib 以pdf形式保存图片
  17. 软件测试 | 测试开发 | Sikuli 基于图形识别的自动化测试技术
  18. Junit-对涉及数据库操作的服务进行单元测试
  19. 转:PPT的备注的使用
  20. 如何通过技术实现财务自由

热门文章

  1. 一款基于安卓的法语电影字幕听写软件的原型
  2. 怎么制作升温曲线图_PCBA制造过程中几种典型的温度曲线
  3. 企业微信+esaywechat 扫码授权登录
  4. 系统规划--成本效益分析
  5. golang力扣leetcode 675.为高尔夫比赛砍树
  6. python3 pdf书_用python3在PDF上书写文本
  7. fast路由器初始密码 TP-Link、D-Link、ipTIME、Tenda/、Fast水星等路由器恢复出厂设置
  8. c# 导入Excel 存到DataTable并进行行转列操作及合并DataTable相同行的值
  9. linux mic阵列通道丢数据,基于XMOS平台的USB麦克风阵列多声道采集装置
  10. 我的七年,可能也是你的七年