【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Abstract

当说话者描述一幅图像时，他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模，研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点，利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像描述的方法，其中视觉处理是按顺序建模的。经实验和分析证实，通过利用注视驱动的注意力，可以获得更好的描述，并通过比较将注视模式与语言产生对齐的不同方式，该方法在一定程度上来阐明人类的认知过程。作者发现，依次处理凝视数据会导致描述与说话者产生的描述更一致，更多样化、更自然——特别是当凝视被一个专门的循环成分编码时。

1. Introduction

描述一个图像需要不同模式的协调。认知研究表明，语言和视觉之间的相互作用是复杂的。一方面，眼球运动受到手头任务的影响，比如定位物体或口头描述图像。另一方面，视觉信息处理在指导语言生产中发挥着重要作用。这种跨模态协调在图像描述的特定任务中依次展开，也就是说，物体往往在被提及之前被观察。然而，这两种模式之间的时间对齐并不简单。

本文继续研究这些发现，并通过计算建模描述生成过程来研究图像描述中的跨模态对齐。本文采用SOTA自动图像字幕系统，并开发了几种利用来自眼

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze相关推荐

【机器学习】详解 RNN
相关文章 [机器学习]详解 RNN [机器学习]详解 LSTM [机器学习]详解 GRU 目录一.概述二.语言模型与 N 元语法 (N-Gram) 三.循 ...
【tensorflow】Sequential 模型方法
深入学习Keras中Sequential模型及方法 - 战争热诚 - bky https://www.cnblogs.com/wj-1314/p/9579490.html Sequential 序贯模 ...
【tensorflow】Sequential 模型方法 compile， model.compile
Sequential 顺序模型 API - Keras 中文文档 https://keras.io/zh/models/sequential/ Sequential 序贯模型序贯模型是函数式模型的简 ...
【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2
[VQ-VAE-2论文精读]Generating Diverse High-Fidelity Images with VQ-VAE-2 0.前言 Abstract 1 Introduction 2 B ...
oracle11g知乎,【AAAI】AAAI2020录用论文汇总（二）
因为AAAI的接受论文官方还没有放出,并且放的也是出奇的慢,本文汇总了23日在arxiv上挂出来的AAAI2020文章,供大家挑选感兴趣的文章下载.第一部分可以看忆臻:[AAAI]AAAI2020录 ...
【ECCV2020】接收论文列表part1
ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第一部分,第二部见链接 Paper ID Paper Title Category 267 Qu ...
【干货】一文详解计算机视觉的广泛应用：网络压缩、视觉问答、可视化、风格迁移等
引言深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解, ...
【CSAPP】计算机系统知识点（新国立NUS课程，中文版）
文章目录 1. 数值系统 `Number System` 1.1 数据表示方式 `Data Representation` 1.2 十进制数值系统 `Decimal (base 10) ` 1.3 其 ...
【阅读】A Comprehensive Survey on Distributed Training of Graph Neural Networks——翻译
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] (本文中,涉及到公式部分的翻译不准确,请看对应原文.) 另一篇:[阅读]Distributed Graph Neural Networ ...

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Abstract

1. Introduction

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze相关推荐

最新文章

热门文章