论文不记之《StyleNet: Generating Attractive Visual Captions with Styles》
一、本文目标
提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务。
二、本文贡献
本文是第一个研究用样式来生成有吸引力的图片字幕的问题,而不需要使用受监督的特殊图像-标题配对数据。
本文提出了一个端到端可学习的StyleNet框架,它可以自动从文本库中提取出样式因子。在标题生成中,样式因子可以被显式地合并以产生有吸引力的标题和所需的样式。
本文收集了一个新的Flickr图片字幕数据集。希望这个数据集可以帮助推进图像字幕的研究。
本文展示的StyleNet框架和Flickr的图片标题数据集也可以用来制作有吸引力的视频字幕。
三、StyleNet框架
第一层输入图片和真实的图片字幕进行学习
第二层和第三层输入浪漫风格和幽默风格的文本集
这三层都有一个factored LSTM结构用于学习,其中的参数是共享的除了特定的风格因子矩阵:SF, SR, SH
通过多任务学习
四、Factored LSTM
4.1 LSTM
LSTM是一种特殊的RNN,用于解决梯度消失和爆炸问题。LSTM的核心是记忆单元,它编码了每次输入的知识中被看到的部分,其中的门决定什么时候传递多少信息。特别地,有三个门:输入门it用来控制当前的输入xt,忘记门ft忘记以前的记忆ct-1,输出门ot是用来控制有多少内存被转移到隐藏状态ht。它们一起使LSTM能够在顺序数据中建立长期依赖关系。在LSTM块中,时间t中的门和单元更新规则如右图所示:
变量xt是时间t的输入序列的元素,而W表示要学习的LSTM参数。具体地说,Wix、Wfx、Wox和Wcx是应用于输入变量xt的权重矩阵,Wih、Wfh、Woh和Wch是用于重复更新隐藏状态值的权重矩阵。
4.2 Factored LSTM
因式分解传统LSTM中的参数Wx为三个矩阵Ux, Sx, Vx。
本文保留了重复的权重矩阵,包括Wih、Wfh、Woh和Wch,它们主要捕获语言的长时间的语法依赖,没有改变。
因此,因式分解后的LSTM中的记忆单元和门定义如下:
在分解的LSTM模型中,矩阵集{U}、{V}和{W}在不同的风格中共享,这些参数用于在所有文本数据中对一般的事实描述进行建模。然而,矩阵集{S}是特定于风格的。即框架中的SF, SR, SH
五、训练StyleNet
factored LSTM模型有两种类型的任务需要优化。在第一个任务中,LSTM根据成对的图像生成事实说明。在第二个任务中,被分解的LSTM被训练为语言模型。
除了特定风格的因素矩阵之外,这两个任务的factored LSTMs的参数都是共享的。
不同任务之间的损失函数是在每t步时单词xt的负对数概率
运行时,使用特定风格的矩阵S加上其他共享的参数集以组成factored LSTM,然后提取并转换输入图像的特征向量,并将其输入到基于factored LSTM的解码器中,以生成所需样式的字幕。
六、实验评估
为了评估由StyleNet生成的说明,本文使用了4个通常用于图像字幕的指标,包括BLEU、METEOR、ROUGE和CIDEr。
人类评估也显示StyleNet的结果吸引人。
对于每张照片,本文呈现了由NIC、CaptionBot和StyleNet创作的四段文字说明,并随机向评委们展示了一种幽默风格,并要求他们选择在社交媒体上分享图片的情景下最具吸引力的文字说明。
几乎85%的人认为StyleNet的结果更具吸引力。
本文还在视频字幕生成上做了实验。超过80%的人认为StyleNet生成的字幕较好
七、结果展示
八、总结
本文的目标是生成具有不同风格的具有吸引力的图片字幕。为此,本文开发了一个名为StyleNet的端到端可训练框架。通过使用特殊的LSTM模块和多任务学习,StyleNet能够从文本语料库中学习风格。
在运行时,可以通过factored LSTM模块将风格合并到图片说明的生成过程中。
本文的定量和定性结果表明,所提的StyleNet确实能够生成具有不同风格的相关图片说明。
论文不记之《StyleNet: Generating Attractive Visual Captions with Styles》相关推荐
- 《Generating Question Relevant Captions to Aid Visual Question Answering》(生成问题相关标题,以帮助视觉回答问题)论文解读
下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解 一. ...
- 深度学习论文随记(二)---VGGNet模型解读-2014年(Very Deep Convolutional Networks for Large-Scale Image Recognition)
深度学习论文随记(二)---VGGNet模型解读 Very Deep Convolutional Networks forLarge-Scale Image Recognition Author: K ...
- MCAN论文进阶——MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记
MCAN论文进阶--MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记 一.Abstract 二.引 ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...
- 【论文笔记】VOLO: Vision Outlooker for Visual Recognition
论文 论文题目:VOLO: Vision Outlooker for Visual Recognition 论文地址:[2106.13112] VOLO: Vision Outlooker for V ...
- 【论文阅读】Cross-X Learning for Fine-Grained Visual Categorization
[论文阅读]Cross-X Learning for Fine-Grained Visual Categorization 摘要 具体实现 OSME模块 跨类别跨语义正则化(C3SC^{3} SC3S ...
- 【论文写作】-我的第一篇论文形成记(投稿过程、课题来源、python与数学学习、实验设计、论文思路建立与写作、回复审稿人)
我的第一篇论文形成记 投稿过程 背景记录 课题来源-本科毕业设计 python及数学学习 实验设计 调参阶段 实验阶段 论文思路建立 论文写作 回复审稿人 总结 投稿过程 2022年12月28日 投A ...
- 深度学习论文: Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition及其PyTorch实现
深度学习论文: Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition及其PyTorch实现 Conv2Forme ...
最新文章
- Mac下php 5升级到php 7的步骤详解
- 前端差异化项目合并打包
- python主循环方法mainloop_python gobject.mainloop吞噬信号事件
- 计算机网络(二十)-广域网-PPP协议和HDLC协议
- 船员英语老师是面试还是计算机答题,面试时的英语介绍
- input输入格式转换插件-Vanilla Masker
- 《数值分析》-- 数值计算中的误差与有效数字
- 鸿蒙os系统3.0电脑,华为鸿蒙系统升级指南,速看!
- Word写毕业论文时页眉和页脚的设置问题
- 【转】最落魄的日子你是怎样熬过来的?
- 深度学习常用算子(一)
- 首先提出电子计算机存储程序的科学家,1、世界上首先实现存储程序的电子数字计算机是___C_。.doc...
- 响应式Web设计:HTML5和CSS3实战 读书笔记
- [iPad]手势及分页
- DenseCLIP:Language-Guided Dense Prediction with Context-Aware Prompting
- uni-app开发微信小程序getLocation 需要在app.json中声明permission字段解决办法
- ibatis之——sqlMapConfig.xml配置文件详解
- 跑步耳机哪种好,目前最适合运动的五款耳机推荐
- 区块链与联邦学习的研究
- 最小生成树prim之挖井
热门文章
- PTA 天梯赛L1 7-3 跳一跳 (15 分) C语言AC题解【仅供分享】
- NX二次开发-UFUN工程图导入视图UF_DRAW_import_view
- 天嵌i.mx6q--2
- SQL Server ansi_null_default | ansi_null_dflt_on
- Invalid bound statement (not found)错误的几种解决方法
- 易语言安卓模拟器adb模块制作认识adb
- android百度地图定位跳转中心点,百度地图,拖动地图,定位marker固定在屏幕中心位置...
- Tensorflow入门——自制数据集:将未经处理的图片制成npy格式的数据集
- uniapp登录页设计
- Docker 基础 (一)