text to image（一）:《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》

介绍文本生成图像的工作.本文要介绍的是发表于 ICLR 2016的论文《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》 .时间比较早,不同于常见的使用GAN来生成图像,这篇文章使用的方法本质上是一个VAE(变分自动编码器).文章没看太懂...数学推导很高深,但是代码结构很清楚.

论文地址:https://arxiv.org/abs/1511.02793

源码地址:https://github.com/emansim/text2image

一、相关工作

《DRAW: A Recurrent Neural Network For Image Generation》

论文地址:https://arxiv.org/abs/1502.04623

源码地址:https://github.com/ericjang/draw

《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》对DRAW的结构进行了改进,这里先介绍一下DRAW.

DRAW系统的核心是一对RNN,分别是用于编码图像的编码器和重建图像的解码器.DRAW与其他生成器的不同之处是它不是一次生成图像,而是通过解码器发出的累积修改,迭代地构建场景.

DRAW的基本结构和其他VAE(变分编码器)类似,编码器网络确定潜在变量的分布,潜在变量可以捕获输入数据的信息.解码器网络在潜在变量中接受样本,并使用它们来调整自身在图像上的分布.

但有三个关键的区别:

(1)编码器和解码器都是DRAW中的循环网络，因此在它们之间交换一系列代码样本;编码器对解码器的先前输出有所了解，允许它根据解码器到目前为止的行为定制它发送的变量。

(2)解码器的输出被连续地添加到最终将生成数据的分布中，而不是在单个步骤中发出该分布。

(3)动态更新的关注机制用于限制编码器观察到的输入区域和解码器修改的输出区域。简单来说，网络在每个时间步骤决定“在哪里阅读”和“在哪里写”以及“写什么”。该架构如图2所示，与前馈变分自动编码器一起。

在每一步t，encoder接收image(x)和previous decoder hidden vector

encoder 的输出是

迭代过程如下所示：

其中read和 write函数：

（1）若不引入attention机制

（2）引入attention机制

具体含义参考论文（没看懂）

三、数据集

coco数据集

四、模型结构

文章扩展了DRAW,在每一步引入了作为condition

DRAW变为cDRAW，cDRAW是一个stochastic RNN，包含了一些列的z（1，2，3......T）,输出是T步的累计。

是双向LSTM的隐藏态。

在cDRAW中，z不再是独立的正态分布，而是依赖前面的LSTM的隐藏态。

五、损失函数

text to image（一）:《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》相关推荐

Generating Images from Captions with Attention
注意从字幕生成图像基于生成模型的最新进展,我们引入了一种根据自然语言描述生成图像的模型. 提出的模型以迭代方式在画布上绘制补丁,同时注意描述中的相关单词.在接受Microsoft COCO培训后,我 ...
《Generating Question Relevant Captions to Aid Visual Question Answering》（生成问题相关标题，以帮助视觉回答问题）论文解读
下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解一. ...
论文不记之《StyleNet: Generating Attractive Visual Captions with Styles》
一.本文目标提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务. 二.本文贡献本文是第一个研究用样式来生成有吸引力的图片字幕的问题,而不需要使用受监督的特殊 ...
Image Generation
Generating images with recurrent adversarial networks arxiv: http://arxiv.org/abs/1602.05110 github: ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...
计算机视觉经典论文整理
经典论文计算机视觉论文 ImageNet分类物体检测物体跟踪低级视觉边缘检测语义分割视觉注意力和显著性物体识别人体姿态估计 CNN原理和性质(Understanding CNN) 图 ...
深度学习在CV领域的进展以及一些由深度学习演变的新技术
CV领域 1.进展:如上图所述,当前CV领域主要包括两个大的方向,"低层次的感知" 和 "高层次的认知". 2.主要的应用领域:视频监控.人脸识别.医学图像分析 ...
GANs学习系列(2)：GANs最新进展二
reference:http://blog.csdn.net/solomon1558/article/details/52338052 文献整理题目主要内容 ...
深度学习之文本生成图片
文章目录 Text2Image Goal Evaluation VAE Generating images from captions with attention (36 x 36) align-D ...

text to image（一）:《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》

text to image（一）:《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》相关推荐

最新文章

热门文章