介绍文本生成图像的工作.本文要介绍的是发表于 ICLR 2016的论文《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》 .时间比较早,不同于常见的使用GAN来生成图像,这篇文章使用的方法本质上是一个VAE(变分自动编码器).文章没看太懂...数学推导很高深,但是代码结构很清楚.

论文地址:https://arxiv.org/abs/1511.02793

源码地址:https://github.com/emansim/text2image

一、相关工作

《DRAW: A Recurrent Neural Network For Image Generation》

论文地址:https://arxiv.org/abs/1502.04623

源码地址:https://github.com/ericjang/draw

《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》对DRAW的结构进行了改进,这里先介绍一下DRAW.

DRAW系统的核心是一对RNN,分别是用于编码图像的编码器和重建图像的解码器.DRAW与其他生成器的不同之处是它不是一次生成图像,而是通过解码器发出的累积修改,迭代地构建场景.

DRAW的基本结构和其他VAE(变分编码器)类似,编码器网络确定潜在变量的分布,潜在变量可以捕获输入数据的信息.解码器网络在潜在变量中接受样本,并使用它们来调整自身在图像上的分布.

但有三个关键的区别:

(1)编码器和解码器都是DRAW中的循环网络,因此在它们之间交换一系列代码样本;编码器对解码器的先前输出有所了解,允许它根据解码器到目前为止的行为定制它发送的变量。

(2)解码器的输出被连续地添加到最终将生成数据的分布中,而不是在单个步骤中发出该分布。

(3)动态更新的关注机制用于限制编码器观察到的输入区域和解码器修改的输出区域。简单来说,网络在每个时间步骤决定“在哪里阅读”和“在哪里写”以及“写什么”。该架构如图2所示,与前馈变分自动编码器一起。

在每一步t,encoder接收image(x)和previous decoder hidden vector 

encoder 的输出是

迭代过程如下所示:

其中read和 write函数:

(1)若不引入attention机制

(2)引入attention机制

具体含义参考论文(没看懂)

三、数据集

coco数据集

四、模型结构

文章扩展了DRAW,在每一步引入了作为condition

DRAW变为cDRAW,cDRAW是一个stochastic RNN,包含了一些列的z(1,2,3......T),输出是T步的累计。

是双向LSTM的隐藏态。

在cDRAW中,z不再是独立的正态分布,而是依赖前面的LSTM的隐藏态。

五、损失函数

text to image(一):《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》相关推荐

  1. Generating Images from Captions with Attention

    注意从字幕生成图像 基于生成模型的最新进展,我们引入了一种根据自然语言描述生成图像的模型. 提出的模型以迭代方式在画布上绘制补丁,同时注意描述中的相关单词.在接受Microsoft COCO培训后,我 ...

  2. 《Generating Question Relevant Captions to Aid Visual Question Answering》(生成问题相关标题,以帮助视觉回答问题)论文解读

    下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解 一. ...

  3. 论文不记之《StyleNet: Generating Attractive Visual Captions with Styles》

    一.本文目标 提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务. 二.本文贡献 本文是第一个研究用样式来生成有吸引力的图片字幕的问题,而不需要使用受监督的特殊 ...

  4. Image Generation

    Generating images with recurrent adversarial networks arxiv: http://arxiv.org/abs/1602.05110 github: ...

  5. (zhuan) Recurrent Neural Network

    Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...

  6. 计算机视觉经典论文整理

    经典论文 计算机视觉论文 ImageNet分类 物体检测 物体跟踪 低级视觉 边缘检测 语义分割 视觉注意力和显著性 物体识别 人体姿态估计 CNN原理和性质(Understanding CNN) 图 ...

  7. 深度学习在CV领域的进展以及一些由深度学习演变的新技术

    CV领域 1.进展:如上图所述,当前CV领域主要包括两个大的方向,"低层次的感知" 和 "高层次的认知". 2.主要的应用领域:视频监控.人脸识别.医学图像分析 ...

  8. GANs学习系列(2):GANs最新进展二

    reference:http://blog.csdn.net/solomon1558/article/details/52338052 文献整理 题目 主要内容                     ...

  9. 深度学习之文本生成图片

    文章目录 Text2Image Goal Evaluation VAE Generating images from captions with attention (36 x 36) align-D ...

最新文章

  1. Python_赋值和深浅copy
  2. 《2020城市大脑全球标准研究报告》全文正式开放申领
  3. 【全栈React】第6天: 状态
  4. invalid use of incomplete type 报
  5. swift - scrollview 判断左右移动, 以及上下两个view联动
  6. 迭代器模式在 Java 容器中的实现
  7. 我是如何把30000行代码重构成15行
  8. 《小岛经济学》读书笔记摘录
  9. ir2104作用,ir2104引脚功能和IR2103 请问有没有人可以通俗地讲解IR2104芯片引脚的功能?...
  10. Vue进阶(六十三):如何使浏览器打开时,默认的文档模式就是标准模式
  11. cmd中为什么看不到python安装成功_cmd中运行python怎么切换目录? 怎么查看python中已安装的包...
  12. CISCO 基于时间访问控制
  13. [TCP灵魂之问]介绍一下 TCP 报文头部的字段
  14. po、bo、do、dto、vo相关图形
  15. 华为机考,华为笔试,软件类,2020年8月19日题目,超详细解答。
  16. SEO实战:怎样打劫肥龙龙的博客流量
  17. mysql数据库访问记录_MySQL数据库运行、访问记录与日志
  18. wxpython后台线程更新界面控件方法
  19. GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结的时代到来了?
  20. 最新百度爬虫页面生成自动SEO优化系统+视频教程

热门文章

  1. 高分一号影像处理流程
  2. DMA+PWM驱动彩色RGB灯
  3. 滴滴云千万补贴,助力中小企业数字化转型
  4. 深入理解Java虚拟机小结
  5. openwrt 默认ip修改
  6. samba服务器无法共享文件夹,samba服务器设置共享文件夹权限
  7. .bat文件闪退,原因及解决
  8. android 截图模糊,Adobe XD导出图片模糊?设置错误啦(切图详解)
  9. 2019.01.17【BZOJ4399】 魔法少女LJJ(FHQ_treap)(ODT)
  10. 80年代后最佳阵容之巴西篇