Taming Transformers for High-Resolution Image Synthesis 论文阅读
Taming Transformers for High-Resolution Image Synthesis 论文阅读
论文地址 2012.09841.pdf (arxiv.org)
摘要
结合CNN的归纳偏置有效性和transformer的表达能力去合成高分辨率图像。
展示了(i)用CNNs去学习一个语义构成的图像的特征(ii)通过这些语义生成图像
实现
Figure2:
学习一个有效地Codebook(具体可以看VQVAE,我也是一知半解,推一篇文VQ-VAE解读)
用transformer学习图像的结构(composition)
有了E和G,我们能依据codebook的code的索引来表示图像。更准确的说,图像xxx的量化编码由zq=q(E(x))∈Rh×w×nzz_q=q(E(x)) \in \mathbb R^{h\times w\times n_z}zq=q(E(x))∈Rh×w×nz给出,等价于一个序列s∈{0,...,∣Z∣−1}h×ws\in \{0,..., |Z|-1\}^{h\times w}s∈{0,...,∣Z∣−1}h×w,其中sss是codebook的索引序列,因此有sij=k=>(zq)ij=zk]s_{ij}=k~=>~(z_q)_{ij}=z_k]sij=k => (zq)ij=zk] (根据Figure2能看出s与Zk的关系,文字表达不是很清晰,大致就是说s是Zq上对应codebook条目的索引,知道了s就可以知道Zq)。
因此,有了sss序列,我们就可以用p(si∣s<i)p(s_i|s_{<i})p(si∣s<i)来后验下一个索引,那么数据整体的关联性(这里不知道怎么表达,文中说的是likelihood of the full representation)就是p(s)=∏ip(si∣s<i)p(s)=\prod_{i}p(s_i|s_{<i})p(s)=∏ip(si∣s<i),这让我们能直接最大化损失函数:
LTransformer=Ex∼p(x)[−logp(x)]\mathcal L_{Transformer}=\mathbb E_{x\sim p(x)}[-log ~p(x)]LTransformer=Ex∼p(x)[−log p(x)]
条件合成 Conditioned Synthesis
一些任务可能会根据用户需求来生成,将这些生成的条件设为ccc,它可以是一个标签描述全局图像,也可以是另一幅图像:
p(s∣c)=∏ip(si∣s<i,c)p(s|c)=\prod_i p(s_i|s_{<i},c)p(s∣c)=∏ip(si∣s<i,c)
后面都是一些VQGAN的具体应用,暂时不翻译。
Taming Transformers for High-Resolution Image Synthesis 论文阅读相关推荐
- 【论文笔记】Generative Adversarial Frontal View to Bird View Synthesis - 论文阅读笔记
[论文笔记]Generative Adversarial Frontal View to Bird View Synthesis 这篇论文是一篇发表在3DV会议上的文章,提出了基于GAN进行视角迁移与 ...
- CVPR2021 | VQGAN+:Taming Transformers for High-Resolution Image Synthesis
原文标题:Taming Transformers for High-Resolution Image Synthesis 主页:Taming Transformers for High-Resolut ...
- [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers
[论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...
- 论文阅读——Towards Adversarial Retinal Image Synthesis
论文阅读--Towards Adversarial Retinal Image Synthesis GAN用于视网膜图像合成 Abstract 眼底图像的合成十分具有挑战性,传统方式借助复杂的眼底解剖 ...
- [论文阅读:姿态识别Transformer] TFPose: Direct Human Pose Estimation with Transformers
[论文阅读:姿态识别&Transformer] TFPose: Direct Human Pose Estimation with Transformers 文章目录 [论文阅读:姿态识别&a ...
- 论文阅读:DETR:End-to-End Object Detection with Transformers
题目:End-to-End Object Detection with Transformers 来源:Facebook AI ECCV2020 论文链接:https://arxiv.org/abs/ ...
- 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey
文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...
- 视频人像抠图论文阅读
视频人像抠图论文阅读 1.Prime Sample Attention in Object Detection 2.Mask RCNN 3.Background Matting: The World ...
- 【PGGAN】1、Progressive Growing of GANs for Improved Quality, Stability, and Variation 论文阅读
使用渐进式增长GAN提升质量.稳定性.变化性 paper:https://arxiv.org/abs/1710.10196 code :https://github.com/facebookrese ...
最新文章
- 用VS2012或VS2013在win7下编写的程序在XP下运行就出现“不是有效的win32应用程序
- 一块GPU模拟猴子大脑,普通台式机变超算,英国大学研究登上Nature子刊
- java中class文件反编译_java中的.class文件反编译
- 计算机同S7-300PLC通讯,西门子S7-300 PLC与Intouch的通讯连接方法
- WinForm开发(28)——TextBox(2)——Winform给TextBox设置默认值(获取焦点后默认值消失)
- 【DS18B20】与之相连的引脚正确配置
- H3CNE中Vlan间路由
- 网课搜题公众号制作方法
- 什么是生成器 — 一篇文章让你看懂
- Julia·Pluto·Plots报错解决方法
- 【ENVI】基于Landsat遥感影像的盐城市土地利用信息提取
- Redis主从复制(master/slaver)
- 旷视科技面试——算法岗
- python mpi4py multiprocessing_python基于multiprocessing的多进程创建方法
- mwan,意为mult-wan?
- ROS 通信机制(已整理)
- 2022年软件评测师真题
- bootstarp js设置列隐藏_bootstraptable表格columns 隐藏方法
- 超星阅读器文件转为PDF文件
- 网易 盖楼 实现_网易严选宣布“退出鼓吹过度消费的双十一”网友:逆向营销...