LIVE 预告 | TransGAN：丢弃卷积，纯Transformer构建GAN网络

自2014年Ian J. Goodfellow等人提出以来，生成对抗网络（GAN，Generative Adversarial Networks）便迅速成为人工智能领域中最有前景的研究方向之一。

而另一方面，Google团队在2017年提出的Transformer架构近年来也如火如荼，迅速从 NLP 领域蔓延到 CV、语音等领域。近期的一些研究表明，Transformer 有足够的潜力成为强大的“通用”模型。基于对这一问题的思考，来自德克萨斯大学奥斯汀分校的江亦凡等人提出这一问题：

Transformer 还能走多远？

换句话说：

Transformer 能否应用到一些极为困难的视觉任务，例如生成对抗网络（GAN）吗？

在这一问题的驱使下，他们近期进行了第一个尝试：丢弃卷积，仅使用 Transformer 架构来 GAN 网络。

与其它基于 Transformer 的视觉模型相比，仅使用 Transformer 构建 GAN 更具挑战性，因为生成真实图像的门槛更高，而且GAN训练的不稳定性也更高。

他们将这个网络命名为：TransGAN。

简单来说，他们使用两个Transformer网络分别构成了生成器和鉴别器，如下图所示：

研究结果显示，TransGAN 显著受益于数据增强（超过标准的 GAN）、生成器的多任务协同训练策略和强调自然图像邻域平滑的局部初始化自注意力。这表明，TransGAN 可以有效地扩展至更大的模型和具有更高分辨率的图像数据集。

这一研究工作《TransGAN: Designing Pure Transformer-based Architectures for Generative Adversarial NetworksTrans》，在预印本ArXiv上发布后，由于其新颖的思路以及良好的效果，迅速引起大家的关注。数日来，该论文在paperwithcode榜单上一直位居榜首。

智源社区特邀请论文一作德克萨斯大学奥斯汀分校博士生江亦凡 就其研究内容做报告分享，欢迎大家来交流。

报告主题：TransGAN：丢弃卷积，纯Transformer构建GAN网络

报告时间：2021年2月24日（周三）20:00~21:00

报告形式：线上（Zoom + 智源社区Hub + B站直播）

报告人：江亦凡

个人简介：江亦凡，德克萨斯大学奥斯汀分校博士生在读。江亦凡本科毕业于华中科技大学，曾在字节跳动AI LAB和Adobe实习，之后在德克萨斯农工大学学习一年。研究兴趣包括深度学习和计算机视觉，当前主要从事神经结构搜索（NAS）、视频理解和高维表征学习等研究。

个人主页：https://yifanjiang.net/

报告摘要：The recent explosive interest on transformers has suggested their potential to become powerful universal models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? In this talk, I will introduce TransGAN, a new GAN architecture completely free of convolution, using pure transformer-based networks. The talk will include some interesting questions such as how transformer-based GANs perform on various datasets; How fast TransGAN can be compared to ConvNets-based GAN; How it can be scaled-up to higher-resolution image generation tasks.

摘要翻译：最近对 Transformer 的爆炸性兴趣表明，它们有潜力成为计算机视觉任务（例如分类，检测和分段）的强大“通用”模型。但是，Transformer 还能走多远——它们准备好承担一些极为困难的视觉任务，例如生成对抗网络（GAN）吗？在这个报告中，我将介绍TransGAN，这是一个无需卷积、仅使用Transformer构建的GAN网络。

报告将包括一些有趣的问题，如基于Transformer的GAN如何在不同的数据集上执行；TransGAN与基于ConvNets的GAN相比有多快；如何将其扩展到更高分辨率的图像生成任务中等。

论文链接：https://arxiv.org/pdf/2102.07074.pdf

代码链接：https://github.com/VITA-Group/TransGAN

观看方式：

Zoom观看：

https://zoom.com.cn/j/66843724077（无密码）

会议号：668 4372 4077

B站直播：http://live.bilibili.com/21484823

智源社区Hub直播：（点击【阅读原文】或扫描下方二维码）

（社区报名，可收到短信定时提醒）

欢迎加入知源月旦 Transformer+X 研究组

（加入研究组，共同讨论Transformer最新进展）

LIVE 预告 | TransGAN：丢弃卷积，纯Transformer构建GAN网络相关推荐

不用卷积，也能生成清晰图像，华人博士生首次尝试用两个Transformer构建一个GAN
「attention is really becoming『all you need』.」选自arXiv,作者:Yifan Jiang等,机器之心编译,机器之心编辑部最近,CV 研究者对 tran ...
不用卷积也能生成清晰图像，用两个Transformer构建一个GAN
作者|Yifan Jiang等来源|机器之心 attention is really becoming『all you need』. 最近,CV 研究者对 transformer 产生了极大的兴趣并 ...
华人博士生首次尝试用两个Transformer构建一个GAN
选自arXiv 作者:Yifan Jiang等机器之心编译机器之心编辑部「attention is really becoming『all you need』.」最近,CV 研究者对 tran ...
Pyramid Vision Transformer（PVT）: 纯Transformer设计，用于密集预测的通用backbone
论文地址:https://arxiv.org/pdf/2102.12122.pdf 官方代码:https://github.com/whai362/PVT 目录 0.摘要 1.引言 2.相关工作 2. ...
【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed，运用纯transformer架构对比卷积模型在终端上部署的推理速度
EfficientFormer: Vision Transformers at MobileNet Speed Abstract 视觉transformer(ViT)在计算机视觉任务中取得了快速的进展 ...
ICCV2021 视频领域的纯Transformer方案！谷歌提出ViViT，在多个视频分类基准上SOTA！代码已开源！...
关注公众号,发现CV技术之美 ▊ 写在前面在本文中,作者提出了纯基于Transformer的视频分类模型.本文的模型从输入视频中提取时空token,然后由一系列Transformer层进行编码.为了 ...
多因子组合构建matlab,财通-“星火”多因子专题：Barra模型深化，纯因子组合构建.pdf...
金融 2019 年02 月14 日 Barra 模型深化:纯因子组合构建工程 "星火"多因子专题报告(三) 联系信息投资要点: 陶勤英分析师 SAC 证书编号:S0160 ...
将卷积引入transformer中VcT(Introducing Convolutions to Vision Transformers)的pytorch代码详解
文章目录 1. Motivation: 2. Method 2.1 Convolutional Token Embedding 模块 2.2 Convolutional Projection For ...
最新开源！TransReID：首个基于Transformer的ReID网络，各项任务全面领先！
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨Happy 审稿丨邓富城转载自丨极市平台导读 Tra ...

LIVE 预告 | TransGAN：丢弃卷积，纯Transformer构建GAN网络

LIVE 预告 | TransGAN：丢弃卷积，纯Transformer构建GAN网络相关推荐

最新文章

热门文章