自2014年Ian J. Goodfellow等人提出以来,生成对抗网络(GAN,Generative Adversarial Networks)便迅速成为人工智能领域中最有前景的研究方向之一。

而另一方面,Google团队在2017年提出的Transformer架构近年来也如火如荼,迅速从 NLP 领域蔓延到 CV、语音等领域。近期的一些研究表明,Transformer 有足够的潜力成为强大的“通用”模型。基于对这一问题的思考,来自德克萨斯大学奥斯汀分校的江亦凡等人提出这一问题:

Transformer 还能走多远?

换句话说:

Transformer 能否应用到一些极为困难的视觉任务,例如生成对抗网络(GAN)吗?

在这一问题的驱使下,他们近期进行了第一个尝试:丢弃卷积,仅使用 Transformer 架构来 GAN 网络。

与其它基于 Transformer 的视觉模型相比,仅使用 Transformer 构建 GAN 更具挑战性,因为生成真实图像的门槛更高,而且GAN训练的不稳定性也更高。

他们将这个网络命名为:TransGAN。

简单来说,他们使用两个Transformer网络分别构成了生成器和鉴别器,如下图所示:

研究结果显示,TransGAN 显著受益于数据增强(超过标准的 GAN)、生成器的多任务协同训练策略和强调自然图像邻域平滑的局部初始化自注意力。这表明,TransGAN 可以有效地扩展至更大的模型和具有更高分辨率的图像数据集。

这一研究工作《TransGAN: Designing Pure Transformer-based Architectures for Generative Adversarial NetworksTrans》,在预印本ArXiv上发布后,由于其新颖的思路以及良好的效果,迅速引起大家的关注。数日来,该论文在paperwithcode榜单上一直位居榜首。

智源社区特邀请论文一作德克萨斯大学奥斯汀分校博士生 江亦凡 就其研究内容做报告分享,欢迎大家来交流。

报告主题:TransGAN:丢弃卷积,纯Transformer构建GAN网络

报告时间2021年2月24日(周三)20:00~21:00

报告形式:线上(Zoom + 智源社区Hub + B站直播)

报 告 人 :江亦凡

个人简介:江亦凡,德克萨斯大学奥斯汀分校博士生在读。江亦凡本科毕业于华中科技大学,曾在字节跳动AI LAB和Adobe实习,之后在德克萨斯农工大学学习一年。研究兴趣包括深度学习和计算机视觉,当前主要从事神经结构搜索(NAS)、视频理解和高维表征学习等研究。

个人主页:https://yifanjiang.net/

报告摘要:The recent explosive interest on transformers has suggested their potential to become powerful universal models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? In this talk, I will introduce TransGAN, a new GAN architecture completely free of convolution, using pure transformer-based networks. The talk will include some interesting questions such as how transformer-based GANs perform on various datasets; How fast TransGAN can be compared to ConvNets-based GAN; How it can be scaled-up to higher-resolution image generation tasks.

摘要翻译:最近对 Transformer 的爆炸性兴趣表明,它们有潜力成为计算机视觉任务(例如分类,检测和分段)的强大“通用”模型。但是,Transformer 还能走多远——它们准备好承担一些极为困难的视觉任务,例如生成对抗网络(GAN)吗?在这个报告中,我将介绍TransGAN,这是一个无需卷积、仅使用Transformer构建的GAN网络。

报告将包括一些有趣的问题,如基于Transformer的GAN如何在不同的数据集上执行;TransGAN与基于ConvNets的GAN相比有多快;如何将其扩展到更高分辨率的图像生成任务中等。

论文链接:https://arxiv.org/pdf/2102.07074.pdf

代码链接:https://github.com/VITA-Group/TransGAN

观看方式:

Zoom观看:

https://zoom.com.cn/j/66843724077(无密码)

会议号:668 4372 4077

B站直播:http://live.bilibili.com/21484823

智源社区Hub直播:(点击【阅读原文】或扫描下方二维码)

(社区报名,可收到短信定时提醒)

欢迎加入知源月旦 Transformer+X 研究组

(加入研究组,共同讨论Transformer最新进展)

LIVE 预告 | TransGAN:丢弃卷积,纯Transformer构建GAN网络相关推荐

  1. 不用卷积,也能生成清晰图像,华人博士生首次尝试用两个Transformer构建一个GAN

    「attention is really becoming『all you need』.」 选自arXiv,作者:Yifan Jiang等,机器之心编译,机器之心编辑部 最近,CV 研究者对 tran ...

  2. 不用卷积也能生成清晰图像,用两个Transformer构建一个GAN

    作者|Yifan Jiang等 来源|机器之心 attention is really becoming『all you need』. 最近,CV 研究者对 transformer 产生了极大的兴趣并 ...

  3. 华人博士生首次尝试用两个Transformer构建一个GAN

    选自arXiv 作者:Yifan Jiang等 机器之心编译 机器之心编辑部 「attention is really becoming『all you need』.」 最近,CV 研究者对 tran ...

  4. Pyramid Vision Transformer(PVT): 纯Transformer设计,用于密集预测的通用backbone

    论文地址:https://arxiv.org/pdf/2102.12122.pdf 官方代码:https://github.com/whai362/PVT 目录 0.摘要 1.引言 2.相关工作 2. ...

  5. 【读点论文】EfficientFormer: Vision Transformers at MobileNet Speed,运用纯transformer架构对比卷积模型在终端上部署的推理速度

    EfficientFormer: Vision Transformers at MobileNet Speed Abstract 视觉transformer(ViT)在计算机视觉任务中取得了快速的进展 ...

  6. ICCV2021 视频领域的纯Transformer方案!谷歌提出ViViT,在多个视频分类基准上SOTA!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了纯基于Transformer的视频分类模型.本文的模型从输入视频中提取时空token,然后由一系列Transformer层进行编码.为了 ...

  7. 多因子组合构建matlab,财通-“星火”多因子专题:Barra模型深化,纯因子组合构建.pdf...

    金 融 2019 年02 月14 日 Barra 模型深化:纯因子组合构建 工 程 "星火"多因子专题报告(三) 联系信息 投资要点: 陶勤英 分析师 SAC 证书编号:S0160 ...

  8. 将卷积引入transformer中VcT(Introducing Convolutions to Vision Transformers)的pytorch代码详解

    文章目录 1. Motivation: 2. Method 2.1 Convolutional Token Embedding 模块 2.2 Convolutional Projection For ...

  9. 最新开源!TransReID:首个基于Transformer的ReID网络,各项任务全面领先!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Happy    审稿丨邓富城 转载自丨极市平台 导读 Tra ...

最新文章

  1. BZOJ 1040 骑士
  2. zabbix4.2学习笔记--新建用户组和用户
  3. 怎样提高团队管理能力5
  4. Y COMBINATOR的六大强悍女人-转自应用电台
  5. 面试题31:连续子数组的最大和
  6. spring实战笔记6---springMVC的请求过程
  7. Android studio 六大基本布局详解
  8. Delphi开发Web的MVC框架
  9. WAP1.x协议栈浅析
  10. ttest求pvalue_TTEST 在EXCEL计算出的结果是t还是p值
  11. 【Java 8 新特性】Java LocalDateTime 和 Epoch 互相转换
  12. 对华为鸿蒙开源的看法,开源鸿蒙已经不属于华为,鸿蒙发展有哪些意义?
  13. 【CAD】多段线的合并与闭合的操作与测试
  14. ToLua原理和使用教程
  15. Android中常用的设计模式
  16. vue自定义指令之防抖函数
  17. 汉字转拼音android实现(HanziToPinyin类)
  18. 【人机交互技术】人脸表情识别技术综述(感觉写的比较简单)
  19. 跨境电商ERP中的自动化 3.平台订单自动发货
  20. java实现图片转化为字符图片

热门文章

  1. mysql 百度bae乱码 php,[PHP]如何在百度(BAE)和新浪(SAE)的云平台使用PHP连接MySQL并返...
  2. jq 读取office插件_800+页麦肯锡经典图示发送!让你不用插件,轻松搞定逻辑图...
  3. linux amd显卡下载,下载:AMD显卡Linux催化剂驱动9.10版
  4. html表格编辑器退出编辑状态,html编辑器的使用方法
  5. 华为mate x2什么时候更新鸿蒙系统,华为Mate X2真机发布,今年四月可升级鸿蒙系统...
  6. c语言e怎么表示_C语言程序设计(山东联盟)
  7. 在数组中查找一个数并输出所处位置
  8. SpringBoot2.0配置redis相关
  9. Extjs 打包 failed to find any files
  10. mysql 时区与时间函数