转自:机器之心

自2017 年 6 月谷歌发布论文《Attention is All You Need》后,Transformer架构为整个NLP领域带来了极大的惊喜。

随着技术的发展,Transformer 不仅成为自然语言处理领域的主流模型,还开始了向其他领域的跨界。

特别是在近几个月,Transformer 开始大量应用于计算机视觉领域的研究,甚至有取代卷积网络的趋势。2020 年 5 月,Facebook AI 实验室推出Detection Transformer(DETR),用于目标检测和全景分割。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架, 在大型目标上的检测性能要优于 Faster R-CNN。2020 年 10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。

而后,Transformer在图像合成、点云处理、视觉 - 语言建模等领域的研究如雨后春笋般喷涌而出。由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。甚至不久之前,谷歌大脑研究员 David Ha 发推表示:Transformer 是新的 LSTM。

为了方便读者们了解Transformer在CV领域的前沿研究,为大家提供更多洞见。机器之心策划了「Transformer is all you need?」线上圆桌主题活动,邀请业内做Transformer CV研究的学者们一起讨论相关话题。

本活动主要分为三个环节:每位嘉宾10分钟的研究介绍,40分钟的圆桌讨论以及20分钟在线答疑。

嘉宾简介

翟晓华,ViT共同一作,现任瑞士苏黎世谷歌大脑团队Staff Researcher,研究方向为特征学习、深度学习、人工智能。他于2014年在北京大学王选计算机研究所获得博士学位。他负责的大规模迁移学习算法「Big Transfer (BiT)」基于亿级规模图像数据来训练模型,在超过二十个视觉任务上取得了很好的效果;作为共同一作,他提出的「Vision Transformer (ViT)」将Transformer模型应用于图像识别,利用更少的计算资源取得了与计算机视觉领域的主流模型CNN相当的效果,该工作已被多家媒体报导(包括美国《财富》杂志、机器之心等);这两个特征学习项目及模型已开源,在GitHub上共获得3000个星标。他提出的「S4L」学习框架将自监督学习应用于半监督学习,该思想已被自监督学习领域广泛采纳和应用。他是「Compare GANs」项目的主要贡献者,在Github上获得1700个星标。他共同创建了「The Visual Task Adaptation Benchmark (VTAB)」项目,这是一个多样、真实、具有挑战性的评测基准,用于评测未见任务小样本条件下的特征学习,包括生成式模型、自监督学习、半监督学习和监督学习。

他发表了多篇国际顶级期刊和会议论文,包括ICLR、ICML、CVPR、ICCV、ECCV、AAAI和IEEE TCSVT。2012年作为彭宇新教授团队的核心成员参加由美国国家标准技术局(NIST)举办的TRECVID中的INS比赛,并获得国际第一名。他是IEEE TPAMI、TIP、TMM、ICLR、ICML、CVPR、ECCV、ICCV、AAAI和ACM MM等国际顶级期刊和会议的审稿人。

  • ViT论文:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

  • 链接:https://arxiv.org/abs/2010.11929

王云鹤,IPT和TNT作者,2018年于北京大学智能科学系博士毕业,加入华为诺亚方舟实验室,负责能耗高效的计算机视觉算法的研发以及前沿算法的探索。至今共发表学术论文50余篇,包含TPAMI、NeurIPS、ICML、SIGKDD、CVPR、ICCV等。多项技术应用在华为产品中。

  • IPT论文:Pre-Trained Image Processing Transformer

  • 链接:https://arxiv.org/pdf/2012.00364.pdf

  • TNT论文:Transformer in Transformer

  • 链接:https://arxiv.org/pdf/2103.00112.pdf

朱锡洲,D-DETR作者,商汤研究院高级研究员。2020年,朱锡洲在中科大郭百宁教授和王永教授的指导下获得博士学位。在此期间,他参与了中科大与微软亚研院的联合博士培养计划。他目前的研究重点是面向高级视觉的深度学习,尤其是语义分割和目标检测。

  • D-DETR论文:Deformable DETR: Deformable Transformers for End-to-End Object Detection

  • 链接:https://arxiv.org/abs/2010.04159

时间与流程

时间:北京时间3月25日19:30-21:00

  • 19:30-19:40,翟晓华介绍ViT;

  • 19:40-19:50,王云鹤介绍IPT、TNT;

  • 19:50-20:00,朱锡洲介绍D-DETR;

  • 20:00-20:40,圆桌讨论,主持人:机器之心;

  • 20:40-21:00,观众 QA。

直播间:https://jmq.h5.xeknow.com/s/2gqDz9

欢迎添加群助手微信,邀请您加入大佬云集-TransFormer&CV交流群!

???? 长按识别添加,邀请您进群!

今晚,圆桌讨论Transformer跨界CV任务相关推荐

  1. 语言模型GPT跨界CV,OpenAI揭示强算力Transformer具有通用性

    2020-06-18 13:23:31 金磊 贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 生成文字的AI和生成图像的AI,竟然是同一个,人工智能要实现通用(AGI)了吗? 语言模型G ...

  2. MSRA的Transformer跨界超越CNN,还解决了计算复杂度难题

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 谈到Tr ...

  3. AI都会写灵魂Rap了?Transformer跨界说唱,节奏、流畅度都不在话下

    视学算法报道 转载自:机器之心 编辑:杜伟.蛋酱 Rapper 要酝酿一整天的歌词,AI 或许几分钟就能写出来. 给你一段 Rap,你能看出这是 AI 写的吗? 仔细品味,也能发现这段词中的美中不足之 ...

  4. 热门的模型跨界,Transformer、GPT做CV任务一文大盘点

    作者|陈萍 来源|机器之心 可能大家心里都有一种错误认知,做自然语言处理任务的模型不能够用来进行计算机视觉任务.其实不然,现阶段已出现好多研究,它们通过算法的改进,将在 NLP 领域表现良好的模型,如 ...

  5. NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?

    机器之心报道 机器之心编辑部 在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...

  6. NLP/CV模型跨界,视觉Transformer赶超CNN?

    在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...

  7. NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI NLP的 ...

  8. 今年AI论文8大领域突破:特斯拉自动驾驶入选,视频博主最利好,跨界输出很潮流...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自动驾驶.图像生成.2D转3D-- 2021年,哪些AI论文最火?又是哪些论文最具突破性? 最近一位ÉTS研究生.YouTube博主总结了今 ...

  9. 联接新机遇,跨界赢未来,OFweek 2017中国物联网大会圆满落幕

    近日,2017中国物联网大会"在中国深圳召开,会议以"万物互联新机遇,跨界创新赢未来"为主题. 近日,由OFweek中国高科技行业门户主办,OFweek物联网承办的&qu ...

最新文章

  1. 汉语分词工具的研发-----
  2. vim-go开发环境安装
  3. BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
  4. HBase源码分析之HRegion上compact流程分析(三)
  5. 链表打印从尾到头打印链表
  6. python中安装opencv一直说不是内部或外部文件_Window系统下Python如何安装OpenCV库
  7. mvc html.hidden,ASP.Net MVC Html.HiddenFor有错误的值
  8. Android系统对话框
  9. 学习clojure(2)
  10. 【每日算法Day 78】面试经典题:能说出全部四种方法,不录用你都不可能!
  11. kpi绩效考核流程图_某集团公司完整KPI绩效考核方案(PPT)
  12. 两块stm32单片机串口通信讲解
  13. QIUI囚爱男用APP远程贞操锁2.0 破解不完全指南(附破解工具)
  14. 11-OAuth2.0实战:网关层统一认证授权
  15. 一个高中生的编程自学经历
  16. Android百度AI植物识别教程,微信开发+百度AI学习:植物识别(示例代码)
  17. UBOOT----基于itop4412开发板,从0开始,慢慢摸索UBOOT的启动流程和系统组织结构(一)
  18. 重新安装opencv,踩坑。
  19. 2.1_3 Oracle float number类型 详解 + 测试实例(测试小数发现BUG)
  20. Cocostudio学习笔记(2) Button + CheckBox

热门文章

  1. mac-address-table static命令的使用
  2. 通过了OCP的全部考试后的感受(ZT)
  3. oracle 条件动态视图,oracle最重要的9个动态性能视图
  4. mysql5.6怎么配置_MySQL 5.6和5.7怎么进行最优配置的方法
  5. xftp不能上传文件到服务器,xftp传文件到云服务器
  6. 助动词有哪些 do does did,本身不能单独做谓语需要与主要动词一起做谓语 情态动词must can need
  7. flask部署pytorch
  8. python直方图hist用法参数详解
  9. 查看linux文件的权限:ls -l 文件名称
  10. EhCache的特性