CNN与Transformer结合，东南大学提出新架构 ConvTransformer

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

研究者表示，这是卷积神经网络与 Transformer 首度结合用于视频帧合成。

深度卷积神经网络（CNN）是功能非常强大的模型，在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行，但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化，卷积神经网络在视频帧合成方面的表现并不出色。

近日，来自东南大学的研究者提出了一种新型的端到端架构，称为卷积 Transformer（ConvTransformer），用于视频帧序列学习和视频帧合成。ConvTransformer 的核心组件是文中所提出的注意力层，即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。

在实验阶段的未来帧推断任务中，ConvTransformer 推断出的未来帧质量媲美当前的 SOTA 算法。研究者称这是 ConvTransformer 架构首次被提出，并应用于视频帧合成。

论文地址：https://arxiv.org/abs/2011.10185

卷积 Transformer 架构

如图 2 所示，ConvTransformer 的整体网络 G_θG 有 5 个主要组件：特征嵌入模块 F_θF、位置编码模块 P_θP、编码器模块 E_θE、查询解码器模块 D_θD 和综合前馈网络 S_θS。

首先，特征嵌入模块嵌入输入的视频帧，然后生成表示性特征图。随后，将每个帧提取出的特征图与位置图相加，用于位置识别。然后，将位置帧特征图作为输入传递给编码器，以利用视频序列中每一帧之间的长距离序列依赖性。得到编码的高级特征图之后，将高级特征图和位置帧查询同时传递到解码器中，然后查询帧和输入视频序列之间的序列依赖性将被解码。最后，解码的特征图被馈入综合前馈网络（SFFN）以生成最终的中间插值帧或推断帧。

实验

在实验部分，研究者通过与几种 SOTA 方法进行比较来评估所提出的 ConvTransformer。最后该研究还进行了控制变量实验，以验证 ConvTransformer 中每个组件的优势和有效性。

为了创建视频帧序列的训练集，该研究利用来自 Vimeo90K 数据集的帧序列，该数据集是用于视频帧合成的新建高质量数据集，另一方面，该研究还利用其他几个广泛使用的基准进行测试，包括 UCF101、Sintel、REDS、HMDB 和 Adobe240fps。

与现有 SOTA 方法的对比

研究者将经过训练的 ConvTransformer 在几个公共基准上与 SOTA 视频插帧和视频帧推断算法进行比较，包括 DVF、MCNet、SepConv、CyclicGen、DAIN 和 BMBC。表 1 和表 2 分别说明了几种算法在视频插帧和未来帧推断方面的定量比较结果。

此外，带有缩放细节的合成图像视觉比较结果如图 1 和图 3 所示。

图 1：视频帧推断示例，上面是推断结果，中间是放大的局部细节，底部是根据实际情况计算出的遮挡图。

图 3：ConvTransformer 与其他视频插帧 SOTA 方法（DVF、SepConv、DAIN、CyclicGen、BMBC）的可视化比较结果。

end

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博的公众号，欢迎关注，干货多多

王博的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章（上）

博士笔记 | 周志华《机器学习》手推笔记第八章（下）

博士笔记 | 周志华《机器学习》手推笔记第九章

点个在看支持一下吧

CNN与Transformer结合，东南大学提出新架构 ConvTransformer相关推荐

高糊视频秒变4K，速度快了9倍！东南大学提出新的视频超分辨率系统
转载自:量子位把高糊视频变清晰,对于AI而言算不上新鲜事. 但如果是实时处理,而且速度比主流方法还快了9倍呢? 而且计算量降低了,重建图像的质量却还非常能打: 这种图像质量和速度性能之间的平衡到底是 ...
高糊视频秒变4K，速度比TecoGAN快了9倍！东南大学提出新的视频超分辨率系统
博雯发自凹非寺量子位报道 | 公众号 QbitAI 把高糊视频变清晰,对于AI而言算不上新鲜事. 但如果是实时处理,而且速度比主流方法还快了9倍呢? 而且计算量降低了,重建图像的质量却还非常能 ...
视觉架构大一统！港中文提出：Container，对CNN、Transformer和MLP-Mixer进行了大一统...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达转载自:AIWalker 大家好,我是Happy. 前段时间MLP-Mixer提出后,引发了视觉架构圈的一篇 ...
网络架构之争：三大主流架构对决，谁是王者？深入思考CNN、Transformer与MLP
作者丨happy 编辑丨极市平台本文首发于极市平台公众号,转载请获得授权并标明出处. 论文链接:https://arXiv.org/abs/2108.13002 本文是中科大&MSRA在DN ...
当CNN遇见Transformer！华为诺亚提出CMT：新视觉Backbone
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达转载自:AIWalker 标题&作者团队 CMT: Convolutional Neural Net ...
超越最新无监督域自适应方法，研究人员提轻量CNN新架构OSNet
作者 | Kaiyang Zhou, Xiatian Zhu, Yongxin Yang, Andrea Cavallaro, and Tao Xiang 译者 | TroyChang 编辑 | Ja ...
ICCV 2021 | 国科大提出首个CNN和Transformer双体主干网络！Conformer准确率高达84.1%！...
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达转载自:新智元 | 来源:arxiv 编辑:好困 Priscilla ...
NeurIPS2021 港大腾讯AI Lab牛津提出：CARE，让CNN和Transformer能在对比学习中“互帮互助”！...
关注公众号,发现CV技术之美本文分享NeurIPS 2021 论文『Revitalizing CNN Attentions via Transformers in Self-Supervised V ...
太强啦！华为诺亚ViG架构媲美CNN、Transformer（重磅开源）
来源:机器之心华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络.将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transform ...

CNN与Transformer结合，东南大学提出新架构 ConvTransformer

CNN与Transformer结合，东南大学提出新架构 ConvTransformer相关推荐

最新文章

热门文章