全新思路！阿里达摩院将Transformer引入在线行为检测！ICCV2021

点上方计算机视觉联盟获取更多干货

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：Sophia知乎

https://zhuanlan.zhihu.com/p/410187732

985人工智能博士笔记推荐

周志华《机器学习》手推笔记正式开源！附pdf下载链接，Github2500星！

本文是阿里达摩院在ICCV2021发表的一篇高质量OadTR框架论文。文章引入Transformer用于在线行为检测（Online Action Detection），作者及团队解决的是在线行为检测任务，该任务旨在对于输入的在线视频流，识别出当前正在发生的行为类型（包括行为和背景）

文章链接：arxiv.org/pdf/2106.11149

开源链接：github.com/wangxiang123

摘要：

当前的主流方法大部分都基于RNN（Recurrent Neural Network）来对时间依赖性进行建模，并取得了令人印象深刻的效果，如Temporal recurrent networks (TRN) [1]和Information Discrimination Network (IDN) [2]等。然而，这种RNN-like的架构存在非并行性和梯度消失的问题。

因此，很难对其框架结构进行优化，因此可能导致性能不理想，同时计算效率也不高。为了进一步提高性能，我们需要设计一个新的高效且易于优化的框架。

为此，我们提出使用Transformers。Transformers具有强大的自注意模块，具有长程时序建模的能力，同时在自然语言处理领域和各种视觉任务中都取得了显著的成绩。并且已有的工作已经证明，Transformers具有比RNN架构更好的收敛性，并且Transformers也具有更高计算效率。

对比

算法流程

和其他方法对比结果

OadTR在HDD、TVSeries、THUMOS14三个数据集

一些可视化结果：

在现实生活中具有巨大的应用前景，如自动驾驶，视频监控，异常行为检测等领域，这项任务受到了越来越多的关注

往期论文推荐：

高效新思路！实例分割算法！腾讯、华科出品！入选ICCV 2021!

超强总结！456篇参考文献！《计算机视觉对抗攻击与防御》综述！

最新变体Transformer！∞-former！DeepMind 出品！

最新综述！深度神经网络视觉识别！329篇文献！西安交大、清华等出品

超强YOLOP！CVPR 2022领域主席团队开源！全景感知多任务SOTA！

Fastformer：史上最强最快Transformer！清华、MSRA出品！

脑洞大开！油画渲染的新算法 Paint Transformer！ICCV2021 Oral！

首次！阿里达摩院将Pure Transformer 应用于目标重识别ReID！

ResNet超强变体CoTNet！一种新的Transformer计算机视觉模块！

新模型！Conformer！Transformer与CNN的超强融合！

ImageNet又被Long-Short Transformer 霸榜！

新想法！华科、清华、康奈尔联合提出“圆形卷积”！聚合方形和圆形优势

表现SOTA！DetCo算法：目标检测无监督对比学习

新模型SkipNet在ImageNet分类任务大放光彩！优化损失函数！

高效神器！小目标检测迎来曙光！SSPNet金字塔网络！川大出品

超强！MDETR：基于Transformer的端到端目标检测神器！开源！

优秀！一种巧妙组合算法YOLOX！旷视重磅开源！

新突破！Swin-UNet：基于纯 Transformer 结构的医学图像分割网络

-------------------

END

--------------------

我是王博Kings，985AI博士，华为云专家、CSDN博客专家（人工智能领域优质作者）。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容，欢迎一起交流学习、生活各方面的问题，一起加油进步！

我们微信交流群涵盖以下方向（但并不局限于以下内容）：人工智能，计算机视觉，自然语言处理，目标检测，语义分割，自动驾驶，GAN，强化学习，SLAM，人脸检测，最新算法，最新论文，OpenCV，TensorFlow，PyTorch，开源框架，学习方法...

这是我的私人微信，位置有限，一起进步！

王博的公众号，欢迎关注，干货多多

手推笔记：

增长见识：