基于Transform的在线目标检测(ICCV2021)

1. 原因

  1. 现阶段的在线动作检测方法倾向于应用递归神经网络(RNN)来捕获长范围的时间结构。

    但是RNN存在非平行性梯度消失的问题

  2. 提出基于transform的编解码框架OadTR来解决这个问题。

    编码器旨在捕获历史之间的关系和全局交互。

    解码器通过聚合预期的未来片段表示来提取辅助信息

  3. 在HDD,TVSeries,THUMOS14测试,比CNN有更高的训练和推理速度。


2.介绍

  1. 在线目标检测:在一段视频中正确的识别正在进行的动作,不需对未来做任何反应。

  2. 应用于自动驾驶,视频监控,异常检测。

  3. 要在视频帧到达时检测到不充分的观察,要了解长时间的时间依赖性。

(a)训练速度的比较(b)推理速度的比较 (c)THUMOS14数据集上的性能比较

  1. IDN设计了一个类似RNN的架构来编码长期的历史信息,在当前时刻进行动作识别。由于缺点,改进很难。

  2. 设计基于transform的自注意机制可以拥有长程时间建模能力,在自然语言处理和各种视觉任务获得显著成绩,比RNN架构有更好的收敛性,计算上也高效。

  3. 提出的OadTR是一种编码器-解码器架构,它可以同时学习长期历史关系和未来信息对当前动作进行分类。

    • 通过标准CNN从给定视频中提取剪辑级特征序列,
    • 将任务嵌入到剪辑级特征序列中,并将他们输入到编码器模块,
    • 通过这,任务的输出可以编码历史观察之间的全局时间关系。
    • 连接任务和解码器的输出来检测在线动作。
  4. 三个贡献:

    • 我们第一个将变压器纳入在线动作检测任务,
    • 并提出了一个新的框架,即OadTR我们专门设计了OadTR的编码器和解码器,
    • 可以聚合长期历史信息和未来预期,以改进在线行为检测;

3.相关工作

  1. 在线动作检测:给定一个实况视频流,在线动作检测旨在识别正在发生的动作,即使只能观察到部分动作。

    以前工作:

    • 提出LSTM的双流反馈网络模拟实践结果。
    • 设计一个增强的编码器-解码器网络和一个模块。
    • 集中检测动作开始和最小化识别动作开始点的延迟,
    • 操控GRU细胞来模拟过去的信息二号正在进行的动作之间的关系。
    • 受人类通常考虑未来来确定当前行动之间的关系,实验TSTM递归的预测未来信息,并将其于过去的观察相结合来确定行动。
    • 上述都是采用RNN来对动作序列进行建模。较低效,缺乏特征之间的交互,导致长期依赖的建模能力较差。
  2. 时间动作检测:时间动作检测的目标是定位未修剪视频中所有动作实例的开始时间点和结束时间点。

    以前工作:

    • 借鉴了对象检测的SSD方法,设计了具有多层特征金字塔结构的端到端动作检测网络。
    • 采用Faster-RCNN架构,提议生成子网提议分类子网
    • 高概率定位时间边界,然后将这些边界组合为建议,并通过评估建议在其区域内是否包含动作的置信度来检索建议。
    • 上述方法不能应用于在线任务中。
  3. transform:基于transform的模型在自然语言处理领域获得成功。

    • 通过transform,有效的消除了对许多手动设计组件的需要,如非最大抑制程序和锚生成。
    • 将一幅图分成16*16小块,送入编码器,语义分割,
    • 该文第一个将transform引入在线动作检测任务,与原始的自回归transform不同,OadTR采用非自回归变换器来并行生成序列提高效率。

给定输入流视频V = { ft } 0T = T,任务令牌被附加到由特征提取网络输出的视觉特征上。然后,令牌特征序列被输入到标准变换器的编码器中,以对长期历史时间依赖性进行建模。之后,OadTR的解码器并行地预测未来的上下文信息。


4.相关内容

  1. 编码器:给定一个视频流,特征提取器通过压缩空间维度来提取1D特征序列。
  2. 附加的线性投影进一步将每个矢量化的帧块特征映射到aD维特征空间,f记录得到的序列。
  3. 解码器:利用对过去信息的观察来预测将在不久的将来发生的动作,以便学习更多的区分特征。
  4. 我们的解码器在每个解码曾并行解码,允许解码器通过编码器-解码器交叉注意机制l来利用来自编码器的语义信息。
  • 训练:在OadTR中,我们主要使用编码器来识别当前帧块,使用解码器来预测未来的帧块。同时将预测结果作为辅助信息,更好识别动作。
  • 对于当前帧块的分类任务,首先将编码器中的任务相关特征与解码器中汇集预测特征连接起来。
  • 生成的要素将经过全连接层和softmax操作进行动作分类。
  • OadTR该输出下一帧的预测信息,因为离线训练期间未来信息是可用的,为了良好的特征表达,我们还对未来预测特征进行监督学习。

5.消融研究

  1. 将不带任务(token)的编码器作为基线,进一步进行实验,以评估所提出的框架的不同组件。
  • 仅编码器(基线):采用原始transform中的编码器,将其直接应用于在线动作检测任务。原始缺失task token,并且分类器被应用于变换器编码器的最后输出表示。
  • 基线(TT):基线和任务token一起,OadTR编码器,增加一个与任务相关的token,证明其重要性。
  • 基线(DE):将OadTR中的预测任务的解码器DE加入到Baseline方法中,来测试和验证解码器的功能。
  • 基线(TT+DE):该文提出的,将task token和解码器一起添加到基线中。
  1. 位置编码:见5D图,位置编码对速度提升有帮助。

  2. 多头注意力机制(multi-head self attention),head设置为4性能最好。(见5e)

  3. 查询维度:当特征维数相对较小时(例如128),模型容量有限,性能相对较差。随着特征维数的逐渐增加,模型容量增加,性能提高。(5f)

    • 超过特定值时,会发生过拟合,
  4. 一般化:为研究OadTR对许多transform变体的通用性,用稀疏trans代替标准trans。稀疏减少计算消耗,但导致性能下降

  5. 解码器步数影响:用于与预测未来的步长(2,4,6,8),实验8较好

  6. 编码层和解码层的影响:

  7. 特征聚集类型:聚合未来和当前特征的不同类型,注意到Avgpool比Maxing好,可能是预测的不同时间步长的深层语义表征都对当前分类有特定的促进作用。

6.行动预测

),实验8较好
7. 编码层和解码层的影响:
8. 特征聚集类型:聚合未来和当前特征的不同类型,注意到Avgpool比Maxing好,可能是预测的不同时间步长的深层语义表征都对当前分类有特定的促进作用。

6.行动预测

Oad在线检测tra相关推荐

  1. 实时获取ccd图像_薄膜瑕疵在线检测系统0.1mm检测精度_实时在线检测

    原标题:薄膜瑕疵在线检测系统检测精度_实时在线检测 在薄膜的实际生产过程中,由于各方面因素的影响,薄膜表面会出现诸如孔洞.蚊虫.黑点.晶点.划伤.斑点等瑕疵,严重影响了薄膜的质量,给生产商带来了不必要 ...

  2. opencv表面缺陷检测_彩钢板表面缺陷在线检测--Smart Vision

    原标题:彩钢板表面缺陷在线检测--Smart Vision 彩涂板是冶金和化工结合的产物,既有有机聚合物的良好着色性.耐蚀性,又有钢板的高强度和易加工性,这就使彩涂板具有优良的实用性.耐久性等特点.彩 ...

  3. 怎么查看WordPress主题HTML,几个WordPress 主题在线检测工具

    有时候我们访问一个站点,会发现这个站点是使用 WordPress 搭建的,而且主题非常精美.那么很多人可能就想知道这个站点使用了哪个主题模板.通常来说,稍有经验的人,右键查看源代码,找到 wp-con ...

  4. 铁路系统的在线检测系统讲座

    铁路系统的在线检测系统讲座 主讲人:倪一清(香港理工大学) 主题:铁路系统的在线监测.振动与噪声控制:地铁.市域轨道.高铁.磁悬浮列车 一.磁悬浮检测系统 基于云平台的磁浮健康检测系统除了能够实时对磁 ...

  5. 一些在线检测网站打开速度工具大分享

    一些在线检测网站打开速度工具大分享 网页载入速度对于一个网站来讲很关键,Google已经将一个网站的载入速度列入了网站关键字seo排名的考虑因素当中,也就是说如果你的网站有足够的内容,而且载入速度比别 ...

  6. wan口有流量但电脑上不了网_路由器wan口流量_双WAN口路由器配置(WAN口设置/WAN口在线检测/流量均衡控制)_路由器检测不到wan...

    双WAN口路由器配置(WAN口设置/WAN口在线检测/流量均衡控制) 不少网吧都采用了双WAN路由器的双WAN口接入设计,但是对于如何使用好这样的设备,用户有不少疑问,我们针对这种路由器中的WAN口设 ...

  7. 物联网云平台应用于远程污水在线检测

    物联网云平台应用于远程污水在线检测 一.行业现状 城市污水处理设施建设已提到了城市基础设施建设的突出位置,使城市污水处理设施建设进入了一个新的发展阶段.但目前全国各地对污染源和排污河渠的水质监测仍停留 ...

  8. 全国强制安装H6S国六柴油车载排放OBD诊断系统在线检测类终端

    2018年6月28日,生态环境部官方网站发布了"关于发布污染物排放标准<重型柴油车污染物排放限值及测量方法(中国第六阶段)>的公告. 本标准生态环境部2018年5月22日批准.自 ...

  9. 薄膜表面瑕疵在线检测系统实时检测出表面瑕疵的具体位置

    薄膜表面瑕疵在线检测系统实时检测出表面瑕疵的具体位置 导读:随着人们对产品质量要求越来越高,产品表面质量检测变得日益重要,过去很多表面缺质量测是依靠人工检测,这种检测方法效率低,受到人的情绪影响比较大 ...

最新文章

  1. python拆分excel的sheet为单文件_python拆分Excel表格并发送邮件
  2. 希捷携全线企业级解决方案出席ODCC,Exos X18与Exos 2X14硬盘斩获两项大奖
  3. 从0梳理1场数据挖掘赛事!
  4. OpenCV | OpenCV:sift,SURF 特征提取
  5. iOS 使用Instruments优化内存性能
  6. 面向对象基础及UML建模语言
  7. Fastboot Normal + Recovery
  8. Mac及Xcode常用快捷键
  9. Socket常用语法与socketserver实例
  10. suse查看mysql内存使用情况_MySQL 慢查询日志(Slow Query Log)
  11. Matlab仿真PID控制(带M文件、simulink截图和参数分析)
  12. python的json模块
  13. 严加监管是否能解决超载问题
  14. 刘意JavaSE 学习笔记 Day19-Day21——异常,IO(File类/字符流/字节流)
  15. 人工智能(AI)测试方法
  16. C++中的万能头文件
  17. cleardevice
  18. 【房屋租赁网管理系统】
  19. 注册一家互联网公司基本流程
  20. Verilog数字系统设计(夏宇闻)—课后思考题记录(上)

热门文章

  1. 去除button默认样式
  2. 深入理解JVM—满足什么条件的对象才会进入老年代?
  3. 悦刻母公司雾芯季报图解:营收10.4亿同比降38% 净利5亿
  4. Java多线程上——基本概念及操作
  5. 网站被运营商屏蔽的经理和解决方法
  6. 【开发者说】一课表,你的智能课业管理工具
  7. “我和AI抠图网站的秘密情缘“
  8. 微信小程序:最牛王者荣耀装逼神器助手微信小程序
  9. 中国电信2016年IT研发工程师笔试题
  10. 纯电阻电路的分析方法——结点电压法