来源丨机器之心

视频分割效果优于所有现有方法,这篇入选CVPR 2022的论文是用Transformer解决CV任务的又一典范。

基于注意力的深度神经网络(DNN)在NLP和CV等不同领域的各种任务上都表现出了卓越的性能。这些进展使得此类网络(如 Transformer)成为解决多模态问题的有力候选。特别是近一两年,Transformer 模型已经开始在CV任务上大展手脚,从目标识别到检测,效果优于通用的CNN视觉骨干网络。

参考视频对象分割(referring video object segmentation, RVOS)任务涉及到给定视频帧中文本参考对象实例的分割。相比之下,在得到更广泛研究的参考图像分割(referring image segmention, RIS)任务中,对象主要通过它们的外观进行参考。在RVOS中,对象可以通过它们正在执行或参与的动作进行参考。这使得 RVOS比RIS复杂得多,因为参考动作的文本表达通常无法从单个静态帧中推导出来。

此外,与基于图像的 RIS 不同,RVOS 方法可能还需要跨多个帧(即跟踪)来建立参考对象的数据关联,以处理遮挡或运动模糊这类的干扰。

为了解决这些挑战,现有 RVOS 方法往往依赖复杂的 pipeline。在被CVPR 2022接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,来自以色列理工学院的研究者提出了一种简单的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。

论文地址:https://arxiv.org/pdf/2111.14821.pdf
项目地址:https://github.com/mttr2021/MTTR
Huggingface Spaces Gradio demo:https://huggingface.co/spaces/akhaliq/MTTR

具体地,他们使用MTTR 将任务建模成序列预测问题。给定一个视频和文本查询,该模型在确定文本参考的对象之前为视频中所有对象生成预测序列。并且,他们的方法不需要与文本相关的归纳偏置模块,利用简单的交叉熵损失对齐视频和文本。因此,该方法相比以往简单的多。

研究者提出的pipeline示意图如下所示。首先使用标准的Transformer文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。然后为了确定哪个预测序列能够最好地对应参考对象,研究者计算了每个序列的文本参考分数。为此,他们还提出了一种时序分割voting方案,使模型在做出决策时专注于最相关的部分。

从实验结果来看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了+5.7和+5.0的mAP增益,同时每秒能够处理76帧。

研究者还展示了一系列不同对象之间的实际分割效果,如下穿白色T恤和蓝色短裤的冲浪者(淡黄色冲浪板)。

又如嬉戏玩闹的大小猩猩。

网友对这项研究展示的视频对象分割效果赞不绝口。有人表示,即使在重叠的对象上,分割效果也很有效。

方法介绍

任务定义。RVOS 的输入为帧序列,其中;文本查询为,这里t_i是文本中的第i个单词;大小为的感兴趣帧的子集为,目标是在每一帧中分割对象

特征提取。该研究首先使用深度时空编码器从序列 V 中的每一帧中提取特征。同时使用基于 Transformer 的文本编码器从文本查询 T 中提取语言特征。然后,将空间-时间和语言特征线性投影到共享维度 D。

实例预测。之后,感兴趣的帧特征被平化(flattened)并与文本嵌入分开连接,产生一组T_I多模态序列,这些序列被并行馈送到 Transformer。在 Transformer 的编码器层中,文本嵌入和每帧的视觉特征交换信息。然后,解码器层对每个输入帧提供N_q对象查询,查询与实体相关的多模态序列,并将其存储在对象查询中。该研究将这些查询(在图 1 和图 2 中由相同的唯一颜色和形状表示)称为属于同一实例序列的查询。这种设计允许自然跟踪视频中的每个对象实例。

输出生成。Transformer 输出的每个实例序列,将会生成一个对应的掩码序列。为了实现这一点,该研究使用了类似 FPN 的空间解码器和动态生成的条件卷积核。最后,该研究使用文本参考评分函数(text-reference score function),该函数基于掩码和文本关联,以确定哪个对象查询序列与 T 中描述的对象具有最强的关联,并将其分割序列作为模型的预测返回。

时间编码器。适合 RVOS 任务的时间编码器应该能够为视频中的每个实例提取视觉特征(例如,形状、大小、位置)和动作语义。相比之下,该研究使用端到端方法,不需要任何额外的掩码细化步骤,并使用单个主干就可完成。最近,研究者提出了 Video Swin Transformer [27] 作为 Swin Transformer 对视频领域的泛化。最初的 Swin 在设计时考虑了密集预测(例如分割), Video Swin 在动作识别基准上进行了大量测试。

据了解,该研究是第一个使用Video Swin (稍作修改)进行视频分割的。与 I3D 不同,Video Swin 仅包含一个时间下采样层,并且研究者可以轻松修改以输出每帧特征图。因此,Video Swin是处理完整的连续视频帧序列以进行分割的更好选择。

实例分割过程

实例分割过程如图 2 所示。

首先,给定 F_E,即最后一个 Transformer 编码器层输出的更新后的多模态序列,该研究提取每个序列的视频相关部分(即第一个 H × W token)并重塑为集合。然后,该研究采用时间编码器的前 n − 1 个块的输出,并使用类似 FPN 的 [21] 空间解码器 G_Seg 将它们与分层融合。这个过程产生了视频帧的语义丰富、高分辨率的特征图,表示为 F_Seg。

 
接下来,对于 Transformer 解码器输出的每个实例序列,该研究使用两层感知器 G_kernel 生成相应的条件分割核序列。

最后,通过将每个分割核与其对应的帧特征进行卷积,为生成一系列分割掩码 M,然后进行双线性上采样操作以将掩码大小调整为真实分辨率

实验

该研究在A2D-Sentences数据集上将MTTR与SOAT方法进行比较。结果如表 1所示,该方法在所有指标上都显着优于所有现有方法。

例如,该模型比当前SOTA模型提高了 4.3 mAP ,这证明了MTTR能够生成高质量的掩码。该研究还注意到,与当前SOTA技术相比,顶级配置(w = 10)的MTTR实现了 5.7 的 mAP 提高和 6.7% 的平均 IoU 和总体 IoU 的绝对改进。值得一提的是,这种配置能够在单个 RTX 3090 GPU 上每秒处理 76 帧的同时做到这一点。

按照之前的方法 [11, 24],该研究通过在没有微调的 JHMDBSentences 上评估模型的泛化能力。该研究从每个视频中统一采样三帧,并在这些帧上评估模型。如表2所示,MTTR方法具有很好的泛化性并且优于所有现有方法。

 
表3报告了在Refer-YouTube-VOS公共验证集上的结果。与现有方法[24,37]相比,这些方法是在完整数据集上进行训练和评估的,尽管该研究模型在较少的数据上进行训练,并专门在一个更具挑战性的子集上进行评估,但MTTR在所有指标上都表现出了卓越的性能。

如图 3 所示,MTTR 可以成功地跟踪和分割文本参考对象,即使在具有挑战性的情况下,它们被类似实例包围、被遮挡或在视频的广泛部分中完全超出相机的视野。

参考链接:https://www.reddit.com/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/

本文仅做学术分享,如有侵权,请联系删文。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳...相关推荐

  1. 深度学习训练的时候gpu占用0_26秒单GPU训练CIFAR10,Jeff Dean也点赞的深度学习优化技巧...

    选自myrtle.ai 机器之心编译机器之心编辑部 26 秒内用 ResNet 训练 CIFAR10?一块 GPU 也能这么干.近日,myrtle.ai 科学家 David Page 提出了一大堆针对 ...

  2. Object detection at 200 Frames Per Second - 每秒 200 帧的目标检测

    Object detection at 200 Frames Per Second 每秒 200 帧的目标检测 Rakesh Mehta and Cemalettin Ozturk United Te ...

  3. 帧缓冲区对象 FBO

    帧缓冲区对象 FBO(Frame Buffer Object). 1.FBO(framebuffer object) (我习惯于把EGL创建的framebuffer称为framebuffer,也叫做w ...

  4. GLSL着色器实现多重纹理与帧缓冲对象(FBO)

    还记得我前面几篇博客上写的东西都是将纹理直接渲染到屏幕上,就是产生一个和纹理尺寸大小相同的窗口进行渲染,那么渲染完了就正好完整的显示了纹理图案.但是在做数值计算的时候,一般是不需要输出到屏幕上的,这就 ...

  5. 单卡30秒预测未来10天全球天气,大模型“风乌”效果超DeepMind,来自上海人工智能实验室...

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 预测未来10天全球天气,仅需30秒. 这一成果来自全球中期天气预报大模型"风乌",这也是全球气象有效预报时间首次突破10天,并 ...

  6. 神经网络学习小记录72——Parameters参数量、FLOPs浮点运算次数、FPS每秒传输帧数等计算量衡量指标解析

    神经网络学习小记录72--Parameters参数量.FLOPs浮点运算次数.FPS每秒传输帧数等计算量衡量指标解析 学习前言 网络的运算时组成 我们要关注网络的什么指标 1.Parameters参数 ...

  7. 【OpenGL ES】帧缓冲区对象FBO

    1.FBO 使用OpenGL ES,一般要通过EGL来配置本地窗口系统,关于EGL的介绍可参照"[OpenGL ES]EGL简介"http://blog.csdn.net/ieea ...

  8. opengles2.0 帧缓存对象(FBO)

    opengles2.0 帧缓存对象(FBO) 帧缓存对象(fbo)主要是用于做渲染到纹理. opengles2.0渲染到纹理的方法有三种: 第一,使用glCopyTexImage2D或者glCopyT ...

  9. OpenGL帧缓存对象(FBO:Frame Buffer Object)(转载)

    原文地址http://www.songho.ca/opengl/gl_fbo.html 但有改动. OpenGL Frame BufferObject(FBO) Overview: 在OpenGL渲染 ...

  10. OpenCV使用Laplacian filtering和距离变换以及Laplacian滤波对重叠对象进行分段的实例(附完整代码)

    OpenCV使用Laplacian filtering和距离变换以及Laplacian滤波对重叠对象进行分段的实例 OpenCV使用Laplacian filtering和距离变换以及Laplacia ...

最新文章

  1. VS2012/13本地发布网站详细步骤(可带数据库)
  2. 笔记-项目沟通管理-规划沟通管理
  3. 问题总结:判断MS SQLSERVER临时表是否存在 drop table #tempcitys
  4. Android 定时器实现的几种方式和removeCallbacks失效问题详解
  5. Oracle入门(十四F)之PL/SQL定义变量
  6. ASP.NET技巧(收集)
  7. linux下mycat测试安装
  8. 网站robots协议介绍及文件写法举例
  9. Evolved Transformer
  10. 5行python代码帮你搞定百度文库复制问题
  11. 局域网 广域网 IP TCP UDP
  12. 跟随鼠标移动-demo
  13. vue 阻止输入框冒泡
  14. openwrt下增加FTP alg功能
  15. 输入的魔法师,cherry机械键盘介绍
  16. win7音量图标不见了怎么办捏
  17. 可能是最有心的微信文章排版规范
  18. 外币记账及重估总账余额表变化(下)
  19. Matlab如何调用外部函数/工具包,如何将新函数加到默认函数库中
  20. 视频GPU硬解码方案对比

热门文章

  1. 【ML】管理和跟踪机器学习实验
  2. 《大秦帝国》读书笔记
  3. 远程访问VM虚拟机方式记录
  4. 产品分析报告 | 二手市场面临着什么痛点?
  5. 理解.exe文件的结构原理即运行过程
  6. 计算机单片机考试作弊检讨书,考试作弊检讨书2000字5篇
  7. 单U盘 clonezilla 克隆ubuntu16.04系统
  8. hbuilderAnd海马玩模拟器的连接
  9. docker 启动rabbitmq 启动成功 但是访问被拒绝
  10. 机动车尾气污染物分析仪的原理