点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

都说Transformer适合处理多模态任务。

这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。

这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:

可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型

目前,相关论文已被CVPR 2022接收,研究人员来自以色列理工学院。

主要思路

根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。

现有的方法通常依赖复杂的pipeline来解决,很难形成一个端到端的简便好用的模型。

随时CV和NLP领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态Transformer模型进行有效处理。

为此,他们提出了这个叫做MTTR (Multimodal Tracking Transformer)的新架构,将RVOS任务建模为序列(sequence)预测问题。

首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。

接着,通过多模态Transformer对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。

接下来,生成相应的mask和参考预测序列。

最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。

具体来说,对于Transformer输出的每个实例序列,系统会生成一个对应的mask序列。

为了实现这一点,作者采用了类似FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。

而通过一个新颖的文本参考分数函数,该函数基于mask和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。

精度优于所有现有模型

作者在三个相关数据集上对MTTR进行了性能测试:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前两个数据集的衡量指标包括IoU(交并比,1表示预测框与真实边框完全重合)、平均IoU和precision@K(预测正确的相关结果占所有结果的比例)。

结果如下:

可以看到,MTTR在所有指标上都优于所有现有方法,与SOTA模型相比,还在第一个数据集上提高了4.3的mAP值(平均精度)。

顶配版MTTR则在平均和总体IoU指标上实现了5.7的mAP增益,可以在单个RTX 3090 GPU上实现每秒处理76帧图像。

MTTR在JHMDBs上的结果表明MTTR也具备良好的泛化能力。

更具挑战性的Refer-YouTube-VOS数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值。

MTTR在这些指标上全部“险胜”。

一些可视化结果表明,即使在目标对象被类似实例包围、被遮挡或完全超出画面等情况下,MTTR都可以成功地跟踪和分割文本引用的对象。

最后,作者表示,希望更多人通过这项成果看到Transformer在多模态任务上的潜力。

最最后,作者也开放了两个试玩通道,感兴趣的同学可以戳文末链接~

 Colab试玩效果

试玩地址:
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing

论文地址:
https://arxiv.org/abs/2111.14821

代码已开源:
https://github.com/mttr2021/MTTR

点个在看 paper不断!

打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能,精度优于现有模型丨CVPR 2022...相关推荐

  1. 文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法

    引用格式:翟一琛,顾佼佼,宗富强,姜文志.融合注意力机制的 IETM 细粒度跨模态 检索算法[J/OL].系统工程与电子技术. https://kns.cnki.net/kcms/detail/11. ...

  2. 视频人像分割算法—C++推理(视频抠图 图片抠图)

    本文章记录对RobustVideoMatting模型进行C++推理的过程. 文章目录 相关参考 一.基于lite.ai.toolkit的RVM推理编译 1.源码编译 二.推理功能改进与完善 1.修改背 ...

  3. 整个世界都是你的绿幕:这个视频抠图换背景的方法着实真假难辨

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 绿幕是影视剧中抠图.换背景的利器,但如果不在绿幕前拍摄,我们还能完 ...

  4. 没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在阳台上给小姐姐拍个视频: 再把她P到喷泉广场: 需要几步? 现在,无需绿幕,AI 就能搞定这件事. 就像这样,随便用手机给小姐姐拍张照片, ...

  5. 绿幕背景视频抠图替换

    首先说明,参考的博客 https://blog.csdn.net/linqianbi/article/details/78975998 https://blog.csdn.net/linqianbi/ ...

  6. 整个世界都是你的绿幕:这个视频抠图换背景的方法太惊艳了!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自:机器之心  |  参与:Racoon.张倩 绿幕是影视剧 ...

  7. AI视频抠图换背景,无需「绿幕」,也可达到影视级效果

    相信很多小伙伴在平时拍摄剪辑视频的时候,都会遇到视频背景杂乱的情况吧,这个时候都会想到像抠图一样,将视频中的人像抠出来换一个背景!那么具体应该怎么操作呢? 其实这个问题很简单,利用AI智能视频抠图,无 ...

  8. java绿幕抠图_无需绿幕的全自动视频抠图工具|unscreen

    早前我有分享过用AI算法去除图片背景的方法(AI抠图),最近看到群里有人分享了一个视频抠图的网站.同大家一起分享下. ​ 抠图是一个相关行业的必备技能,但是大部分小白只有看大声炫技的份.此时多么希望能 ...

  9. CVPR2021系列(四)—— 深度视频抠图

    01 背景 抠图是图像处理里的重要技术之一,被广泛应用于图片/视频编辑,影视制作等实际场景中.传统的抠图技术利用图像的色彩等底层特征来分离前景,但其效果受制于底层特征的有限表达能力.随着深度学习的发展 ...

最新文章

  1. 机器学习Basics-第十一期-循环神经网络RNN
  2. linux常用命令简介- 用户管理及文件属性
  3. 本地配yum(没有网络)
  4. Caffe学习系列(13):数据可视化环境(python接口)配置
  5. android 当中taskAffinity属性与launchMode相关
  6. linux ppc64 是什么,docker - 在(模拟)PPC64 Linux上的backtrace()segfaults - 堆栈内存溢出...
  7. 大神把可视化放进数据地图里,原来不敲代码一样能做
  8. 自己动手清除电脑中的***程序
  9. java commons logging_Java日志介绍(5)-commons-logging
  10. DocumentHelper解析xml文件
  11. [Swust OJ 632]--集合运算(set容器)
  12. file watchers怎么默认打开_python默认字典defaultdict进阶
  13. 开发APP软件需要哪些编程语言和开发环境
  14. correlation 蒙特卡洛_蒙特卡洛模拟法
  15. Euraka配置instanceid显示ip
  16. 用Python打造一款智能语音聊天小软件!
  17. oracle 取现在的时间,Oracle 获取当前日期及日期格式
  18. 分析在智能语音对话流程
  19. 小米为什么要“抛弃”红米?
  20. PDF分割合并工具哪个好用?职场达人必备这一款

热门文章

  1. 生成24位字符串ID__IdGenerator.java
  2. (拆点+最小路径覆盖) bzoj 2150
  3. VS2010 MFC中改变static字体颜色、大小、背景颜色(自定义类),及手动关联变量的方法...
  4. 一步步写自己SqlHelper类库(五):Command对象
  5. 1组合逻辑电路--多路选择器与多路分解器
  6. 刚开始Windows Mobile的开发,请大家多多关照
  7. java的父类java.lang.object_根父类:java.lang.Object
  8. 中关村开源创新大赛-达闼赛道如火如荼进行中
  9. 基于 OpenCV 的面部关键点检测实战
  10. 残差网络的前世今生与原理 | 赠书