点击我爱计算机视觉标星,更快获取CVML新技术


本文转载自新智元(AI_era) 。


  新智元报道  

编辑:张佳、大明

【导读】隔墙透视真的来了!近日,来自MIT的研究团队开发出一种神经网络模型,该模型可以检测到被墙壁遮挡的人体动作,在光线不足的环境下也可以准确检测。厉害得有点可怕!

通常情况下,我们通过观看来知道别人的动作。从视觉数据中自动进行动作识别的过程已成为计算机视觉界众多研究的主题。但是如果太暗,或者人被遮挡或在墙壁后面怎么办?

来自MIT CSAIL的一个华人研究团队最近发表了一篇论文,介绍了一种神经网络模型,该模型可以在光线不足的环境下检测到被墙壁遮挡的人体动作。

论文地址:

https://arxiv.org/pdf/1909.09300.pdf

先来一组动图大家感受下:

墙后动作可识别

黑暗环境可识别

他们的模型将射频(RF)信号作为输入,生成3D人体骨架作为中间表示,并随着时间的推移识别多个人的动作和互动。

多人模式可识别

通过将输入转换为基于中间骨架的表示形式,MIT的模型可以从基于视觉的数据集和基于RF的数据集中学习,并允许这两个任务互相帮助。而且证明了该模型在可见场景中达到了与基于视觉的动作识别系统相当的精度,但在人不可见的环境下仍然能够准确地工作,因此解决了超出当今基于视觉的动作识别极限的场景。

本文实现了以下几大突破:

  • 提出了第一个使用无线电信号进行基于骨架的动作识别的模型;它进一步证明了这种模型可以仅使用RF信号(如图1所示)就可以准确识别墙壁另一面的动作和相互作用,并且在极其昏暗的环境下仍可准确识别。

  • 本文提出了“骨架”作为跨模式传递与动作识别相关的知识的中间表示,并通过经验证明这种知识的传递可以提升表现。

  • 本文介绍了一个新的spatio-temporal attention模块,该模块改进了基于骨架的动作识别,而不管骨架是从RF还是基于视觉的数据生成的。

  • 它还提出了一种新颖的多提案模块,该模块扩展了基于骨架的动作识别,以检测多人同时进行的动作和互动。

图1:该图显示了他们系统的两个测试案例

左上角的图中,两个人握手,而其中一个在墙后。右上角的图中,一个人躲在黑暗中,向另一个正在打电话的人扔东西。下面两张图是由他们的模型生成的骨架表示和动作预测。

研究方法:RF-Action模型及架构

RF-Action是一种端到端的神经网络模型,可以在遮挡和不良照明的环境中检测人类行为。该模型的体系结构如图3所示。如图所示,该模型将无线信号作为输入,生成3D人体骨架作为中间表示,并随着时间的推移识别多个人的动作和交互。

该图进一步显示,RF-Action还可以获取从视觉数据生成的3D骨架。这允许RF-Action与现有的基于骨架的动作识别数据集一起训练。

图3:RF-Action架构

RF-Action从无线信号中检测人为行为。它首先从原始无线信号输入(黄色框)中提取每个人的3D骨架。然后,它对提取的骨架序列(绿色框)执行动作检测和识别。动作检测框架还可以将从视觉数据生成的3D骨架作为输入(蓝色框),从而可以使用RF生成的骨架和现有的基于骨架的动作识别数据集进行训练。

实验与结果

数据集与量度

我们使用在不同的联合交叉(IoU)阈值θ处的平均精度(mAP)来评估模型性能,取mAP在θ=0.1和θ= 0.5时的结果。

我们使用RF多模态数据集(RF-MMD)。利用无线电设备收集RF信号,并使用10个不同视角的摄像头系统收集逐帧视频。无线电设备和摄像头系统的同步差异小于10毫秒。

我们在10个不同环境中(办公室,休息室,走廊,走廊,演讲室等)对30名志愿者收集了25小时的数据,从PKU-MMD的动作集中选择35个行动(29个单一动作和6个交互动作)。每隔10分钟要求最多3名志愿者从上述集合中随机执行不同的动作。平均而言,每个样本包含1.54名志愿者,每个志愿者在10分钟内执行43项动作,每个动作耗时5.4秒。

我们使用20个小时的数据集进行训练,并使用5个小时进行测试。数据集还包含2种穿墙方案,其中一种用于训练,一种用于测试。在穿墙环境下,将摄像头放在墙的每一侧,以便可以使用无线电设备对摄像头系统进行校准,并利用可以看到人员的摄像头来标记动作。RF-MMD上的所有测试结果仅使用无线电信号,无需基于视觉的输入。

使用多视点摄像头系统提取3D骨架序列。首先利用AlphaPose处理摄像头系统收集的视频,提取多视图2D骨架。由于场景中可能有多个人,我们将每个视图的2D骨架关联起来,获得每个人的多视图2D骨架。由于摄像头系统已经过校准,因此可以对每个人的3D骨骼进行三角剖分。这些3D骨架作为我们的模型生成的中间3D骨架的监督。

最后,利用PKU-MMD数据集提供其他训练示例,可以进行动作检测和识别。该数据集中包含由51类、66个主体作出的近20000个动作,可以看出RF-Action是如何从基于视觉的示例中学习的。

定性结果

图5 RF-Action在各种条件下的输出。前两行为在可见场景中的表现。最下面的两行为在部分/完全遮挡和恶劣照明条件下的表现

与其他模型的性能比较

我们将RF-Action的性能与基于骨架的动作识别和基于RF的动作识别的最新模型进行了比较。我们将HCN模型作为计算机视觉中性能最高的基于骨架的动作检测系统的代表。目前该模型达到了此类任务下的最高性能。用Aryokee 作为基于RF的动作识别技术的最新代表模型。

据我们所知,这是过去唯一基于RF的动作识别系统,除了分类之外还执行动作检测。所有模型都在我们的RF动作识别数据集中进行了训练和测试。

由于HCN将骨架作为输入(与RF信号相反),我们为其提供了RF-Action生成的中间骨骼。这使我们可以在基于相同骨架的动作识别方面将RF-Action与HCN进行比较。

结论

本文提出了首个利用无线电信号进行基于骨架的动作识别的模型,并证明了该模型能够在极端低光环境下识别墙壁后面的动作和相互作用。新模型可以在摄像机因隐私问题或能见度低而难以使用的情况下进行动作识别。因此,它可以将动作识别带入人们的家中,并允许其集成到智能家居系统中。

论文链接:

https://arxiv.org/pdf/1909.09300.pdf


动作识别交流群

关注最新最前沿的人体动作检测与识别技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:动作)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

穿墙透视真的来了!MIT华人团队超强动作检测模型,小黑屋照样夜视相关推荐

  1. 穿墙透视算法|MIT华人Team通过墙壁和遮挡物的超强动作检测模型

    介绍 了解人们的行为和互动通常取决于看到他们.从视觉数据中自动进行动作识别的过程已成为计算机视觉界众多研究的主题.但是如果太暗,或者人被遮挡或在墙壁后面怎么办?在本文中,我们介绍了一个神经网络该模型可 ...

  2. 斯坦福用普通相机和激光笔实现“穿墙透视”,连你的证件都能看清

    点击我爱计算机视觉标星,更快获取CVML新技术 本文来自新智元. 来源:venturebeat 编辑:大明 [新智元导读]能穿墙透视的"非视距成像"技术前几年就已火过一回了,最近斯 ...

  3. MIT华人博士研究新冠遭学术霸凌!斯坦福诺奖得主:“你论文少,别说话!”...

    月石一 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一则消息在Twitter上引起了热议. MIT华人博士遭学术霸凌,而且施暴者还是诺奖得主.斯坦福教授. 只因一篇「新冠数据使用和传播」的论 ...

  4. 姚期智施尧耘获FOCS 2021时间检验奖,MIT华人摘最佳学生论文奖

    转自:量子位 计算机理论顶会FOCS 2021各项论文奖项已公布. 最佳学生论文奖被MIT华人学霸毛啸收入囊中. 而姚期智院士和达摩院量子实验室负责人施尧耘则凭借2001年发表的论文<Infor ...

  5. 姚期智施尧耘获FOCS 2021时间检验奖,MIT华人学霸毛啸摘最佳学生论文奖

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 计算机理论顶会FOCS 2021各项论文奖项已公布. 最佳学生论文奖被MIT华人学霸毛啸收入囊中. 而姚期智院士和达摩院量子实验室负责人施尧 ...

  6. NeurIPS'22杰出论文奖:3项研究出自华人团队,AlexNet获时间检验奖

    Pine 发自 凹非寺 量子位 | 公众号 QbitAI 就在今天,NeurIPS 2022杰出论文奖公布了!与它一同公布的还有数据集和测试基准(Datasets & Benchmarks)最 ...

  7. 【GAN】GAN 也可以大幅压缩,来自MIT 韩松团队的最新研究!算力消耗不到1/9,现已开源!...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! GAN 也可以大幅压缩,MIT 韩松团队的最新研究让众多研究者们为之一振. 生成模 ...

  8. 不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 这,或许是现在跟Siri交流最潮的方式了-- 只需要动动嘴皮子,就能让它under你的control. 没错,就是不需要出任何声音的那种. 这就是 ...

  9. 这个最新无人车模拟环境,让仿真路测效率提升数千倍!华人团队提出,登上Nature子刊...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 150亿英里,这是独步全球的自动驾驶公司Waymo的模拟测试里程. 但是这还不够. 有业内人士估计,要完全证明一个算法的安全可靠,模拟测试 ...

最新文章

  1. C++深拷贝与浅拷贝
  2. js传入参数为字符串问题
  3. AI预测RNA结构登上Science封面,论文一作已成立药物公司开始招人
  4. Python 技术篇-百度语音合成SDK接口调用演示
  5. 最初步软件需求说法的简单调查报告
  6. QEMU 网络虚拟化
  7. Spring Cloud的核心成员、以及架构实现详细介绍
  8. windows 10 64位安装Python3.6.4
  9. visual stadio.net已检测到web服务器运行的不是asp.net1.1版故障的排除
  10. 进程间通信------共享内存
  11. 清除计算机用户缓存,如何在Windows 7中清除内存缓存,释放电脑空间?
  12. QA | 关于手持式频谱仪,您想了解的那些技术问题(一)
  13. ps做手机计算机界面,【炼真金】PS如何做出这种有厚度的手机APP 界面图
  14. angular获取当前路由信息
  15. perl安装的详细步骤
  16. h5案例分享 华谊电影《老炮儿》约战
  17. Kunbernetes——二进制单节点部署
  18. 微信公众号 语音转文字api_原来微信不仅能实现语音转文字,还能实现文字转语音!你还不知吗...
  19. Ubuntu 下重启网络的方法
  20. 如何有效实现软件的需求管理 - 1

热门文章

  1. 机器学习笔记III: 基于支持向量机的分类预测
  2. python dataframe转置_Dataframe数据的增删改查,对齐(相加),转置,按值(索引)排序
  3. python获取类的类属性_在python中获取类和实例的属性
  4. oracle 创建更新定时任务,oracle 创建定时任务
  5. python xml实例_python解析xml文档实例
  6. linux查看shell类型与版本号,在Linux命令行下查询当前所使用的shell版本与种类的方法...
  7. 在JupyterNotebook中使用多个Python环境
  8. IAR astyle代码美化
  9. 12 DOM操作的相关案例
  10. javaee 第五周作业