点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

论文:https://arxiv.org/pdf/2012.11866

1.介绍

人类行为识别旨在了解人类的行为,并为行为指定标签,例如,握手、吃东西、跑步等。它具有广泛的应用前景,因此在计算机视觉领域受到越来越多的关注。人类行为可以使用各种数据模态来表示,如RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi,这些数据模态在不同的场景下具有不同的优势。因此,现有的论文试图采用不同的数据模态来研究不同类型的行为识别方法。

在本文中,我们从模态的角度,对当前基于深度学习的行为识别方法进行了全面的综述。具体来说,

(1)我们回顾了基于单模态的行为识别方法,这些模态有RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi。

(2)我们回顾了基于多模态的行为识别方法,并将其分为多模态融合和跨模态协同学习两种类型。

(3)我们回顾了最新和最先进的深度学习方法,并在几个基准数据集上对现有方法及其性能进行了全面比较。

2.「数据模态」都有哪些?

在本文中,我们主要回顾了基于RGB、骨架、深度、红外序列、点云、事件流、音频、加速信号、雷达和WiFi模态的行为识别方法。其他的数据模态,如角速度信号、射频、肌电图等等,也可被用于行为识别。

TABLE 1

Action samples of different data modalities (with pros and cons).

(1)RGB视频:行为识别领域中最常见的数据模态,被广泛地应用于视觉监视、自主导航等应用中。对于RGB模态,最常见的三类深度学习网络是双流2D CNN,RNN,和3D CNN。

(2)骨架序列:编码人体关节的轨迹,当动作执行不涉及物体或场景上下文时简洁高效。对于骨架模态,最常见的三类深度学习网络是CNN,RNN,和GCN。

(3)深度图:提供了可靠的人体三维结构和几何形状信息。

(4)红外序列:不依赖外部环境光,适用于黑暗环境中的行为识别。

(5)点云:获取目标的三维结构和距离信息,在机器人导航和自动驾驶中得到广泛应用。

(6)事件流:事件相机的异步输出,保留了主体的运动信息,避免过多的背景视觉冗余。

(7)音频:用于时间序列中的动作定位。

(8)加速信号:用于细粒度的行为识别。

(9)雷达:对光照和天气条件变化具有鲁棒性,可保护隐私,可用于穿越墙壁的行为识别。

(10)WiFi:最常见室内无线信号类型之一,主要使用信道状态信息(CSI)进行行为识别。

3.「多模态」方法有哪些?

在现实生活中,人们往往以多种认知方式感知环境。同样,多模态机器学习是一种旨在处理和关联来自多个模态信息的建模方法。通过综合各种数据模态的优势和能力,多模态机器学习通常可以提供更健壮和更准确的行为识别结果。多模态学习方法主要分为两种,即融合和协同学习。

融合是指将来自两种或两种以上模态的信息整合进行训练和推理,例如,音频数据可以作为骨架模态的补充信息来区分“拍盘子”和“拍袋子”动作。

协同学习是指不同数据模态之间的知识迁移,例如,骨架数据可以作为辅助模态,使模型能够从RGB视频中为行为识别提取更多的判别特征。同时,协同学习还适用于现实生活中某些模态缺失的情况。

4.「数据集」有哪些?

近些年来,大量的行为识别数据集被提出以训练和评估各种方法,我们总结了适用于不同模态的基准数据集,并提供了其相关属性。更多的不同模态方法的性能比较可见论文。

5.结语

行为识别是近些年来备受关注的重要研究领域,各种具有不同特征的数据模态被研究使用。虽然已有大量的行为识别工作被提出,但在(1)数据集、(2)多模态学习、(3)低成本计算、(4)动作预测、(5)小样本学习、(6)非监督和半监督学习等方面仍需要进一步的探索,我们相信行为识别将在未来发挥更加关键的作用。

后台回复:多模态行为识别综述,即可下载上述论文

点击下方卡片并关注,了解CV最新动态

重磅!CVer-行为识别交流群成立

扫码添加CVer助手,可申请加入CVer-行为识别方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如行为识别+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲点击上方卡片,关注CVer公众号

整理不易,请给CVer点赞和在看

SUTD提出:基于不同数据模态的行为识别最新综述!381篇文献相关推荐

  1. 【深度学习】顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

    Human Action Recognition from Various Data Modalities: A Review 论文:https://arxiv.org/abs/2012.11866 ...

  2. 顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 Human Action Recognition from Var ...

  3. 骨骼的动作识别数据集_基于骨骼数据的人体行为识别

    基于骨骼数据的人体行为识别 摘要 人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点. 对人体动作姿态进行自动识别将带来一种全新的交互方式, 通过身体语言即人体的姿态和动 作来 ...

  4. 跨模态行人重识别研究综述

    跨模态行人重识别研究综述 刘天瑜,刘正熙 摘要:传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景.随着视频安防监控要求的不断提升,为了克服可见光摄像头无法全天候进行使 ...

  5. 可见光-红外的跨模态行人重识别最新研究成果汇总

    目录 Introduction Challenges Advantages Methods [2020 AAAI] Cross-Modality Paired-Images Generation fo ...

  6. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  7. 基于深度学习的行人重识别研究综述 罗浩.ZJU

    基于深度学习的行人重识别研究综述 罗浩.ZJU 1 个月前 原文:独家 | 基于深度学习的行人重识别研究综述 作者:罗浩 备注:为雷锋网/AI 科技评论写的一篇文章,原文没有公式编辑器,所以在知乎上发 ...

  8. 基于深度学习的行人重识别研究综述

    前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术.广泛被认为是一个图像检索的子问 ...

  9. 基于深度学习的行人重识别研究综述 罗浩.ZJU

    转载自:https://zhuanlan.zhihu.com/p/31921944 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机 ...

最新文章

  1. 怎样更好地团队协作沟通?
  2. 使用MapReduce程序完成相关数据预处理(二)
  3. 平均年薪50.8万,这个证书真!香!
  4. 「无心插柳柳成荫」的乔姆斯基 | 追溯 AI 大师系列
  5. 小程序工程化实践(上篇)-- 手把手教你撸一个小程序 webpack 插件,一个例子带你熟悉 webpack 工作流程...
  6. CodeWarrior 初探(1) USBDM 芯片检测
  7. 什么是缓存?为什么要使用Redis?
  8. 分布与并行计算—生产者消费者模型实现(Java)
  9. arch linux 安装xfce_华为荣耀Magicbook安装Manjaro系统指北
  10. eclipse显示行号和Tab、空格、回车
  11. vim java自动补全_java – eclim没有在vim中做自动完成
  12. 【劲峰论道时空分析技术-学习笔记】5 时空格局和异常探测
  13. WebSocket消息推送(实现进行聊天)和WebSocket简介
  14. 淘宝、百度、腾讯、京东 那不得不说的四角恋故事
  15. bcm5396交换机级联配置_工业以太网交换机的专业术语汇总
  16. 各个编程语言都有哪些「黑点」?
  17. 超逗、雷人的冷幽默四则
  18. WindTerm:新一代开源免费的终端工具,GitHub星标6.6k+,太酷了
  19. 极地漩涡袭美中西部致多人死 芝加哥六成航班取消
  20. Arch linux uefi 启动盘,用UEFI安装ArchLinux 20140105

热门文章

  1. 2021年茶艺师(初级)找解析及茶艺师(初级)复审模拟考试
  2. Android_叠加绘图
  3. 掺镝的钒磷酸钇(Y(P,V)O4:Dy3+)稀土发光材料|镝掺杂钒磷酸钇(Y(P,V)O4:Dy^3+)纳米晶-齐岳生物wyf
  4. iceberg的调研报告
  5. STM32的RTC晶振不起振的原因及解决方法
  6. 2019.12.14
  7. Origin | 自定义函数图像绘制
  8. “神经猫”等HTML5游戏未来将何去何从?
  9. LTS 轻量级分布式任务调度框架(Light Task Schedule) - 推酷
  10. oracle 10g和11g的互相导入和导出