点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者Dropooict |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/551589090

少样本动作识别在动作识别领域是一个大家期望达到的目标。近几年,围绕少样本动作识别这一主题出现了大量的文章。但目前的少样本动作识别工作大部分都是基于视频的,具有数据维度高,难以训练等等问题。我们组前段时间挖了个新坑,即从低维的骨骼点数据上进行动作少样本识别:“Learning Spatial-Preserved Skeleton Representations for Few-Shot Action Recognition(ECCV 2022)。

https://zhoushengisnoob.github.io/papers/DASTM.pdf

代码(已开源):

https://github.com/NingMa-AI/DASTM

该工作在较少的训练数据下取得了良好的效果。比如在NTU-RGB+D 120上我们取了100类,每个类取30个样本,组成共3000个动作的数据集,就能达到70%以上的1-shot精度。接下来将为大家简要介绍我们的主要内容,更多细节还请移步原文。

框架

我们采用原型网络(Prototypical Networks)作为基础的少样本解决方案:

的动作的原型。熟悉少样本学习的同学都知道,一旦使用了原型网络,那么后续就需要设计合适的距离度量函数 dis() 来实现具体的匹配方法,本工作也是围绕设计度量函数来展开。在基于骨骼点的动作识别中,单个动作是由多个连续的骨架图组成,如下所示:

单个动作的表示形式

对于骨架图序列,我们采用了空间匹配时序匹配结合的方式进行骨架序列度量,具体模型框架如下:

The Illustration that describes 1-shot action recognition with our framework.

该框架主要由两大部分组成:(1)空间对齐,包括基于秩最大化的解耦约束;基于注意力的空间激活模块;(2)时序对齐,直接基于DTW方法。

①基于秩最大化的解耦。我们发现采用ST-GCN编码骨骼点后,大部分骨骼点被过度平滑,造成分类性能下降。一个简单的图示如下:

左半侧是直接度量编码后的骨架,由过度平滑导致了fuzzy matching问题。右侧是我们解耦后的骨架匹配过程,有效避免了骨骼点表示的过度平滑问题,实现可解释和更高精度的匹配过程。

为了实现解耦效果,一个可行方法是减少点之间表示的线性依赖,也就相当于增大骨架矩阵的秩。另一方面骨架矩阵的秩可以用核范数做近似约束,以下就是我们在论文中基于核范数的解耦目标函数:

②基于注意力的空间激活。同时,骨架图之间的距离可以通过交叉注意力计算:

③基于DTW的时序对齐是少样本动作识别中常规操作,采用动态规划思想寻找两个序列的最优匹配方案:

实验

我们以NTU-RGB+D 120 数据集为主,从中抽样100个类,每个类抽样30/60个样本,形成NTU-T或者NTU-S数据集。另外我们也采用了Kinetics数据集作为辅助。采用标准的N-way-k-shot的协议,下图展示了我们的方法和基线方法的效果(因为缺乏已有工作,所有的基线方法都是我们自己搭建的)。

DASTM* and DASTM** denote our ablation models with Rank Maximization and Spatial Activation, respectively.

另外,我们对每一帧上的节点相似度做了热力图可视化,结果显示我们的RankMax 方法有效的缓解了骨架表示的过渡平滑情况:

总结与展望

我们为少样本动作识别任务提出了一种简单的骨架解耦表示和匹配解决方案。我们试图从解耦的角度捕获关键关节表示,从而为少样本模型带来更多的可解释性。由于减少了节点过渡平滑,在实验中我们也发现这种解耦也可带来性能上的提升。和基于视频的解决方案相比,我们首次探索了现代空间时序图卷积网络在小样本动作识别上的强大表示能力和其缺点。我们也希望这一方向能够获得更多关注,能够应用到例如医疗监护等实际的少样本场景中去。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

行为识别交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-行为识别 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如行为识别+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

ECCV 2022 | 浙大提出:基于骨骼点的少样本动作识别相关推荐

  1. 综述:基于骨骼(skeleton)的动作识别方法

    Deep learning‐based action recognition with 3D skeleton: Asurvey 1. 简介 1.1 3D Skeleton‐based Action ...

  2. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

  3. ECCV 2022 | RFLA:基于高斯感受野的微小目标检测标签分配

    前言 在本文中,作者提出了一种基于高斯感受野的标签分配(RFLA)策略用于微小目标检测.并提出了一种新的感受野距离(RFD)来直接测量高斯感受野和地面真值之间的相似性,而不是使用IoU或中心采样策略分 ...

  4. ECCV 2022 | 阿里提出:快速动作识别的时空自注意力模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 一.论文&代码 Spatiotemporal Self-att ...

  5. 基于深度学习的岩石样本智能识别研究——第九届“泰迪杯”挑战赛B题优秀作品

    1 前言 1.1 研究背景 岩石是现代建筑业和制造业的重要原材料,除了作为原材料使用以外,还可以对其进行勘探开发挖掘岩油气藏,若能智能且准确地识别岩石岩性.计算岩石含油量,这将会是一笔巨大的社会财富. ...

  6. 基于Detectron2和LSTM的人体动作识别

    人体动作识别通过分析视频来预测或分类视频中人物的各种动作.它被广泛应用于监测.体育.健身.防御等各个领域. 假设你想创建一个在线教授瑜伽的应用程序.它应该提供一个预先录制的瑜伽视频列表供用户观看.用户 ...

  7. AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”

    视线估计算法基于用户的面部图片计算其视线方向.然而,面部图片中除包含有效的人眼区域信息外,仍包含众多的视线无关特征,如个人信息.光照信息. 这些视线无关特征损害了视线估计的泛化性能,当使用环境更改时, ...

  8. ECCV 2020 | 清华提出基于循环关联的自监督行人再识别, 无标签ReID仅需两个摄像头!...

    作者:清华大学电子系三年级博士生 王重道 本文将分享来自清华大学的电子系在读博士生王重道等人在ECCV的工作.他们提出了一种简单有效的自监督行人再识别解决方案--CycAs,它的良好性能证明了针对任务 ...

  9. CVPR 2022 | 浙大提出Oriented RepPoints:旋转目标检测网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 作者:小海马 |  已授权转载(源:知乎)编辑:CVer http ...

最新文章

  1. 【学习笔记】关于DOM4J:使用DOM4J解析XML文档
  2. javascript学习之基本概念
  3. “重金求来”Alibaba技术官并发编程笔记,附Java面经
  4. python的应用不是以下哪种_python的实际应用有哪些?
  5. 【杂谈】一招,同时可视化18个开源框架的网络模型结构和权重
  6. Android深度探索读书笔记 第六章
  7. 零的突破!炸出圈的“女娲补天”教授获国家杰青!
  8. Win11有黑色边框怎么办 Win11有黑色边框的解决方法
  9. MySQLi学习笔记 :一 1. 数据库的基本概念 2. MySQL数据库软件 安装-- 卸载--. 配置 3. SQL
  10. 基于Session的认证方式_实现会话功能_Spring Security OAuth2.0认证授权---springcloud工作笔记117
  11. Hive文件存储格式和hive数据压缩
  12. 推理集 —— 现象与观察
  13. 冰点文库下载器2021新版 v3.2.16
  14. linux下qt实现vlc视频播放器,Qt编写视频播放器(vlc内核)
  15. mysql酒店客房管理系统的设计_《酒店客房管理系统设计》总结
  16. python如何去除文本标点符号_python中如何去除标点符号
  17. 锐龙5 6600H什么水平 r5 6600h核显相当于什么显卡
  18. SpringBoot整合SpringDataElasticSearch 完成地理搜索 附近人搜索 距离搜索
  19. ad stm8l 热电偶_[转载]STM8S单片机入门3(AD转换及锂电池管理)
  20. vue 解决: target is not existed: .page-component__scroll .el-scrollbar__wrap“问题

热门文章

  1. C语言之容易想到的一种数组去重排序方法
  2. 月亮?是啊,今晚的月亮真美啊。
  3. 重温来路 画蓝图 看木北如何势如破竹
  4. ubuntu16.04下teamviewer启动不显示界面
  5. OpenStack Train版搭建详解
  6. 基于MLP进行文本分类
  7. python制作安装包_Python简单安装包制作
  8. 电信大型服务器机房_上海电信全华IDC服务器机房
  9. golang递归创建文件夹
  10. 智慧校园小程序-微信小程序毕业设计(附下载链接)