You Only Watch Once：实时人体动作定位网络

点击我爱计算机视觉标星，更快获取CVML新技术

今天跟大家介绍一篇YOLO风格浓郁的论文，来自慕尼黑工业大学的学者受人类视觉的启发，提出一种快速实时的视频动作定位方法You Only Watch Once（YOWO），达到了目前最好的效果，而且代码将开源。

下面为作者信息：

视频动作定位是在视频中定位出正在执行动作的主体并识别出动作的问题。

请看下面这幅动图：

很显然该问题包括：在多帧中定位主体和动作分类。

在对关键帧（当前帧）进行动作分类时，很显然要考虑之前的数据。

作者提出的算法正是在这一观察下，结合3D-CNN 提取时空信息和2D CNN 提取位置信息再特征融合，并参考YOLO检测方法提出来的。

不同于以往类似Faster R-CNN两阶段方法，先生成大量proposals，再进行分类和位置提精，YOWO在一个网络中实现了时空信息的提取和融合，易于训练，精度高，而且速度也很快。

算法架构

下图为YOWO从数据输入到输出的整个过程：

使用3D CNN对视频片段提取时空信息，使用2D CNN对关键帧提取空间信息，对得到的两部分特征进行注意力机制和通道融合（CFAM）的特征聚合，后面的过程与YOLO一样，卷积后进行分类和包围框回归。

作者提出的CFAM特征聚合方法：

开始处，红色和深蓝色代表前一阶段的两个分枝的特征拼合在一起。

实验结果

作者在UCF101-24 和 J-HMDB-21数据集上进行了实验，验证了算法各部分的有效性，并在与state-of-the-art算法的比较上，取得明显的精度改进。

上图展示了在两种度量标准下，作者提出的算法各部分都取得了精度增益。

在两个数据集上与SOTA算法的结果比较：

在Frame-mAP的度量标准下，YOWO达到了更高的精度，分别比之前的最好结果提高了3.3 和12.2 个百分点。

与其他算法相比，速度更是一大亮点：

在Titan xp GPU上，YOWO 可达到 62 fps！

以下是作者给出的一些结果：

这个问题还是蛮有意思的，把YOWO用在“打架识别”，应该很有前途^_^

论文地址：

https://arxiv.org/pdf/1911.06644.pdf

项目地址：

https://github.com/wei-tim/YOWO

（还未开源，但已经引起了很多人关注！）

动作定位识别交流群

关注最新最前沿的人体工作检测、识别、定位技术，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：动作）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

You Only Watch Once：实时人体动作定位网络相关推荐

使用OpenVINO实现人体动作识别
Paula Ramos著张晶译目录 1.1 人体动作识别背景简介 1.2 OpenVINOTM Notebook简介 1.3 动作识别模型简介 1.4 实现实时动作识别 1.4.1 下载模型 ...
基于单幅深度图像的实时人体部位动作识别(摘要+概述)
基于单幅深度图像的实时人体部位动作识别 Jamie Shotton Andrew Fitzgibbon Mat Cook Toby Sharp Mark F ...
基于Detectron2和LSTM的人体动作识别
人体动作识别通过分析视频来预测或分类视频中人物的各种动作.它被广泛应用于监测.体育.健身.防御等各个领域. 假设你想创建一个在线教授瑜伽的应用程序.它应该提供一个预先录制的瑜伽视频列表供用户观看.用户 ...
视频动作定位的分层自关注网络：ICCV2019论文解析
视频动作定位的分层自关注网络:ICCV2019论文解析 Hierarchical Self-Attention Network for Action Localization in Videos 论文 ...
Industry AI Live | 行为动作定位的算法流程介绍与分享
「Industry AI Live」是 biendata 与人工智能媒体 PaperWeekly 共同发起的学术直播栏目,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一 ...
简单的机器学习程序_人体动作识别小程序【机器学习人工智能】
人体动作识别(Human activity recognition)是健康领域一个热点问题,它通过加速度计,陀螺仪等传感器记录人体运动数据,对人体动作进行识别.最近用微信小程序做了一个动作识别的项目, ...
动作定位、检测与理解，ICCV 2021 DeeperAction挑战赛开启~
本次ICCV 2021的DeeperAction挑战赛旨在推动人类动作理解领域研究从传统的动作识别转向更深入的动作理解任务,希望模型能够在不同视频中对人类动作的进行定位和详细理解. 具体来说,组织者提 ...
基于kinect的人体动作识别系统
基于kinect的人体动作识别系统(算法和代码都放出) 首先声明一下,本系统所使用的开发环境版本是计算机系统Windows 10.Visual Studio 2013.Opencv3.0和Kinect ...
CVPR 2021 | 腾讯优图20篇论文入选，含人脸识别、时序动作定位、视频动作分割等领域...
编辑丨腾讯优图AI开放平台计算机视觉世界三大顶会之一的CVPR 2021论文接收结果出炉!本次大会收到来自全球共7015篇有效投稿,最终有1663篇突出重围被录取,录用率约为23.7%.本次,腾讯优 ...

You Only Watch Once：实时人体动作定位网络

You Only Watch Once：实时人体动作定位网络相关推荐

最新文章

热门文章