点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

标题&作者团队

1. 论文简要

在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。

代码和模型的下载地址:https://github.com/facebookresearch/VideoPose3D

2. 背景介绍

我们的工作重点是视频中的三维人体姿态估计。我们以最先进的方法为基础,然后将问题描述为2D关键点检测三维姿态估计,这种方法可能导致不同的3D姿态对应相同的2D关键点。早期为解决这一问题主要通过RNN构建时序信息,但是由于RNN的串行结构无法多帧并行处理,因此本文提出一个完整的卷积架构,在二维关键点上执行时序卷积用于视频中准确的三维姿态预测,该方法兼容任何二维关键点检测器,并能通过空洞卷积有效地处理较大的上下文信息。与依赖RNNs的方法相比,它在计算复杂度和参数数量方面都提供了更高的精度、简单性和效率。

在构建一个高度精确和高效的架构之后,接下来需要关注训练数据,本文引入了半监督训练的方案,因为3D姿态的监督学习需要大量的带标签的训练数据,收集3D人体姿态标签需要昂贵的动作捕捉设备和长时间录制。本文的方法的灵感来自于无监督机器翻译中的循环一致性,即翻译到中间语言和翻译回原始语言的往返应该接近恒等函数。具体地说,使用现有的2D关键点检测器为未标记的视频预测2D关键点,然后预测3D姿态,最后将它们映射回2D空间中。

本文创新点有两个:(1)在网络结构方面,基于空洞时序卷积将2D关键点轨迹推理出3D人体姿态,在计算量和模型参数量上远小于基于RNN的模型;(2)在训练数据方面,采用半监督学习解决数据量不足的问题,相比于其他方法,该方法仅仅需要相机内部参数(数据增强的过程中需要相机参数对ground-truth姿态进行几何变换),不需要2D标签或带有外部摄像机参数的多视图图像。

image-20201126105219606

3. 相关工作

在深度学习成功之前,大部分的三维姿态估计方法都是基于特征工程和骨骼和关节灵活性的假设。目前大多数的姿态估计方法是在二维姿态估计器的基础上,建立了一种新的三维姿态估计器,然后 被提升到3D空间中。

视频姿态估计,大多数以前的工作都是在单帧的背景下进行的,但最近几年利用视频的时间信息来产生更可靠的预测,并降低对噪音的敏感性。最近,有人提出了LSTM序列到序列学习模型,该模型将视频中的二维姿态序列编码为固定大小的向量,然后解码为三维姿态序列。然而,输入和输出序列具有相同的长度,2D姿态的确定性转换是更自然的选择。用seq2seq模型进行的实验表明,输出姿势在较长的序列上容易产生漂移。

4. 本文方法

4.1 时序空洞卷积模型

image-20201126112311029

我们的模型是一个具有残差结构的完全卷积的架构,它将一个2D姿态序列作为输入,并通过时间卷积对其进行转换。卷积模型允许在批处理维度和时间维度上并行化,而RNNs不能在时间维度上并行化。在卷积模型中,无论序列长度如何,输出和输入之间的梯度路径都是固定长度的,这可以缓解影响RNN的消失和爆炸梯度。卷积架构也提供了对时间感受域的精确控制,这有利于建立三维姿态估计任务的时间依赖模型。此外,使用空洞卷积能够对长期依赖关系进行建模,同时也保持较高计算效率。(上图表示带有2D关键点的243帧图像,经过网络推理得到3D关节点)

4.2 半监督训练方法

image-20201126113555405

本文引入了一种半监督训练方法,以提高真实的标记数据不足的情况下的模型的准确性。我们利用未标记的视频,然后结合一个现成的2D关键点检测器,来扩展监督损失函数一个反向投影损失项。解决了未标记数据的自动编码问题:编码器(位姿估计器)根据二维关节坐标进行三维位姿估计,解码器(投影层)将三维位姿投影回二维关节坐标。当来自解码器的二维关节坐标远离原始输入时,训练就会受到惩罚。

上图将监督组件与充当正则化器的非监督组件组合在一起。这两个目标是共同优化的,标记数据占据Batch的前半部分,未标记数据占据Batch的后半部分一半。对于标记数据,我们使用真实三维姿态作为目标,训练一个监督损失。未标记的数据用于实现自动编码器损失,其中预测的3D姿态被投影回2D,然后检查与输入的一致性。

轨迹模型,由于透视投影,屏幕上的2D姿态都取决于轨迹(人体根节点整体位置,可以理解成人体中心点)和3D姿态(所有关节点相对于根关节的位置)。目标函数为每个关节的加权平均轨迹的位置误差(WMPJPE)。

骨骼长度损失,添加一个软约束来近似匹配未标记batch的受试者与已标记batch的受试者的平均骨长度。

5. 实验论证

5.1 数据集与评价标准

数据集有两个分别是Human3.6M,HumanEva-I,评价标准是Protocol 1: MPJPE(每个关节点的平均误差), Protocol 2:P-MPJPE(与标签数据对准后的平移、旋转、缩放误差),Protocol 3:N-MPJPE(只在比例上与真实标签相匹配)

5.2 2D姿态估计

2D姿态估计网络模型:stacked hourglass detector, Mask R-CNN with ResNet-101-FPN,CPN

5.3 3D姿态估计

image-20201126140916717

image-20201126141002629

image-20201126141144006

6. 总结

介绍了一个简单的完全卷积模型用于视频中三维人体姿态估计。网络结构利用时间信息在2D关键点轨迹上进行空洞卷积。这项工作的第二个贡献是反向投影,这是一种半监督训练方法,在标记数据稀缺的情况下提高性能。该方法适用于未标记的视频,只需要内在的摄像机参数,使其在运动捕捉具有挑战性的场景中切实可行。

7. 论文复现

o_dai1

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~     

3D姿态估计|时序卷积+半监督训练相关推荐

  1. 3D姿态估计:语义图卷积SematicGCN与GAN-RepNet

    3D人体姿态估计(3 Demensional Human Pose Estimation)的目标是在单张/多张RGB图片或2D人体姿态坐标的基础上,预测人体的三维坐标.目前流行的方法包括由单张图像直接 ...

  2. AAAI论文首发:几何驱动的自监督的人体3D姿态估计方法

    徐亦达团队和北理工李侃老师的共同博士生李杨在AAAI 的发表了一篇机器学习论文,本人得到徐老师授权在本站发布论文. Geometry-driven Self-supervised Method for ...

  3. 半监督训练-思想与代码实践

    以IEEE-CIS-Fraud-Detection比赛为例 半监督训练思想: test集没有标签,咋办呢? train集先建立一个model,Score要求在0.95以上: 把该model预测得到的t ...

  4. 3D姿态估计——ThreeDPose项目简单易用的模型解析

    前言 之前写过tensorflow官方的posenet模型解析,用起来比较简单,但是缺点是只有2D关键点,本着易用性的原则,当然要再来个简单易用的3D姿态估计.偶然看见了ThreeDPose的项目,感 ...

  5. 如何解决 Iterative 半监督训练 在 ASR 训练中难以落地的问题丨RTC Dev Meetup

    前言 「语音处理」是实时互动领域中非常重要的一个场景,在声网发起的「RTC Dev Meetup丨语音处理在实时互动领域的技术实践和应用」活动中,来自微软亚洲研究院.声网.数美科技的技术专家,围绕该话 ...

  6. 3D姿态估计(GAST)

    1.下载数据集,只用到human3.6m数据集中的2D数据集和3D数据集.将数据集划分为训练集和测试集.(直接将2D数据集输入进行训练,得出的prediction和3D的groundtruth做比较) ...

  7. 可以装在手机里的3D姿态估计,模型尺寸仅同类1/7,平均关节位置误差却只有5厘米 | CPVR 2021...

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 长久以来,三维姿态估计都在追求准确性上一路狂奔. 但精度提高的同时,也带来了计算成本的上升. 而刚刚被CPVR 2021接受的论文中所提出的 ...

  8. 3D人体姿态估计论文汇总(CVPR/ECCV/ACCV/AAAI)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Vegetabird | 来源:知乎 https://zhuanlan.zhihu.com/p/ ...

  9. 自监督3D手部姿态估计方法

    作者 | 镜子@知乎 来源 | https://zhuanlan.zhihu.com/p/446726196 编辑 | 极市平台 导读 手部姿态估计任务作为一个对空间信息敏感的下游任务,任何改变空间信 ...

最新文章

  1. Go 分布式学习利器(14)-- Go语言的错误处理
  2. python【力扣LeetCode算法题库】13- 罗马数字转整数
  3. js仿QQ中对联系人向左滑动、滑出删除按钮的操作
  4. 条件随机场CRF HMM,MEMM的区别
  5. java 小坑_关于Java子父类关系的小坑
  6. JUC多线程:系统调用、进程、线程的上下文切换
  7. 深度学习(07)-- 经典CNN网络结构(Inception (v1-v4))
  8. tableau三轴合并_举个栗子!Tableau技巧(34):同一张图表如何呈现多个度量
  9. mysql join 联合查询,MySQL连接(join)查询
  10. 凝胶成像文件行业调研报告 - 市场现状分析与发展前景预测
  11. printk与syslog(至少在Redhat中是这样的)+Ubuntu下用最简单的读到/proc/kmsg
  12. Django的缓存(1)
  13. 在数据库中存储层次型数据
  14. MPMoviePlayerController 电影播放器—IOS开发
  15. Nginx常见面试题整理---40题
  16. 我的招聘网——用户登录模块设计与实现
  17. iOS 地址智能解析器(收货地址 或 寄件地址)
  18. 通俗讲解深度学习和神经网络!
  19. 希捷硬盘查询保修期限的网址
  20. 话说嵌入式软件工程师的工资待遇

热门文章

  1. ruby tk秒表的应用
  2. SVG配电站接线系统绘制
  3. AT91RM9200+pcf8563在linux2.6.20下的调试心得
  4. 4、变量和方法被static和final两个关键字修饰,为什么这么做?
  5. 千万级流量的大型分布式系统架构设计
  6. 同事把实数作为 HashMap 的key,领导发飙了...
  7. 一文讲清,MySQL的执行计划
  8. 晒一波程序员的工位,你中意哪一款?
  9. 微服务并不能解决你的烂代码问题
  10. 某百度程序员中午面试一个阿里程序员,晚上去阿里面试,面试官竟是中午那个人!...