一.介绍

在进行多人姿态估计的bottom-top方法时，一个直观的想法是能不能得到一个表示归属的标签，类似id，同一个人的不同点都应该是同一个标签值。但是我们无法预知输入中可能会出现几个人，而且也不能预先指定具体的标签值。为了将不同的人区分开，要怎么做呢？可以看成聚类任务，即同一个人的不同关节点的 id 值应当接近（也就是接近他们的均值），不同人之间的点的 id 值尽量远离（也就是不同人的 id 均值尽量距离远），这就是本文的思路。

本文提出了一种表示联合检测和分组输出的新方法--联想嵌入。其基本思想是为每一种检测引入一个实数, 作为 "标记" 来标识检测所属的组。换句话说, 标记将每个检测与同一组中的其他检测相关联。

embedding：可以理解为将高维的向量通过一种特定的方式（映射）变成一个低维的向量，这个低维向量包含着高维向量的信息，本文是使用一维的embedding。

具体讲解下面这篇文章讲的很清楚，结合论文来看很容易就能看懂本文的思路

[论文精读翻译]Associative Embedding: End-to-End Learning for Joint Detection and Grouping_xiaolouhan的博客-CSDN博客关联嵌入：联合检测和分组的端到端学习Alejandro Newell, Zhiao Huang, Jia Deng参考文献https://simochen.github.io/2017/12/25/associative-embedding/摘要本文介绍了一种用于检测和分组任务的监督卷积神经网络方法--联合嵌入associative embedding。以这种方式可...https://blog.csdn.net/xiaolouhan/article/details/90200024

二.结构

上图比较清楚的可以了解到是如何进行匹配的，其中y轴表示身体关节的类别，x轴表示指定的嵌入。

为了生成最终的预测，我们逐个迭代每个关节。首先考虑头部和躯干周围的关节，然后逐渐移动到四肢，从而确定顺序。我们使用来自第一个关节（例如颈部）的检测来形成我们最初检测到的人群。然后，考虑到下一个关节，比如说左肩，我们必须找出如何将其检测结果与当前人群进行最佳匹配。每个检测由其分数和嵌入标记定义，每个人由其当前关节的平均嵌入定义。

三.总结

本文的实验得到：关键点检测是网络的主要瓶颈, 而网络已经学会了产生高质量的分组。

所以多人姿态估计的bottom-top方法的重点还是在于如何提高关节点检测的准确率，本质上的方面应该是如何提高小目标检测的准确率。

Associative Embedding: End-to-End Learning forJoint Detection and Grouping论文笔记相关推荐

Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记引言多输入模态有望提高模型性能,但我们实际上发现即使多模态模型 ...
An Incentive Mechanism for Cross-silo Federated Learning: A Public Goods Perspective论文笔记
An Incentive Mechanism for Cross-silo Federated Learning: A Public Goods Perspective论文笔记摘要背景贡献介绍 ...
（CoRL2020）DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记
(CoRL2020)DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记 pape ...
A Survey on Deep Learning for Named Entity Recognition论文笔记
前言:研究课题定为特定领域的命名实体识别,所以先阅读一篇综述,在此简单记录阅读过程. 摘要在文章中,首先介绍现有的NER资源,包括标记的NER语料库及现成的NER工具,然后对现有的工作进行了分类:输 ...
Deep Learning on Graphs: A Survey论文笔记
Deep Learning on Graphs: A Survey 问题术语表示词汇说明摘要信息文章框架主要内容读出操作什么是读出操作(readout operation) 读出操作要求 ...
《Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories》论文笔记
Abstract 解决的问题? 现有的视频标准训练方式每个迭代会从原始视频中采样一个clip(剪辑),然后通过这一个clip来学习video-level级别的标签.本文认为一个clip不具有足够的时间 ...
ICCV 2017 CREST：《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记
目录动机主要贡献整体框架详细介绍重构DCF 剩余学习 Spatial层 Temporal层跟踪过程实验结果动机本文基于DCF进行改进,摘要中提到,基于DCF的跟踪器无法受益于端到端的 ...
ICCV 2017 《Illuminating Pedestriant via Simultaneous Detection Segmentation》论文笔记
本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.
Recurrent Filter Learning for Visual Tracking(RFL)论文笔记
这是一篇ICCV2017的文章,文章条理清晰,通俗易懂,做以总结如下~ 本人小菜鸟一个,水平有限,如有错误恳请指正. 第一次写博客,格式可能不够完美,望海涵~ [亮点] 加了LSTM,既保留了目标空 ...

Associative Embedding: End-to-End Learning forJoint Detection and Grouping论文笔记

一.介绍

二.结构

三.总结

Associative Embedding: End-to-End Learning forJoint Detection and Grouping论文笔记相关推荐

最新文章

热门文章