Associative Embedding: End-to-End Learning forJoint Detection and Grouping论文笔记
一.介绍
在进行多人姿态估计的bottom-top方法时,一个直观的想法是能不能得到一个表示归属的标签,类似id,同一个人的不同点都应该是同一个标签值。但是我们无法预知输入中可能会出现几个人,而且也不能预先指定具体的标签值。为了将不同的人区分开,要怎么做呢?可以看成聚类任务,即同一个人的不同关节点的 id 值应当接近(也就是接近他们的均值),不同人之间的点的 id 值尽量远离(也就是不同人的 id 均值尽量距离远),这就是本文的思路。
本文提出了一种表示联合检测和分组输出的新方法--联想嵌入。其基本思想是为每一种检测引入一个实数, 作为 "标记" 来标识检测所属的组。换句话说, 标记将每个检测与同一组中的其他检测相关联。
embedding:可以理解为将高维的向量通过一种特定的方式(映射)变成一个低维的向量,这个低维向量包含着高维向量的信息,本文是使用一维的embedding。
具体讲解下面这篇文章讲的很清楚,结合论文来看很容易就能看懂本文的思路
[论文精读翻译]Associative Embedding: End-to-End Learning for Joint Detection and Grouping_xiaolouhan的博客-CSDN博客关联嵌入:联合检测和分组的端到端学习Alejandro Newell, Zhiao Huang, Jia Deng参考文献https://simochen.github.io/2017/12/25/associative-embedding/摘要本文介绍了一种用于检测和分组任务的监督卷积神经网络方法--联合嵌入associative embedding。以这种方式可...https://blog.csdn.net/xiaolouhan/article/details/90200024
二.结构
上图比较清楚的可以了解到是如何进行匹配的,其中y轴表示身体关节的类别,x轴表示指定的嵌入。
为了生成最终的预测,我们逐个迭代每个关节。首先考虑头部和躯干周围的关节,然后逐渐移动到四肢,从而确定顺序。我们使用来自第一个关节(例如颈部)的检测来形成我们最初检测到的人群。然后,考虑到下一个关节,比如说左肩,我们必须找出如何将其检测结果与当前人群进行最佳匹配。每个检测由其分数和嵌入标记定义,每个人由其当前关节的平均嵌入定义。
三.总结
本文的实验得到:关键点检测是网络的主要瓶颈, 而网络已经学会了产生高质量的分组。
所以多人姿态估计的bottom-top方法的重点还是在于如何提高关节点检测的准确率,本质上的方面应该是如何提高小目标检测的准确率。
Associative Embedding: End-to-End Learning forJoint Detection and Grouping论文笔记相关推荐
- Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记 引言 多输入模态有望提高模型性能,但我们实际上发现即使多模态模型 ...
- An Incentive Mechanism for Cross-silo Federated Learning: A Public Goods Perspective论文笔记
An Incentive Mechanism for Cross-silo Federated Learning: A Public Goods Perspective论文笔记 摘要 背景 贡献 介绍 ...
- (CoRL2020)DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记
(CoRL2020)DIRL: Domain-Invariant Representation Learning Approach for Sim-to-Real Transfer 论文笔记 pape ...
- A Survey on Deep Learning for Named Entity Recognition论文笔记
前言:研究课题定为特定领域的命名实体识别,所以先阅读一篇综述,在此简单记录阅读过程. 摘要 在文章中,首先介绍现有的NER资源,包括标记的NER语料库及现成的NER工具,然后对现有的工作进行了分类:输 ...
- Deep Learning on Graphs: A Survey论文笔记
Deep Learning on Graphs: A Survey 问题 术语表示 词汇说明 摘要信息 文章框架 主要内容 读出操作 什么是读出操作(readout operation) 读出操作要求 ...
- 《Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories》论文笔记
Abstract 解决的问题? 现有的视频标准训练方式每个迭代会从原始视频中采样一个clip(剪辑),然后通过这一个clip来学习video-level级别的标签.本文认为一个clip不具有足够的时间 ...
- ICCV 2017 CREST:《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记
目录 动机 主要贡献 整体框架 详细介绍 重构DCF 剩余学习 Spatial层 Temporal层 跟踪过程 实验结果 动机 本文基于DCF进行改进,摘要中提到,基于DCF的跟踪器无法受益于端到端的 ...
- ICCV 2017 《Illuminating Pedestriant via Simultaneous Detection Segmentation》论文笔记
本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.
- Recurrent Filter Learning for Visual Tracking(RFL)论文笔记
这是一篇ICCV2017的文章,文章条理清晰,通俗易懂,做以总结如下~ 本人小菜鸟一个,水平有限,如有错误恳请指正. 第一次写博客,格式可能不够完美,望海涵~ [亮点] 加了LSTM,既保留了目标空 ...
最新文章
- 星系炸弹-2015省赛C语言A组第二题
- java 处理 url_Java URL处理 - Java 教程 - 自强学堂
- 微服务架构下的安全认证与鉴权
- RxSwift之UI控件UISwitch与UISegmentedControl扩展的使用
- 易成新能加码光伏产业链 作价28.29亿收购赛维两子公司
- 【DP】小明游天界(zjoj 2149)
- kali linux改中文_kali linux 2019.4设置为中文方法
- 深入理解@Autowired注解
- [转]如何让DIV固定在页面的某个位置而不随着滚动条随意滚动
- 解决Windows和Ubuntu时间不一致的问题
- java程序中默认包含的是_在编写 Java 程序时,如果不为类的成员变量定义初始值, Java 会给出它们的默认值,下列说法中不正确的一个是( )。...
- 《神经网络与深度学习》课程笔记(3)-- 神经网络基础之Python与向量化
- WINDOWS服务器时间校对
- GJB150.5A-2009军用装备实验室温度冲击环境试验
- STM32开源代码——OLED汉字显示程序
- 8K摄像机研发之路有多难?一起了解你不知道的首款国产8K小型化广播级摄像机背后的故事
- Android中Home键的监听和拦截
- 面试系列-2 我终于弄清楚了redis数据结构之string应用场景
- 关于游戏程序员的职业规划
- 【最新干货】深信服2021届安服类笔试题