人脸跟踪:Detect to Track and Track to Detect
github:https://github.com/feichtenhofer/detect-track
本文概览
本文使用一个简单的卷积网络模型(ConvNet)在视频序列中同时实现多目标的跟踪和检测;
本文构建了一个新颖的损失函数,包括用于单帧检测的多任务损失和用于多帧间跟踪回归损失;
本文引入相关特征用于代表同一目标在不同帧图片中同时出现以此达到跟踪的目的;
本文检测和跟踪相互辅助,同时产生高精度的检测和跟踪性能;
本文提出在多帧中同时进行目标检测和跟踪任务,其中检测部分使用R-FCN框架,跟踪部分则将基于相关和回归的跟踪思想融入到上述检测框架中;
本文网络在ImageNet VID上进行训练和检测,网络结构简单且得到了当前最好的实验效果;
相关工作
当前在视频中实现跟踪和检测的大部分方法都是基于tracking by detection的思路,即检测器检测目标,然后用跟踪器跟踪目标,当跟踪可信度较低时,用检测器辅助捕获目标,这种跟踪检测框架主要被基于单帧的目标检测方法所支配;
由于各种视频数据库(典型的为VID数据库)的出现,基于视频的目标检测方法备受关注,不用于tracking by detection框架,为视频中跟踪和检测问题提供了另一种解决思路;
VID数据库特点:数据量大(共高达130W张图片),运动模糊的图像多(更接近真实情况),分辨率低(视频中的图片往往比静态图片分辨率低),存在大量目标被遮挡的情况且目标姿态丰富(可以提高算法的鲁棒性);
当前在VID数据库上实现视频跟踪检测的绝大部分性能好的算法基本都附带复杂的后处理过程;
本文选用R-FCN为主体框架,R-FCN优点:全卷积结构,速度快分辨率高适合跟踪任务;
本文跟踪部分思想借鉴于Fully-convolutional Siamese跟踪框架和100 FPS deep regression跟踪网络;
新视频目标检测数据集:A Large High-Precision Human-Annotated Data Set for Object Detection in Video (2017) 每个图片中仅有一个物体标注;
本文算法框架概览
使用end-to-end的方式训练用于同时进行跟踪和检测的全卷积网络;
损失函数为多任务损失函数,由跟踪损失和检测损失构成;
主体网络采用ResNet-101网络,网络输出为多帧图片,提取出的特征为检测和跟踪共享;
为实现跟踪,在ResNet-101的不同尺度特征层进行帧间特征的交叉相关操作,即第t帧的第n,n+1,n+2层特征分别于第t+N帧的第n,n+1,n+2层特征做相关计算;
检测部分,在最终特征层使用ROI Pooling特征进行分类和bbox回归操作;
跟踪部分,在最终相关后的特征层使用ROI Pooling特征进行帧间的bbox变化回归估计;
实验表明,加入跟踪loss后可以提升特征学习质量,更有利于目标的检测;
扩大帧间隔后,可实现视频中快速目标跟踪检测;
本文网络结构
多帧输入,ResNet-101主干结构,R-FCN检测网络,跟踪检测共享卷积特征;
损失=检测分类损失+检测回归损失+跟踪回归损失;
RoI Pooling:同R-FCN一样,结合RPN+position-sensitive score map,得到目标类别得分和bbox回归值
RoI Tracking:输入为两帧特征(包括卷积中间层和position-sensitive score map)的相关操作后的结果,通过RPN(使用第t帧的RPN)指示经过RoI Tracking输出坐标变换关系;
网络改变:同R-FCN相同,对ResNet-101中conv5的stride由2改为1,同时使用dilated convolution方法增加感受野;
损失函数:
相关滤波跟踪:不用于经典的用于单目标跟踪的相关滤波操作,本文的相关滤波操作在多目标上进行,在特征图上所有可能的位置计算相关图;
人脸跟踪:Detect to Track and Track to Detect相关推荐
- 视频目标检测跟踪--Detect to Track and Track to Detect
Detect to Track and Track to Detect ICCV2017 https://github.com/feichtenhofer/detect-track 本文针对 ...
- html5 video播放按钮放在中间,在html5视频控制区跟踪点击播放按钮(Track clicks to play button in html5 video control area)...
在html5视频控制区跟踪点击播放按钮(Track clicks to play button in html5 video control area) 我点击了一张HTML5视频播放海报,并点击了控 ...
- 非刚性人脸跟踪 —— 人脸跟踪
人脸跟踪问题可认为是寻找一种高效和鲁棒性的方法,它能将各种面部特征的单独检测与这些特征的几何依赖性结合起来,已得到连续帧中每幅图像面部特征位置的精确估计.基于此,需仔细考虑几何依赖性的必要性.下图为用 ...
- 【安卓随笔】使用OpenCV进行人脸跟踪和自动拍照
为了满足人们不同的需求,市面上出现了各种各样的APP,随着这些年移动互联网的发展,我想再也没有人能有精力或者有必要去统计出所有应用的个数了吧.当无数种具有个性的产品百花齐放时,一些共性的需求也逐渐被人 ...
- 非刚性人脸跟踪 —— 实用工具
面向对象设计 与人脸检测和人脸识别一样,人脸跟踪也由两部分组成:数据和算法.算法通过预先储存(即离线)的数据来训练模型,然后对新来的(即在线)数据执行某类操作.因此,采用面向对象设计是不错的选择. 在 ...
- DIY人脸跟踪电风扇送女朋友(4)
成果展示: 如下视频所示为制作好的人脸跟踪电风扇 人脸跟踪风扇 相关代码已经放在百度网盘上面了. 链接:https://pan.baidu.com/s/188AylEd2QgOiA6YFv01N3A ...
- DIY人脸跟踪电风扇送女朋友(1)
女朋友的生日快到了,作为一个屌丝程序员,想要送给女朋友一个特别的礼物,最终结合现在火热的深度学习技术,选择做一个人脸跟踪电风扇,能够跟踪人脸,始终对着人脸吹,让女友无时无刻不感受到"清风徐来 ...
- 孪生神经网络_基于局部和全局孪生网络的鲁棒的人脸跟踪
论文名称 Siamese local and global networks for robust face tracking 引用:Qi, Yuankai, et al. "Siamese ...
- 开源极速的人脸跟踪-基于OpenTLD与RNet
点击我爱计算机视觉标星,更快获取CVML新技术 想必上图这个既鲁棒又快速的人脸跟踪大家都见过,我第一次看到的时候还想着,这算法厉害啊,连人物转身的那一刻都能跟踪!难道是3D的跟踪?! 但是仔细一看就哈 ...
- 人脸系列:人脸检测、人脸关键点定位、人脸优选、人脸对齐、人脸特征提取、人脸跟踪、人脸活体检测
一.一点想法 缘由:最近想整理下从事人脸方向的所有查阅过的论文,做过的相关实验,因为随着时间的推移,自己总会遗忘当初的一些想法,所以想好好整理下自己的学习笔记. 过程:本系列包括从人脸检测.人脸关键点 ...
最新文章
- python stm32-STM32F4系列使用MicroPython开发
- butter fly graph
- sealos包管理使用
- Java黑皮书课后题第2章:2.15(几何:两点间距离)编写程序,提示用户输入两个点(x1,y1)和(x2,y2),显示两点距离
- 堆的构建、堆的插入、堆的删除、堆排序
- Mac os安装SEAL
- 立刻、马上对你的电脑做这三件事!
- 滴滴网约车违规出京被罚15万 官方回应:系司乘线下协商
- 与孩子一起学编程python_与孩子一起学编程(Python读书笔记3)
- 对班级网站注册功能中密码输入运用等价类划分法设计测试用例
- VSS 和VDS 交换机区别
- MT6762 Android 8.1 移植acc+gyro二合一sensor之后,acc有数据,gyro没有数据的问题
- S32K1xx系列MCU的EEE(Emulated EEPROM)使用详解
- Vim跳转首行与尾行
- 称重传感器(体脂体重模块)应用及特点
- java+ssm基于微信小程序的游泳馆管理系统 uniapp 小程序
- C#winform中OpenFileDialog的用法
- 微软发布免费的文件恢复工具
- Excel 使用ODBC直接访问
- 英语中的九大状语从句
热门文章
- 【多线程编程学习笔记6】终止线程执行,千万别踩这个坑!
- Halcon高斯背景估计--estimate_background_illumination
- CSS flex-direction用法解释
- linux账户密码 群组放在,linux基础命令学习(四)用户与群组
- Glide加载图片完成的回调
- 《实用软件工程》导图总结
- 最合理化的中小型企业桌面虚拟化解决方案—Infortrend GSe Pro 100
- uniapp 自定义图片水印插件(任意位置) Ba-Watermark
- 乘风广告联盟系统 v6.2
- 【持续更新】Jetson Nano 人工智能机器人开发实战案例——RosmasterX3A1