最近遇到同一环境下,拍摄多张图片,检测结果存在差异的问题,故调研,考虑使用融合多帧信息去解决上述问题,发现这篇论文,该算法适用于我当前的问题,更适用于从事监控领域的同学,算法细节不赘述,看算法主体思路:

算法前半部分与双阶段RPN网络基本无异, 只是输入为多帧图片,得到若干anchor box的featrues,其中关键帧提取出n个,关键帧与其他帧共m个,此处双阶段检测相比于单阶段在视频信息融合上体现出了优势,即可以提取语义特征后接融合算法,接下来就是融合RPN的信息,论文中使用了attention机制,为了减少运算和存储负担,先对RPN特征进行pooling,此处操作和SEblock很像,之后通过前向得到q,k,v,q由关键帧得到,字典k则由所有帧(上下文帧以及关键帧)前向得到,接下来的操作在我看来具有很强的可解释性,通过q与k相乘,很好的查找了上下文特征与关键帧特征相关联的信息,并得到高权重,最后对v加权,投影后再叠加到关键帧的RPN特征上。

这种通过attention融合第一阶段特征进行视频分析相似的论文还有Object Detection in Video with Spatial-temporal Context Aggregation,Memory Enhanced Global-Local Aggregation for Video Object Detection,在我看来这几篇基本是一个意思,但谷歌的这篇论文写的不错,另外两篇notation满天飞,看着烦,只粗读

Context R-CNN一种基于注意力机制的视频检测算法相关推荐

  1. 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

    笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...

  2. 空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...

    本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...

  3. 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...

    雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局.正当我们觉得小米会不会只是蹭"人工智能"热点的时候,小米的这篇论文证明了自己真的 ...

  4. Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

    本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员--童湛&南京大学计算机科学与技术系硕士研究生--谈婧的Talk将准时 ...

  5. mpeg b帧 编码 matlab,一种基于压缩域的镜头检测算法

    文章编号: 1673- 5196( 2008) 06- 0097- 05 一种基于压缩域的镜头检测算法 摘要: 针对传统的非压缩域镜头检测算法数据量大.运算量大和效率低的缺点, 提出一种基于压缩域的镜 ...

  6. 4种基于像素分割的文本检测算法

    摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响.一般场景下,可以通过对通用目标检测算法进行配置修改,来实现对文本行的检测定位.本文主要介绍基于像素分割的文本检测算法. 本文分享自 ...

  7. 基于注意力机制的lstm实现_一种基于注意力机制的自动标点引擎的测试体验

    报告 我们基于深度学习的自动标点引擎,在合作团队的帮助下实现于2018年,论文已在今年发表.当时使用循环神经网络(RNN)中的双向长短时记忆(Bi-LSTM)作为特征提取器.这几年来,注意力机制开始取 ...

  8. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

  9. 【文献阅读笔记】之基于注意力机制的深度学习路面裂缝检测

    中文,计算机辅助设计与图形学学报,第 32 卷 第 8 期,2020 年 8 月. DOI: 10.3724/SP.J.1089.2020.18059 摘要: 为实现自动准确地检测路面裂缝, 提升路面 ...

最新文章

  1. C#中Encoding.Unicode与Encoding.UTF8的区别
  2. PatBlt - [Daliy APIs]
  3. mysql中不要 秒的函数_Mysql中日期和时间函数应用不用求人 | 很文博客
  4. linux cnc 软件手册,最新LINUXCNC源程序原理说明.docx
  5. 网络拓扑结构_全球网络拓扑测绘这样来实现
  6. c语言语法大全,oc语言基本语法汇总分析
  7. ORACLE数据库无法执行UPDATE
  8. 电路里的希腊字母读音
  9. pic单片机流水灯循环右移c语言,PIC单片机流水灯程序
  10. JEECMS V8.1常用标签举例
  11. 多云管理平台解决方案
  12. C语言十进制转八进制
  13. 2022“高考记忆” 已打包完成,请查收!
  14. 谷歌学术导出参考文献(BibTeX)报错 403
  15. 腾讯云tcp架构认证适合什么人群?费用是多少?需要什么资质能力?
  16. 几款优秀的中文字体设计
  17. 侯捷C++->三大函数:拷贝构造、拷贝赋值、析构
  18. 某查查请求头随机加密参数
  19. Mac 关闭顽固的开机启动程序 Open at Login
  20. 非上市公司的期权激励方案

热门文章

  1. 输入一个字母,若是小写字母,则变为大写输出,否则,原样输出。
  2. win10自带sftp服务器_FreeSSHD在Windows环境下搭建SFTP服务器
  3. 汉诺塔python非递归实现,[Python3 练习] 006 汉诺塔2 非递归解法
  4. 人体行为识别特征点提取 综述很全面
  5. Android 系统默认铃声修改 添加删除铃声
  6. android设备连接电脑无需授权
  7. HTML导出生成Word文档
  8. DAVINCI和OMAP架构的区别
  9. 【漏洞复现-maccms-命令执行】vulfocus/maccms-cve_2017_17733
  10. MT7688的openwrt下4G的移植