第六章 总结与展望

现代的物体检测系统普遍要求速度和精度兼得,还要保证实时性。这是由社会进步带来的必然变革。计算机视觉应用在实际生产生活中最广泛的领域之一就是视频和监控。公安利用监控抓捕嫌犯,交警利用监控维护交通秩序,车站机场利用监控保障安全,工人利用监控促进生产等等。对于个人来说,大家或多或少都在享受着计算机视觉发展带来的便利。图像检测领域因为深度学习的火热而迅速增长,必将给市场带来一场场的变革。

6.1 本论文的主要贡献

本文重点实现了一个基于深度神经网络的实时物体检测系统。为了完成这个系统,论文进行了一系列相关的工作。首先论文将传统检测算法与神经网络算法进行一系列对比,指出了传统检测算法的不足,并确定了论文以神经网络算法为理论依据的基调。第二章对神经网络算法(尤其是卷积神经网络)进行了详细的归纳总结,并介绍了几种经典的卷积结构和它们用到的几种优化方法。第三章论文根据残差网络(ResNet)提出的“跳跃连接”所带来的启示,详细介绍了基于“跳跃连接”的密集连接网络(DenseNet),对其加以改进能取得与最优网络相当的准确率,却拥有更少参数量的结构。第四章首先分析了当前主流的目标检测算法存在的问题,接着分析了SSD检测算法为何能提高检测的速度和精度,接着又分析了SSD中还存在哪些问题以及具体的优化方法,最终实现了一个以DenseNet为基础网络,并使用“跳跃连接”作用于预测网络上的改进版SSD算法。使得检测的效率更进一步,同时解决了以往检测小目标难的问题。第五章详细阐述了基于深度神经算法的实时检测系统的具体设计和工作流程,最终获得了一个高可用的实时检测系统。

本论文主要有以下几个创新点:
1、采用了“跳跃连接”的思想实现了深度卷积网络,并尝试不同的优化策略。“跳跃连接”能够有效的在网络中增加上下文信息,能尽量避免信息在层间传递时产生的特征丢失。实验表明,这种思路是正确的。
2、使用了端到端的SSD目标检测算法,摒弃了以往算法中冗余的计算量和不可靠的特征提取。
3、改进了SSD的基础网络。论文使用优化的DenseNet作为SSD的基础网络以提取更加可靠的深度特征。
4、改进SSD的预测网络。使用“跳跃连接”的方式对预测特征图进行特征提取,增加了预测网络的上下文信息,增强了预测的可靠性。

6.2 下一步工作的展望

尽管论文做了很多研究并最终实现了一个实时的检测系统。但是在研究的过程中我们也了解到,图像检测这一领域并没有一个万能的解决问题的方法。虽然现在的方法能达到一个不错的效果,我们仍然相信不久的以后就会有更加高效的方法诞生,甚至推翻现在的方法。所以,我们在下一步的工作研究中应当保持谦虚的心态,进一步扎实深度学习的理论知识,持续关注深度学习领域的热点,洞察深度学习的发展趋势,积极投身于深度学习的理论研究和实际应用开发。

致 谢

三年硕士生涯即将结束,回顾这些日子,本人学习到很多实用的知识,聆听到很多切身的教诲,交了很多知心的朋友,明白了很多道理。思来想去,心里唯有感谢!
感谢电子科技大学和信息软件工程学院,给了我一个获取知识的高平台。母校独特的魅力让我为之陶醉,母校永远是我的骄傲。无论在哪里,我都是一个成电人。
感谢导师####,能成为您的学生是我莫大的荣幸。####严谨的治学态度,热情随和的生活态度总是能给我指引正确的方向。人生得一良师岂不快哉!祝愿####开心常伴,幸福安康!
感谢同教研室####老师,####老师,####老师等等。感谢你们在我的科研工作中给予的关怀和指导。我们共同的努力使得教研室像家一样温暖。
感谢一起学习,一起玩耍的伙伴们。你们在科研中时常迸发出绝妙的灵感让我受益匪浅,生活中我们是友爱的伙伴。离别在即,愿你们前程似锦!
感谢父母,你们是我永远的精神支柱。
感谢女友####,你一直以来的支持鼓励和陪伴让我心安。

参考文献

[1] Pitts W. A logical calculus of the ideas immanent in nervous activity[M]// Neurocomputing: foundations of research. MIT Press, 1988:115-133.
[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.
[3] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.
[4] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:1-9.
[5] Albright T D, Stoner G R. Visual Motion Perception[J]. Proceedings of the National Academy of Sciences of the United States of America, 1975, 232(6):76.
[6] Bobick A F, Davis J W. The Recognition of Human Movement Using Temporal Templates[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2001, 23(3):257-267.
[7] Wang Y, Huang K, Tan T. Human Activity Recognition Based on R Transform[C]// Computer Vision and Pattern Recognition, 2007. CVPR '07. IEEE Conference on. IEEE, 2007:1-8.
[8] Chen H S, Chen H T, Chen Y W, et al. Human action recognition using star skeleton[C]// ACM International Workshop on Video Surveillance and Sensor Networks. ACM, 2006:171-178.
[9] S. Belongie, J. Malik, J. Puzicha.Shape matching and object recognition using shape contexts[J]. IEEE Trans, 2002,24(4):509-522.
[10] Blank M, Gorelick L, Shechtman E, et al. Actions as Space-Time Shapes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(12):2247-2253.
[11] Batra D, Chen T, Sukthankar R. Space-Time Shapelets for Action Recognition[C]// Motion and video Computing, 2008. WMVC 2008. IEEE Workshop on. IEEE, 2008:1-6.
[12] Yilmaz A, Shah M. A differential geometric approach to representing the human actions[J]. Computer Vision and Image Understanding, 2008, 109(3):335-351.
[13] Ke Y, Sukthankar R, Hebert M. Spatio-temporal Shape and Flow Correlation for Action Recognition[J]. 2007, 82(1):1-8.
[14] Laptev I. On space-time interest points[J]. International journal of computer vision, 2005, 64(2-3): 107-123.
[15] Dollár P, Rabaud V, Cottrell G, et al. Behavior recognition via sparse spatio-temporal features[C]//Visual Surveillance and Performance Evaluation of Tracking and Surveillance, 2005. 2nd Joint IEEE International Workshop on. IEEE, 2005: 65-72.
[16] Bregonzio M, Gong S, Xiang T. Recognising action as clouds of space-time interest points[C]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009: 1948-1955.
[17] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014:568-576.
[18] Xu W, Xu W, Yang M, et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,35(1):221-231.
[19] Papageorgiou C P, Oren M, Poggio T. A General Framework for Object Detection[C]// International Conference on Computer Vision. IEEE, 2002:555-562.
[20] Dalal N, Triggs B. Object detection using histograms of oriented gradients[C]//Pascal VOC Workshop, ECCV. 2006.
[21] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[22] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008: 1-8.
[23] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.
[24] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//european conference on computer vision. Springer, Cham, 2014: 346-361.
[25] Girshick R. Fast r-cnn[J]. arXiv preprint arXiv:1504.08083, 2015.
[26] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[27] Dai J, Li Y, He K, et al. R-fcn: Object detection via region-based fully convolutional networks[C]//Advances in neural information processing systems. 2016: 379-387.
[28] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[29] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[J]. arXiv preprint, 2016, 1612.
[30] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[31] Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014: 1725-1732.
[32] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.
[33] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.
[34] LeCun Y, Boser B E, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in neural information processing systems. 1990: 396-404.
[35] He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1026-1034.
[36] Xu B, Wang N, Chen T, et al. Empirical evaluation of rectified activations in convolutional network[J]. arXiv preprint arXiv:1505.00853, 2015.
[37] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. nature, 1986, 323(6088): 533.
[38] Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach[C]//Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on. IEEE, 2004, 3: 32-36.
[39] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
[40] Sak H, Senior A, Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[C]//Fifteenth annual conference of the international speech communication association. 2014.
[41] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[42] Heilbron F C, Escorcia V, Ghanem B, et al. Activitynet: A large-scale video benchmark for human activity understanding[C]//Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015: 961-970.
[43] Idrees H, Zamir A R, Jiang Y G, et al. The THUMOS challenge on action recognition for videos “in the wild”[J]. Computer Vision and Image Understanding, 2017, 155: 1-23.
[44] Yeung S, Russakovsky O, Jin N, et al. Every moment counts: Dense detailed labeling of actions in complex videos[J]. International Journal of Computer Vision, 2018, 126(2-4): 375-389.
[45] Sigurdsson G A, Varol G, Wang X, et al. Hollywood in homes: Crowdsourcing data collection for activity understanding[C]//European Conference on Computer Vision. Springer, Cham, 2016: 510-526.
[46] Ke Y, Sukthankar R, Hebert M. Efficient visual event detection using volumetric features[C]//Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on. IEEE, 2005, 1: 166-173.
[47] Yuan J, Liu Z, Wu Y. Discriminative subvolume search for efficient action detection[C]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009: 2442-2449.
[48] Rodriguez M. Spatio-temporal maximum average correlation height templates in action recognition and video summarization[J]. 2010.
[49] Jhuang H, Gall J, Zuffi S, et al. Towards understanding action recognition[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 3192-3199.
[50] Gu C, Sun C, Vijayanarasimhan S, et al. AVA: A video dataset of spatio-temporally localized atomic visual actions[J]. arXiv preprint arXiv:1705.08421, 2017.

基于神经网络的目标检测论文之结尾:总结与展望相关推荐

  1. 基于神经网络的目标检测论文之摘要:目标检测的步骤及优化策略

    摘 要 随着计算机性能的飞速提升,蛰伏已久的深度学习算法终于迎来了高速发展的时期.物体识别(也叫物体检测,目标检测)是计算机视觉领域中最有价值的研究方向之一.本论文主要研究的是卷积神经网络算法在一般场 ...

  2. 基于神经网络的目标检测论文之目标检测方法:改进的SSD目标检测算法

    4.2 改进的SSD 上一章我们了解到,物体识别检测算法是在传统CNN算法基础上加上目标区域建议策略和边框回归算法得到的.前辈们的工作主要体现在目标区域建议的改进策略上,从最开始的穷举建议框,到划分图 ...

  3. 基于神经网络的目标检测论文之目标检测系统:实时路况检测系统的设计与实现

    第五章 实时路况检测系统的设计与实现 物体识别技术被广泛应用于人们的生产生活中.随着深度学习与云计算的飞速发展,带动了物体识别技术产生质的飞跃.高分辨率图像和检测的实时性要求越来越高. 从本章开始,我 ...

  4. 基于卷积神经网络的目标检测算法

    基于卷积神经网络的目标检测算法 1 滑窗法 滑窗法的思路及其简单,首先需要已经训练好的一个分类器,然后把图片按照一定间隔和不同的大小分成一个个窗口,在这些窗口上执行分类器.如果得到较高的分数分类,就认 ...

  5. 基于深度学习的目标检测论文综述Paper Reading:A Survey of Deep Learning-based Object Detection(中文)

    摘要 介绍了文章的大致思路和结构: 1.介绍,经典的目标检测算法,数据集 2.分析比对,各种目标检测算法,包括一阶段和两阶段的 3.介绍,传统和新的应用,以及一些目标检测的其他分支 4.讨论,用目前这 ...

  6. 深度神经网络在基于视觉的目标检测中的应用

    简 介: 目标检测是计算机视觉的一个重要应用方向,深度神经网络的提出极大地帮助基于视觉的目标检测提高了准确度.自2014年以来,深度神经网络在基于视觉的目标检测中被广泛应用,出现了多种算法.本文分别讨 ...

  7. 基于深度卷积神经网络的目标检测研究综述

    基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自<光学精密工程> ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...

  8. 目标检测论文解读复现之六:基于YOLOv5的遥感图像舰船的检测方法

    目标检测论文解读复现 文章目录 目标检测论文解读复现 前言 一.摘要 二.网络模型及核心创新点 三.应用数据集 四.实验效果 五.实验结论 六.投稿期刊介绍 前言 此前出了目标改进算法专栏,但是对于应 ...

  9. 目标检测论文解读复现之一:基于改进YOLOv5的整车原木数量检测方法——TWD-YOLOv5(代码已复现)

    目标检测论文解读复现 文章目录 目标检测论文解读复现 前言 一.摘要 二.网络模型及核心创新点 三.应用数据集 四.实验效果 五.投稿期刊介绍 前言 此前出了目标改进算法专栏,但是对于应用于什么场景, ...

  10. 基于dota的目标检测(旋转框)论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

    基于dota的目标检测(旋转框)|论文阅读Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors 文章目录 ...

最新文章

  1. 基础篇:如何做一名专业的软件测试工程师
  2. makefile使用--Wall选项(二)
  3. HDU-2072 单词数 水题一枚
  4. html 页面工具,html页面工具-htmlUnit
  5. java httpclient 关闭_【Java系列007】HttpClient调用:你考虑过关闭连接、并发了吗?...
  6. 自动驾驶计算本车离期望轨迹距离的方法
  7. AIdl server端监听client是否掉线
  8. Dijkstra(狄克斯特拉)求加权重的邻接矩阵最短路径(初级版)
  9. linux核心设计ebpf,Linux eBPF介绍
  10. 批量将RGBA图片转换成RGB格式
  11. 个人收款解决方案之三方聚合收款方案
  12. 课堂笔记-爬虫beautifulsoup模块
  13. 网络文章(摘录)_顺序
  14. Matplotlib 绘制折线图 - 正余弦函数图像
  15. 用海伦公式计算三角形的周长与面积
  16. C#汽车租凭(面对对象(封装、继承,多态的应用))
  17. 中国兽医参考实验室市场趋势报告、技术动态创新及市场预测
  18. 登陆人人网爬取个人信息
  19. NXP----PF8100-PF8200芯片layout设计总结
  20. java开发台球的图片_Java模拟桌球打击处理及绘制

热门文章

  1. 数据中台POC演示流程
  2. Jmeter中大佬的大集合
  3. 他是“自由软件”之父,天才程序员,史上最伟大的黑客!最后却黯然离场
  4. 转:移动建站工具(一):分秒钟将Web网站移动化
  5. QCY T3 蓝牙耳机连接电脑 声音断续卡顿
  6. 爆破专用中国姓名排行TOP500
  7. Vue 中使用Echarts构建3D地球
  8. php 将格式化时间转化为时间戳 以及数据库中将格式化时间转化为时间戳
  9. shel文件生成和执行
  10. 会议OA项目之我的审批签字功能