本文转自|OpenCV学堂

 引言 ·

前面给大家分别汇总了OpenCV中支持的图像分类与对象检测模型,视觉视觉任务除了分类与检测还有很多其他任务,这里我们就来OpenCV中支持的非分类与检测的视觉模型汇总一下。注意一点,汇总支持的模型都是OpenCV4.4 Github上已经提供的,事实上除了官方的提供的模型,读者还可以自己探索更多非官方模型支持。这里的汇总模型主要来自OpenCV社区官方测试过的。

语义分割网络

OpenCV4 DNN支持的语义分割网络FCN与ENet、ResNet101_DUC_HDC等三个语义分割模型。

FCN

其中FCN主要是基于VGG16~VGG19作为基础网络,速度很慢,该网络是在2015年时候提出,是早期很典型的图像语义分割网络,不是一个对称的卷积反卷积分割网络,在编码阶段网络过长,解码网络很少,结果堪忧!网络结构如下:

分别支持不同分辨率的上采样。

论文下载地址:

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf

ENet

ENet是一种实时语义分割网络,在2016年提出的。

论文下载地址:

https://arxiv.org/pdf/1606.02147.pdf

ResNet101_DUC_HDC

该模型在编码网络中基于残差网络与混合空洞卷积(HDC-Hybrid Dilated Convolution),在解码阶段采用密集上采样卷积(DUC-Dense Upsampling Convolution),最终实现了像素级别的图像语义分割网络。网络模型结构如下:

该论文在2017发表,论文地址如下:

https://arxiv.org/pdf/1702.08502.pdf

姿态评估

OpenCV DNN支持的姿态评估是基于OpenPose网络实现的身体与手部姿态评估,OpenPose是一个开源的姿态评估项目支持2D与3D模型的姿态评估,提供了C++/Python的API调用接口。模型可以从它github地址获得

https://github.com/CMU-Perceptual-Computing-Lab/openpose

相关的模型主要来自它们的系列论文, 姿态评估的基本原理与流程如下:

完整的姿态评估流程入上图,首先预测热图与PAF,然后进行匹配与解析,最终得到输出的姿态评估结果。相关的论文地址如下

https://arxiv.org/pdf/1812.08008v2.pdfhttps://arxiv.org/pdf/1611.08050.pdf

图像处理

OpenCV中图像处理网络支持图像色彩迁移、图像风格迁移、边缘检测。

色彩迁移:

其中灰度图像转换彩色图像的模型结构如下:

其中有个重要的输入特征点是要把RGB彩色图像转换为LAB通道图像,然后对AB输入,最后结果重新加上L分量。代码在这里

http://richzhang.github.io/colorization/

风格迁移

风格迁移网络主要是来自于2016李飞飞等提出感知损失的图像风格迁移与超分辨率论文实现的,网络结构如下:

github地址如下:

https://github.com/jcjohnson/fast-neural-style

边缘检测

OpenCV中传统的图像边缘检测算法是Canny,现在OpenCV支持基于深度学习的边缘检测算法HED,它与Canny算法的边缘提取效果对比如下:

该论文是在2015年提出的,模型结构如下:

作者选择了VGGNet作为特征提取与基础网络。

论文地址:

https://arxiv.org/pdf/1504.06375.pdf

人脸识别

人脸识别来自OpenFace,OpenFace是一种典型的移动端实时的人脸识别模型,跟它相似的还有LightCNN模型。OpenFace是基于facenet的Inception网络作为backbone网络训练生存的torch网络模型,然后基于SVM实现了分类推理,完整的OpenFace项目结构如下:

其中预处理阶段的人脸对齐示意图如下:

关于FaceNet的人脸识别论文

https://arxiv.org/pdf/1503.03832.pdf

OpenCV DNN支持的8位的量化之后的人脸识别模型,最终输出的向量是128维的,模型下载可以从Github地址:

https://github.com/cmusatyalab/openface

场景文字检测

场景文字检测来自2017年旷视科技提出的EAST场景文字检测模型,相关的模型结构如下:

最终输出的文本区域解析后处理如下:

最常见的是解析位RBOX,即带角度的旋转矩形(最小外接矩形)。

论文地址如下:

https://arxiv.org/pdf/1704.03155.pdf

最后总结一下,上述网络均支持在OpenCV4.4版本上直接推理运行,或者自定义数据学习之后的在OpenCV4 DNN部署,推理调用。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

OpenCV4中的非典型深度学习模型相关推荐

  1. 汇总 | OpenCV4中的非典型深度学习模型

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|OpenCV学堂  引言 · 前面给大家分别汇总了Open ...

  2. 看EyeEm如何在产品开发中整合、运用深度学习模型

    原文:One Model At A Time: Integrating And Running Deep Learning Models In Production At EyeEm 作者:Miche ...

  3. TensorFlow 2.X中的动手NLP深度学习模型准备

    简介:为什么我写这篇文章 (Intro: why I wrote this post) Many state-of-the-art results in NLP problems are achiev ...

  4. 香侬科技提出中文字型的深度学习模型Glyce,横扫13项中文NLP记录

    香侬科技近期提出 Glyce,首次在深度学习的框架下使用中文字形信息(Glyph),横扫 13 项中文自然语言任务记录,其中包括:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4 ...

  5. 目标检测,FFmpeg中第一个基于深度学习模型的视频分析功能

    2021年4月,终于把目标检测(object detection)加到FFmpeg upstream了,有maintainer身份加持,还是交互了将近100封邮件,花了两个多月才完成upstream, ...

  6. GitChat · 人工智能 | 如何零基础用 Keras 快速搭建实用深度学习模型

    GitChat 作者:谢梁 原文: 如何零基础用 Keras 快速搭建实用深度学习模型 关注微信公众号:GitChat 技术杂谈 ,一本正经的讲技术 [不要错过文末活动] 前言 在这篇小文章中,我们将 ...

  7. 用于阿尔茨海默症分期早期检测的多模态深度学习模型

    目前大多数阿尔茨海默症(AD)和轻度认知障碍(MCI)研究使用单一数据模式来预测,例如AD的分期.多种数据模式的融合可以提供AD分期分析的整体视图.因此,我们使用深度学习对成像(磁共振成像(MRI)) ...

  8. OpenCV-图像着色(采用DNN模块导入深度学习模型)

    作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 实现原理 图像着色最早是应用在图像修复方面,将一些过去的黑白旧照根据预设色盘上色,得到色彩饱满的 ...

  9. PyInstaller打包深度学习模型代码详细教程

    前言:由于工作需求,需要使用Pyinstaller库将Python脚本打包成exe文件,特此花几天时间查找资料,进行实验.将过程做个梳理,记录下来,方便自己和他人日后查询. 目录 一.安装PyInst ...

最新文章

  1. 零起点学算法24——求正弦和余弦
  2. 时髦的互联网公司都在用什么技术?
  3. MySQL连接问题: MySQLNonTransientConnectionException:Communications link failure during rollback()
  4. RF中alert的处理
  5. 无图形界面下控制台操作Virtualbox
  6. 美国-5大牛校--8条小牛--14好校--18很不错的大学
  7. 算法-排序-基数排序(对任意整数排序)
  8. 获取系统信息1——linux系统中的时间
  9. html中如何显示纯文本,从Html中取出纯文本
  10. html表格制作应该注意什么软件,html表格制作
  11. 图片、照片相似度批量对比
  12. 照片怎么转换成pdf?
  13. python 实现 Cmn 的排序 阶乘
  14. win10安装账户卡住_简单几步解决win10安装卡死在用户名的问题
  15. 用python 打印等腰三角形
  16. java爬取闲鱼商品信息(一)
  17. 进入centos命令行的方式
  18. openvas linux/window漏洞扫描和整改
  19. 安卓关于健身的代码_亲子运动健身新玩法,娱乐享瘦两不误,让孩子不再沉迷电子产品...
  20. uni-app 页面生命周期

热门文章

  1. Andraoid 状态栏透明的方法
  2. Source Insight 基本使用(1)-使用Source Insight查看Android Framework 源码
  3. Android程序的反编译对抗研究
  4. .NET Reflector反编译的方法
  5. Linux free命令详解(转)
  6. Linux必学的系统管理命令
  7. 网络传输数据格式的选择
  8. 别让低效努力,毁了你
  9. 敏捷估算和计划的12条知道原则
  10. 别再问我 new 字符串创建了几个对象了!我来证明给你看!