计算机视觉在无人驾驶中的应用_一文了解计算机视觉的八大应用
机器学习常见的应用方向,包括以下几个:
- 计算机视觉(CV)
- 自然语言处理(NLP)
- 语音识别
- 推荐系统
- 广告
等等
更详细的可以参考之前推荐过的一个网站:
https://paperswithcode.com/sota
这个网站非常详细划分了 16 个大方向,包括总共 1081 个子方向。如果想进入机器学习领域,首先还是选择一个方向领域,然后了解和熟悉该方向领域内所需要的算法,特定的解决技巧等。
当然,这篇文章主要介绍的是计算机视觉的应用,计算机视觉也算是这 16 个方向里面最热门也是发展最成熟的其中一个方向了。
计算机视觉可以分为以下几大方向:
- 图像分类
- 目标检测
- 图像分割
- 风格迁移
- 图像重构
- 超分辨率
- 图像生成
- 人脸
- 其他
虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。
每个方向会简单介绍该方向需要解决的问题,以及推荐一些 Github 项目、论文或者是综述文章。
1. 图像分类(Image Classification)
图像分类,也可以称为图像识别,顾名思义,就是辨别图像是什么,或者说图像中的物体属于什么类别。
图像分类根据不同分类标准可以划分为很多种子方向。
比如根据类别标签,可以划分为:
- 二分类问题,比如判断图片中是否包含人脸;
- 多分类问题,比如鸟类识别;
- 多标签分类,每个类别都包含多种属性的标签,比如对于服饰分类,可以加上衣服颜色、纹理、袖长等标签,输出的不只是单一的类别,还可以包括多个属性。
根据分类对象,可以划分为:
- 通用分类,比如简单划分为鸟类、车、猫、狗等类别;
- 细粒度分类,目前图像分类比较热门的领域,比如鸟类、花卉、猫狗等类别,它们的一些更精细的类别之间非常相似,而同个类别则可能由于遮挡、角度、光照等原因就不易分辨。
根据类别数量,还可以分为:
- Few-shot learning:即小样本学习,训练集中每个类别数量很少,包括 one-shot 和 zero-shot ;
- large-scale learning:大规模样本学习,也是现在主流的分类方法,这也是由于深度学习对数据集的要求。
推荐的 Github 项目如下:
- https://github.com/weiaicunzai/awesome-image-classification
- https://github.com/e-271/awesome-few-shot-learning
- https://github.com/chichilicious/awesome-zero-shot-learning
论文:
- ImageNet Classification With Deep Convolutional Neural Networks, 2012
- Very Deep Convolutional Networks for Large-Scale Image Recognition, 2014.
- Going Deeper with Convolutions, 2015.
- Deep Residual Learning for Image Recognition, 2015.
- Inceptionv4 && Inception-ResNetv2,2016
- RexNext,2016
- NasNet,2017
- ShuffleNetV2,2018
- SKNet,2019
文章:
- 入门 | 从VGG到NASNet,一文概览图像分类网络:https://mp.weixin.qq.com/s/gwH9s1ggMTj2dJkad9wUuw
- CNN网络架构演进:从LeNet到DenseNet:https://www.cnblogs.com/skyfsm/p/8451834.html)
- 旷视南京研究院魏秀参:细粒度图像分析综述:https://mp.weixin.qq.com/s/Q5n5YNHb8MM0KJG6UdjI2A
- -小样本学习年度进展|VALSE2018:https://www.jiqizhixin.com/articles/2018-06-20-13
常用的图像分类数据集:
- Mnist:手写数字数据集,包含 60000 张训练集和 10000 张测试集。
- Cifar:分为 Cifar10 和 Cifar100。前者包含 60000 张图片,总共10个类别,每类 6000 张图片。后者是 100 个类别,每个类别 600 张图片。类别包括猫狗鸟等动物、飞机汽车船等交通工具。
- Imagenet:应该是目前最大的开源图像数据集,包含 1500 万张图片,2.2 万个类别。
2. 目标检测(Object Detection)
目标检测通常包含两方面的工作,首先是找到目标,然后就是识别目标。
目标检测可以分为单物体检测和多物体检测,即图像中目标的数量,例子如下所示:
以上两个例子是来自 VOC 2012 数据集的图片,实际上还有更多更复杂的场景,如 MS COCO 数据集的图片例子:
目标检测领域,其实有很多方法,其发展史如下所示:
从上图可以知道有几个方法系列:
- R-CNN 系列,从 R-CNN 到 Fast R-CNN、Faster R-CNN,Mask R-CNN;
- YOLO 系列,从 v1 到 2018 年的 v3 版本
Github 项目:
- https://github.com/amusi/awesome-object-detection
- https://github.com/facebookresearch/Detectron
- https://github.com/jwyang/faster-rcnn.pytorch
论文:
- R-CNN,2013
- Fast R-CNN,2015
- Faster R-CNN,2015
- Mask R-CNN,2017
- YOLO,2015
- YOLOv2,2016
- YOLOv3,2018
- SSD,2015
- FPN,2016
文章:
- 一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD--https://blog.csdn.net/v_JULY_v/article/details/80170182
- 教程 | 单级式目标检测方法概述:YOLO 与 SSD--http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650746575&idx=2&sn=68b1417873c4f0a819e112a7b8033b0b&chksm=871aeab1b06d63a707e1abad3a247d4763f1c607d8603e2e480ef58f0be22a86eb92f49c2047&scene=21#wechat_redirect
- 从 RCNN 到 SSD,这应该是最全的一份目标检测算法盘点--http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650741534&idx=1&sn=02dc164ffcedbf22124b97841ba67fe5&chksm=871adf60b06d567690fa2328b161c012a464687768e50f812a51b5533a7d68b99af1cf8f02b8&scene=21#wechat_redirect
- 从 R-CNN 到 RFBNet,目标检测架构 5 年演进全盘点--http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650749003&idx=1&sn=2bd8c165b01b66ecb2cd91a8f5e08075&chksm=871afc35b06d752353cfb426a92258bd0200a861ca452c20591953e464d129ca173061289d63&scene=21#wechat_redirect
常用的数据集:
- VOC 2012
- MS COCO
3. 图像分割(Object Segmentation)
图像分割是基于图像检测的,它需要检测到目标物体,然后把物体分割出来。
图像分割可以分为三种:
- 普通分割:将不同分属于不同物体的像素区域分开,比如前景区域和后景区域的分割;
- 语义分割:普通分割的基础上,在像素级别上的分类,属于同一类的像素都要被归为一类,比如分割出不同类别的物体;
- 实例分割:语义分割的基础上,分割出每个实例物体,比如对图片中的多只狗都分割出来,识别出来它们是不同的个体,不仅仅是属于哪个类别。
一个图形分割的例子如下所示,下图就是一个实例分割的例子,用不同的颜色表示不同的实例。
Github:
- https://github.com/mrgloom/awesome-semantic-segmentation
论文:
- U-Net,2015
- DeepLab,2016
- FCN,2016
文章:
- 深度 | 用于图像分割的卷积神经网络:从R-CNN到Mark R-CNN--https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650725842&idx=2&sn=e18500166c6108d7194588befba061a4&chksm=871b19acb06c90ba9c19ba73719d375c4fe1f378f9bccae82e508c34a20c7513c55a84d3441b&scene=21#wechat_redirect
- 综述----图像分割综述--https://blog.csdn.net/Julialove102123/article/details/80493066
- 图像语义分割综述--https://zhuanlan.zhihu.com/p/37801090
4. 风格迁移(Style Transfer)
风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。
一个风格迁移的例子如下, 图 A 是原图,后面的 B-F 五幅图都是根据不同风格得到的结果。
一般数据集采用常用的数据集加一些著名的艺术画作品,比如梵高、毕加索等。
Github:
- https://github.com/hwalsuklee/tensorflow-style-transfer
- https://github.com/cysmith/neural-style-tf
- https://github.com/lengstrom/fast-style-transfer
论文:
- A Neural Algorithm of Artistic Style,2015
- Image Style Transfer Using Convolutional Neural Networks, 2016
- Deep Photo Style Transfer,2017
文章:
- 图像风格迁移(Neural Style)简史--https://zhuanlan.zhihu.com/p/26746283
- Style Transfer | 风格迁移综述--https://zhuanlan.zhihu.com/p/57564626
- 感知损失(Perceptual Losses)--https://blog.csdn.net/stdcoutzyx/article/details/54025243
- 图像风格转换(Image style transfer)--https://blog.csdn.net/stdcoutzyx/article/details/53771471
- 风格迁移(Style Transfer)论文阅读整理(一)--https://zhuanlan.zhihu.com/p/37638591
5. 图像重构(Image Reconstruction)
图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。
一个修复的例子如下所示,总共是四张需要修复的图片,例子来自论文”Image Inpainting for Irregular Holes Using Partial Convolutions”。
论文:
- Pixel Recurrent Neural Networks, 2016.
- Image Inpainting for Irregular Holes Using Partial Convolutions, 2018.
- Highly Scalable Image Reconstruction using Deep Neural Networks with Bandpass Filtering, 2018.
- Generative Image Inpainting with Contextual Attention, 2018
- Free-Form Image Inpainting with Gated Convolution,2018
- EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning,2019
Github:
- https://github.com/1900zyh/Awesome-Image-Inpainting
- https://github.com/JiahuiYu/generative_inpainting
- https://github.com/knazeri/edge-connect
文章:
- 女神被打码了?一笔一划脑补回来,效果超越Adobe | 已开源--https://mp.weixin.qq.com/s/F8o_zBBvuWyW90uyP5bLvQ
- 2018 CVPR image inpainting--https://zhuanlan.zhihu.com/p/43802589
6. 超分辨率(Super-Resolution)
超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。一个例子如下图所示,图例来自论文”Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network”。
通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。
常用的数据集主要是采用现有的数据集,并生成分辨率较低的图片用于模型的训练。
Github:
- https://github.com/nagadomi/waifu2x—用于动漫图片的超分辨率应用,14k 的 stars
- https://github.com/alexjc/neural-enhance
- https://github.com/david-gpu/srez
论文:
- Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2017.
- Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution, 2017.
- Deep Image Prior, 2017.
- ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks,2018
文章:
- 图像超分辨率重建--https://www.jiqizhixin.com/graph/technologies/1433813c-6bb4-42dc-9a14-0057b6e6e6d3
- 超分辨率技术如何发展?这6篇ECCV 18论文带你一次尽览--http://www.zhuanzhi.ai/document/d26f8a43106d613335afd773253adee4
- 深度学习图像超分辨率最新综述:从模型到应用--http://www.zhuanzhi.ai/document/45b010616c7047cee98cbe007f0c430f
- ESRGAN:基于GAN的增强超分辨率方法(附代码解析)--https://www.jiqizhixin.com/articles/2019-01-18-16
7. 图像生成(Image Synthesis)
图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展,主要原因也是由于 GANs 是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。
一个图像生成例子如下:
Githubs:
- https://github.com/hwalsuklee/tensorflow-generative-model-collections—集成了多种 GANs 的代码
- https://github.com/hindupuravinash/the-gan-zoo—收集了当前的所有 GANs 相关的论文
- https://github.com/zhangqianhui/AdversarialNetsPapers
论文:
- Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015.
- Conditional Image Generation with PixelCNN Decoders, 2016.
- Pix2Pix—Image-to-image translation with conditional adversarial networks,2016
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, 2017.
- bigGAN—LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS,2018
文章:
- 干货 | 深入浅出 GAN·原理篇文字版(完整)--https://mp.weixin.qq.com/s/dVDDMXS6RA_NWc4EpLQJdw
- 深度 | 生成对抗网络初学入门:一文读懂GAN的基本原理(附资源)--https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650730721&idx=2&sn=95b97b80188f507c409f4c72bd0a2767&chksm=871b349fb06cbd891771f72d77563f77986afc9b144f42c8232db44c7c56c1d2bc019458c4e4&scene=21#wechat_redirect
- 独家 | GAN之父NIPS 2016演讲现场直击:全方位解读生成对抗网络的原理及未来(附PPT)--https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650721284&idx=1&sn=427e7f45c8253ab22a3960978409f5d1&chksm=871b087ab06c816c424ad03810be3e1b3aa9d6e99a5f325047796f110d178a07736f667d1a10&scene=21#wechat_redirect
- 英伟达再出GAN神作!多层次特征的风格迁移人脸生成器--https://mp.weixin.qq.com/s/bACNnUGCp-ZFTGgdFZVeWA
8. 人脸
人脸方面的应用,包括人脸识别、人脸检测、人脸匹配、人脸对齐等等,这应该是计算机视觉方面最热门也是发展最成熟的应用,而且已经比较广泛的应用在各种安全、身份认证等,比如人脸支付、人脸解锁。
这里就直接推荐几个 Github 项目、论文、文章和数据集
Github:
- https://github.com/ChanChiChoi/awesome-Face_Recognition--近十年的人脸相关的所有论文合集
- https://github.com/ageitgey/face_recognition--人脸识别库,可以实现识别、检测、匹配等等功能。
- https://github.com/davidsandberg/facenet
论文:
- FaceNet: A Unified Embedding for Face Recognition and Clustering,2015
- Face Recognition: From Traditional to Deep Learning Methods,2018
- MSFD:Multi-Scale Receptive Field Face Detector,2018
- DSFD: Dual Shot Face Detector,2018
- Neural Architecture Search for Deep Face Recognition,2019
文章:
- 人脸识别技术全面总结:从传统方法到深度学习--https://www.jiqizhixin.com/articles/2019-02-10-4
- 资源 | 从人脸检测到语义分割,OpenCV预训练模型库--https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750653&idx=2&sn=3cdbefcdd25baac7c49322a778bd63fc&chksm=871afac3b06d73d5f82a31151e8eed33e59327a2a57d7e6963f67235f2777b086cfe8cce4823&scene=21#wechat_redirect
数据集:
- LFW
- CelebA
- MS-Celeb-1M
- CASIA-WebFace
- FaceScrub
- MegaFace
10. 其他
实际上还有其他很多方向,包括:
- 图文生成(Image Captioning):给图片生成一段描述。
Show and Tell: A Neural Image Caption Generator, 2014.
- 文本生成图片(Text to Image):基于文本来生成图片。
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks, 2017.
- 图片上色(Image Colorization):将图片从黑白变为彩色图。
Colorful Image Colorization, 2016.
- 人体姿态估计(human pose estimation):识别人的行为动作
Cascaded Pyramid Network for Multi-Person Pose Estimation, 2017
还有包括 3D、视频、医学图像、问答、自动驾驶、追踪等等方向,具体可以查看下面这个网站:
https://paperswithcode.com/area/computer-vision
而如果认定一个方向,想开始学习这方面的内容,首先推荐可以先查找中文方面的综述文章或者论文,当然如果英语阅读能力比较好的,也可以查看英文的综述文章,通过看综述来查看下自己需要阅读的论文,论文推荐先看最近3-5年内的论文,太过久远的论文,除非需要更加深入了解某个算法,否则都不太需要阅读。
此外,就是需要结合实际项目来加深对算法的了解,通过跑下代码,也可以更好了解某个算法具体是如何实现的。
参考
- https://machinelearningmastery.com/applications-of-deep-learning-for-computer-vision/
- https://paperswithcode.com/sota
小结
本文简单介绍了几个计算机视觉方面的应用,包括应用解决的问题以及推荐了几个 Github 项目和论文、文章,和常用数据集。
计算机视觉在无人驾驶中的应用_一文了解计算机视觉的八大应用相关推荐
- python在无人驾驶中的应用_深度学习在无人驾驶汽车中的应用
人工智能及识别技术 本栏目责任编辑 : 唐一东 Computer Knowledge and Technology 电脑知识 与技术 第 11 卷第 24 期 (2015 年 8 月 ) 深度学习在无 ...
- odoo pivot中去掉求和_一文读懂深度学习中的卷积运算与图像处理
华为人工智能认证讲师 袁梦 在人工智能深度学习技术中,有一个很重要的概念就是卷积神经网络 CNN(Convolutional Neural Networks).卷积神经网络被广泛地运用到计算机视觉中, ...
- unity3d api 中文文档_接口文档系统-showdoc安装部署
ShowDoc简介 ShowDoc是一个开源.免费的工具 ShowDoc是一个非常适合IT团队的在线API文档,技术文档工具,它可实现实时同步,用户无需花费过多的精力维护文档. 借助ShowDoc可以 ...
- python中的映射_一文读懂Python中的映射
python中的反射功能是由以下四个内置函数提供:hasattr.getattr.setattr.delattr,改四个函数分别用于对对象内部执行:检查是否含有某成员.获取成员.设置成员.删除成员. ...
- 矩阵分析理论在实际工程中的应用_一文讲解视频智能分析技术,在文博安防工程中如何应用...
引言 视频监控系统在文博安防中的使用已经走过了几十个年的历程,从最早的进口摄像机的模拟视频监控系统到今天的网络高清视频监控系统,从QCIF(176*144)到现在的百万像素(1920*1080)高清图 ...
- python中str函数_一文让你彻底搞懂Python中__str__和__repr__?
__str__和__repr__的异同? 字符串的表示形式 我们都知道,Python的内置函数repr()能够把对象用字符串的形式表达出来,方便我们辨认.这就是"字符串表示形式". ...
- 基于深度学习的计算机视觉技术在无人驾驶中的应用
基于深度学习的计算机视觉技术在无人驾驶中的应用 背景 当前,人工智能是下一代信息技术的核心和焦点,而无人配送则是人工智能典型的落地场景,因为完成无人配送需要自动驾驶技术.机器人技术.视觉分析.自然语言 ...
- 基于计算机视觉的无人驾驶感知系统
本文着重介绍基于计算机视觉的无人驾驶感知系统.在现有的无人驾驶系统中,LiDAR是当仁不让的感知主角.但是由于LiDAR的成本高等因素,业界有许多是否可以使用成本较低的摄像头去承担更多感知任务的讨论. ...
- 明早10点大讲堂 | 一种新型光幕传感器在机器人避障和无人驾驶中的应用
雷锋网AI研习社按:像LIDAR这样的3D传感器经常用于今天的道路场景理解.让我们简要地看看它是如何被使用的.在GPS和IMU帮助的情况下,我们将大量的捕获的点云注册到预先构建的或累积的3D地图,然后 ...
最新文章
- 【生成函数基础题】hdu1085 hdu1028
- 本机用域名不能访问_域名注册申请网站域名注意事项
- 启动tomcat时 一闪而过解决方法
- 拿什么来拯救你,电视!
- 《Android软件安全与逆向分析》— Android 书籍
- 欧拉函数及其扩展 小结
- Tensorlayer深度强化学习之Tensorlayer安装
- 学子商城项目1(项目 第十六阶段)
- Ps雅点设计合成大师
- python怎么画地图空间分异图_中国西南诸河流域东片土壤、植被生态系统的分异...
- HTML表格:日常消费账单表格展示网页
- pytorch实现GAN网络及训练自己的数据集
- 设计模式(二) 工厂方法模式
- 对于Python中@property的理解和使用
- 前端实现csv文件类型下载
- linux的sssd服务,sssd – 刷新ldap客户端配置Centos
- 图形界面介绍Create Size Blockage
- 图床项目之后台框架设计
- 数据分析面试题-面试话术
- HTML+CSS之背景图片的设置