Computer Vision—计算机视觉(一)


(本文为总体概述,后续具体深入。原因的话,记录分享和本人水平成正比嘛~~~算是刚入门~~~)

总的来说,CV(计算机视觉)领域因为深度学习的引入,方兴未艾、蓬勃发展……

先贴一个某深圳互联网科技公司该方向实习生招聘职责|要求:

(其实各大公司此方向要求大多如此)

传统CV

传统CV说白了就是特征+分类器

单张图片—>大量图片—>视频。

单张图片

依赖于图片的像素矩阵表示,有了矩阵,很多方法如二值化,阈值化,色彩均化,滤波(模糊/光滑),形态学开集和闭集,以及联通区域划分,图像金字塔等都可以做。这些处理方法在实际当中应用广泛,例如许多图片应用的滤镜/增强/变形效果,以及图片压缩。

大量图片

图片分类以及基于内容的检索等实际需求。传统机器视觉的方法或者说套路是,先针对问题和对特征的具体要求(例如希望特征具有旋转不变性等)设计一些特征抽取方法,有了特征之后,就能拿去喂给一些机器学习算法做分类等其他后续工作。

那么特征提取就是重点,如颜色直方图,只是一个简单的统计描述,而其他常用的特征,如Harris角点,FAST角点,图像梯度以及HOG, LBP(local binary pattern), SIFT特征以及其变体SUFT和ORB, haar 等。经过精心设计,并且涉及一些诸如利用积分图像来优化计算的技巧,是传统计算机视觉的重要成果。

有了特征之后,就能解决:边缘检测/轮廓提取,图像分割,图片分类,人脸识别,图片拼接(image stitching),视觉测距(包括单目视觉测距(Monocular Visual Odometry)和立体视觉测距(Stereo Visual Odometry))等经典问题。

  视频

视频无非就是连续(帧)的图片,图片处理技术就自然而然地扩展到了视频上来(一般的话,图片是一帧数据,视频处理就是在图片处理的外面加一个大循环,不断的处理一帧又一帧的图片就行。当然图片或视频的获取方式有不少,USB、HDMI或者是直接从内存读取等等,不同方式下图片和视频读取的方式也有差别,但大同小异),但是视频具有动态特征也有其特殊的对待,如均值漂移、GMM(混合高斯模型)等背景建模的方法,以及利用光流法等实现物体的跟踪。

(附:传统方法使用滑动窗口的框架,把一张图分解成几百万个不同位置不同尺度的子窗口,针对每一个窗口使用分类器判断是否包含目标物体。传统方法针对不同的类别的物体,一般会设计不同的特征和分类算法,比如人脸检测的经典算法是Harr特征+Adaboosting分类器;行人检测的经典算法是HOG(histogram of gradients) + Support Vector Machine;一般性物体的检测的话是HOG的特征加上DPM(deformable part model)的算法)

之后,随着人工智能技术的崛起,深度学习大潮席卷了包括计算机视觉和自然语言处理在内的诸多领域,许多在之前无法有效解决的问题,如图像语义分析、图片/视频内容描述、图片/视频问答等开始得到解决。许多新的问题,如图片生成(GAN)、图片风格迁移、图像预测、图像|视频搜索、OCR等开始出现,并在深度学习的火炬下显示出无限可能,而传统的方法,那些人工设计特征的时代,似乎正在渐行渐远。

基于机器学习|深度学习的CV

  没错,这是CV领域以后的发展方向,包括但不限于:图像检测、图像分类、图像分割、图像跟踪、视频语义分析、人脸识别与分析、车辆与人员的检测识别与跟踪、图像/视频搜索、页面分析与自动合成、OCR等算法与系统研发领域。

最主要的原因是,精度,深度学习可以做到传统方法无法企及的精度。另外,深度学习其他原因|优点:通用性强,特征迁移能力强,工程框架统一等。

深度学习技术框架是一颗树形结构:

训练平台是树根,如tensorflow、theano等;

模型是树干,是深度学习的重点。典型成果有AlexNet、VGGNet、GoogleNet、ResNet等。学术界—怎么提高模型精度,工业界—还要考虑怎么把模型做得更快,更小。

 (核心)任务|方向是树枝,检测、识别、分割、特征点定位、序列学习等5大任务。任何计算机视觉的具体应用都可以由这五个任务组合而成,如人脸识别,涉及到人脸检测、特征点定位,特征提取&验证。这就包含了检测、识别、特征点定位三个部分。

下图给出:方向—网络对应(常用)

以上为借鉴各路大神观点的总结,以下为个人不成熟见解:

  1. CV+机器|深度学习还是十分有趣的,应用也广,像你从摄像头前经过,瞬间就可以知道你的性别、年龄、情绪等等;路上行人、车辆|车牌检测,哪里有老人跌倒,哪里发生车祸,犯人逃到哪里,不需要人为通知,第一时间就可以知道并处理;目标跟踪可以一直监控你;风格迁移-滤镜,拍照神器;图像生成(GAN),比如可以用来直播换脸,想象一下你正在看的20多岁的少女直播镜头前其实是一个东北大汉……像自动驾驶(视频分割、图像预测等等)、机器人视觉啥的就更不用说了(相信未来自动驾驶可以用视觉完全替代掉激光雷达,不然,车怕是卖不出去,雷达贵~~~)
  2. CV+深度学习的内容确实太多(废话,钱给的多),学习、入门感觉难度不小,但是还是有方法的。比如:实践+理论,具体就是大致了解整个框架情况后,直接找个具体实例,像人脸识别、行人|车辆检测都不错,仅用传统方法和传统+深度学习的都需要学习。这些例子里就是在用那些看上去很牛X的理论,各种图像预处理、特征提取|降维、训练|分类器、后处理,各种像检测|识别|分割|特征点定位等这些方法、数据集、模型、框架平台等等,通过1-2个这样具体的例子,大致弄懂功能——复现——读源码|理解原理,里面程序有搞不懂的就去查,直到搞懂。然后基本就入门有感觉了,卯足劲儿再去深入学习,后面内容还多着呢。(建议还是不要一开始就抓着一堆看着就头疼的理论读来读去,效率比较低。其实现在这一行,大多都是这样学比较好吧。还有,想到一定要做到!)
  3. 本人也是刚入门吧,对这一块儿很感兴趣,还有很长路要走,滚去学习了……

(推荐一些大神更详细的文章|资源,很不错:)

  1. https://www.leiphone.com/news/201712/97BMlbEQ6DXEv8ke.html
  2. https://zhuanlan.zhihu.com/p/21533690
  3. https://blog.csdn.net/x1kz18nkbqg/article/details/78700447

GitHub:https://github.com/666DZY666/Computer-vision

公众号:https://mp.weixin.qq.com/s/vKnWYhcn-h_kaJQ9myfgYw

Computer Vision—计算机视觉 (一)相关推荐

  1. computer vision(计算机视觉)方面的期刊会议,学术必备

    一.机器视觉方面的顶尖三大国际会议:ICCV, CVPR和ECCV  1.ICCV 全称是International Comference on Computer Vision,每两年举行一次,与EC ...

  2. 计算机视觉Computer Vision网址导航

    1常用网站 20条常用网站网址,更多点此 Google(gfsoso) [直达] 计算机视觉网 [直达] 增强现实资讯 [直达] 开源中国社区oschina [直达] 百度搜索 [直达] 小木虫,学术 ...

  3. 计算机视觉中头部姿态估计的研究综述--Head Pose Estimation in Computer Vision - A Survey

    计算机视觉中头部姿态估计的研究综述 埃里克.莫非,IEEE的初级会员 默罕 马努拜特里维迪,IEEE高级会员 摘要---让计算机视觉系统作为一个普通人拥有识别另一个人的头部姿势的能力这一想法的提出,对 ...

  4. 计算机视觉算法与应用 英文pdf,计算机视觉:算法与应用(套装共2册) [Computer Vision:Algorithms and Applications]...

    计算机视觉:算法与应用(套装共2册) [Computer Vision:Algorithms and Applications] 下载 mobi epub pdf ☆☆☆☆☆ 简体网页||繁体网页 [ ...

  5. 七步带你认识计算机视觉(Computer Vision)

    如果想要机器能够进行思考,我们需要先教会它们去看.  李飞飞--Director of Stanford AI Lab and Stanford Vision Lab 计算机视觉(Computer v ...

  6. Five reasons to embrace Transformer in computer vision/在计算机视觉领域拥抱Transformer的5条理由

    翻译自微软亚洲研究院官网文章Five reasons to embrace Transformer in computer vision 2021.12.5 人工智能的统一建模故事 "大一统 ...

  7. 转载:计算机视觉任务(Computer Vision)整理

    首发于 NLP迷路CV 写文章 计算机视觉任务(Computer Vision)整理 Fire-燚 ​ 关注他 32 人 赞同了该文章 计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和 ...

  8. 基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

    技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考.转载请注明来源"素质云博客",谢谢合作!!微信公众号:素质云笔记 CVaaS 计算机视觉即服 ...

  9. 澳大利亚国立大学计算机学院,ANU澳大利亚国立大学机器学习与计算机视觉硕士Master of Machine Learning and Computer Vision...

    机器学习与计算机视觉硕士Master of Machine Learning and Computer Vision是澳大利亚国立大学研究生申请的热门专业,本文重点介绍了机器学习与计算机视觉硕士研究生 ...

最新文章

  1. qt vs 不出来dos窗口_VS嵌入QT后,建立QT工程后printf和cout无效,无法产生控制台应用程序窗口,需设置工程属性...
  2. linux c语言文件属性,Linux C获取文件属性
  3. USEFORM,USERES详解
  4. oracle中if/else功能的实现的3种写法
  5. 最值反演[PKUWC2018][loj2542]随机游走
  6. Android ping命令 -- Runtime
  7. Spring MVC 中 HandlerInterceptorAdapter的使用
  8. 斯诺登的密码(洛谷-P1603)
  9. mysql1040_解决mysql 1040错误Too many connections的方法
  10. [原创]RCP项目:邮件客户端
  11. 循环冗余校验码解法简析
  12. 重启计算机可以使用什么组合键,死机重启电脑快捷键有哪些
  13. 基于BPM(业务流程管理)的低代码开发平台有哪些优势?
  14. 大数据动物园-驯服野兽
  15. 这种国家的外贸不做也罢
  16. Typora写作上传图失败怎么解决,利用图床教你解决问题
  17. Direct Shot Correspondence Matching
  18. linux网络引流工具,gor 引流快速入门
  19. 【解决方案】EasyNVR海量安防设备接入实时直播+云端(服务器)录像的实现
  20. 全网最详细 Opencv + OpenNi + 奥比中光(Orbbec) Astra Pro /乐视三合一体感摄像头LeTMC-520 + linux 环境搭建

热门文章

  1. srsLTE 源码分析 UE_09 随机接入 之PRACH发送
  2. 无线传感器网络节点连通率
  3. Python实现门禁管理系统(源码)
  4. 过滤器(Filer)与监听器(Listenter)
  5. 负载均衡获得真实源IP的6种方法
  6. ECCV 2022 | 新方案: 先剪枝再蒸馏
  7. 利用分支限界法解决01背包和货郎担问题
  8. 微信对话框删除后怎么找回聊天记录?
  9. 华为云FusionInsight智能数据湖版本新能力解读
  10. 力扣解法汇总2043-简易银行系统