转自知乎前辈:https://zhuanlan.zhihu.com/p/27485775

最近忙里偷闲,刚好有机会整理关于计算机视觉的一些理解。作为一个老兵,又作为一个时刻保持hungry的新人,将自己对cv的很多思考总结一下,仅以抛砖。可能有偏,管中窥豹而已。

大致分成以下几个部分吧:

A. 技术

B. 产品

C. 行业

先谈谈技术,也或许是因为技术是技术人最容易表达清楚的领域吧。最近越来越清晰的感觉到计算机视觉的问题和机器学习的问题更为接近了(排除掉图像预处理等诸多操作),基本上概括起来就3条:1. 描述(特征),或者用英文叫representation;2. 问题的刻画和理解,在这里我没有单一的使用loss function来表述这个问题,问题的刻画和理解应该有更广阔的含义,比如检索问题(当然检索实际上也可以通过loss function来描述);3. 算法、模型、求解:当有了『物』的描述,以及对于问题的刻画,我们需要找到对应的模型来进行求解。上面3条在计算机视觉领域同样适用。

a1. 可以说计算机视觉中有超过60%的工作我们都是在寻找对于图片的一个描述;这个描述可以是0-255的像素值,可以是颜色直方图的分布,可以是我们能够想到的通过各种算子计算到的图像上的局部的,全局的,梯度的,空域的,频域的,各种平滑、锐化、normalization之后的数值表达,也或者是通过类似bow方式获得的图像的统计表达(用block的相似性来表示图片),也或者是计算图像特征点之后的特征计算或者统计(用点的相似性来表示图片),也或者是通过深度学习学习到的某些卷积核作用于图片之后的表达。这些表达我们可能能够描述物理含义,也可能只有统计意义上的物理含义;但有一个趋势:就是这些表达越来越从图像的底层往语意层发生转移,其实追求就只有一个,那就是语意层级的相似性和区分度;无论是光照,大小,角度,噪声,模糊等等可能引起的描述的差异,那么我们终极的追求实际上是语意级的相似性。【在某一个场景下,化成灰我也能认识你】

a2. 问题的刻画和理解。描述这个问题之前我们先来看看目前cv领域最重要也最为基础的task:目标的检测、跟踪、识别,图像的检索,人脸的识别和验证,image caption,image generation,超解像,视觉slam(vo计算)等等,而这些任务本质上都可以概括成几个基本的问题:分类、回归、排序ranking、关联correlation;其实这几个基本的问题放到任何以机器学习为背景的数据科学里面同样适用。搜索引擎是典型的ranking问题,CTR预估是回归问题和ranking问题的结合,topic model是分类问题,人物画像是分类问题(估计把聚类问题归结到分类当中,不一定严谨,见谅),推荐是ranking为主,社交网络则是典型的correlation问题等等。目标检测是典型的分类问题,目前也开始演变成回归问题;物体识别、人脸识别是分类问题;跟踪也是典型的分类+回归的问题;图像检索是ranking问题;image caption是关联问题;image generation是回归问题,视觉slam中最核心的部分特征点的匹配是ranking问题。

a3. 算法、模型、求解:机器学习中一切能够用来求解分类、回归、排序、关联等问题的算法都能够使用,相应的技巧都能够使用,相应的优化方法都能够使用。

总结起来,我们已经有意或无意的在使用更为general的机器学习的方法来处理cv的问题,或者说是用更general的机器学习的观点来刻画和理解cv的应用。

产品,其实是我最不想去聊的一个话题。cv的产品层出不穷。监控行业中有大量对cv的需求,工业检测中也对cv的精度有很高的要求,人脸识别、物体识别等都是需求,image caption,拍立淘,百度明星脸,相册分类,手势识别、自然图片中的文字识别、手写识别等。总结起来我们实际上是在把任何需要【人的眼睛+人的记忆能力+人脑的想象力】的任何场景变成cv的场景。能变出什么样的花样呢?视力更好(能够识别比人眼更多的细节),记忆力更好(能够存储、检索比人脑更大的库),想象力更好(比如风格画的生成)。说几个我自己认为能够提升行业效率并真正产生行业价值的产品。

b1. 替代人的智能监控设备,不管智能监控目前是不是效果还不理想,从产品角度他是在替代人工提升行业效率;

b2. 基于视觉的ADAS设备,解放人的部分注意力;

b3. 类似face++等算法的服务,实际上是在通过计算换时间,也是在提升效率;

b4. 医疗图像分析,人脸验证(打卡、解锁),证件识别也实际上是通过密集计算来减少人工成本;

b5. 亚马逊未来超市中通过视觉拿到你所购买的商品信息,并通过人脸等技术完成支付;实际上依然是在通过技术来节省人力成本以及提升行业效率;包括格林深瞳早期希望通过shopping mall的视觉信息进行商业分析都是这个路子。

任何一个以cv为中心的产品,最终能够得以生存下来的原因除了博人眼球之外一定是因为他要么提升了行业效率(时间、人力、计算资源),要么改变了用户体验。

行业。轻易不敢谈行业的问题,既没有那个高度,也没有那个能力。一点愚见仅供参考。从入行cv有那么一段时间开始,就在思考cv本身只是一个工具吗?这个工具有可能成为某一个行业不可获取的技术吗?还真有那么几个领域cv不可或缺:

c1. 监控,产品的那一part已经说过,如果智能监控的算法能够好的落地,那cv在这中间一定是提升行业效率的;

c2. 云+端 一体化的cv能力的构建:无论是交通还是医疗领域,云端一体化的cv能力会是未来一个比较长时间的主题;

c3. 很多领域都对cv这个工具有需求,希望借此来完成之前不能完成的任务或者是提升效率;

cv本身有可能能够成为一个行业吗?比如人们对于信息的需求诞生了百度,人们对于商品的需求诞生了阿里,人们对于社交的需求诞生了腾讯,人们对于行、食的需求诞生了滴滴、新美大;那人们对于视觉能力的需求能够诞生什么呢?

从马斯洛需求层级来讲,人对于视觉能力的需求应该是和人对于出行的需求处于同一级?人对于更powerful的视觉能力的需求到底是什么呢?

见微知著?抑或博古通今?

那如果不仅仅是人,如果我们把cv也看成是一个to B的生意,那么B对于更powerful的cv能力的需求是什么呢?

留下这些问题,笔者也会多思考,也希望能够和读者多交流。

写到这里,依旧发现技术的那一part是最易书写的。

写得非常好的关于CV行业的分析相关推荐

  1. 专访阿里iDST华先胜:CV行业遍地黄金,只可惜创业者都去红海厮杀,却忽视了蓝海...

    虽然从学术和研究氛围浓厚的微软亚洲研究院出身,且获得过微软多项重大技术突破创新奖,但华先胜心里很清楚,算法在商业化落地中所扮演的角色并不是核心要素. "算法在高手之间的差异其实很小,壁垒的形 ...

  2. 初入CV行业得海尔青睐,云通讯独角兽容联发力视觉智能产业

    近几年CV(计算机视觉)一直是AI最火的技术领域之一.经过几年的攻城略地,国内市场已经形成了旷视.依图.商汤.云从这「CV四小龙」盘踞的格局. 但目前CV应用仍然局限在人脸识别领域,应用范围有限并且容 ...

  3. 招募 | 贪心科技招募CV、语音分析、联邦学习课程讲师(在线+兼职)

    贪心科技作为中国领先的AI人才战略服务商,面向企业和个人提供以"内容+技术+平台"为核心的人才服务解决方案. 面向企业,我们提供以"解决行业AI业务问题"为目标 ...

  4. 教育培训行业现状分析

    教育培训行业现状分析(一):学大模式 2010年多家中国教育培训机构在美国上市,这又重新引发了投资者对这个新兴行业,特别是课外辅导行业的关注.但大多数普通的投资者对这个行业的运营模式以及实际发展情况知 ...

  5. 教育培训行业现状分析 教育培训行业的基本发展模式、教育培训行业的教学管理现状、教育培训业的未来发展趋势 学大、学而思、新东方为主要案例...

    教育培训行业现状分析 (一) 2010年多家中国教育培训机构在美国上市,这又重新引发了投资者对这个新兴行业,特别是课外辅导行业的关注.但大多数普通的投资者对这个行业的运营模式以及实际发展情况知之甚少, ...

  6. 软件测试行业现状分析(三)

    你好,我是小牛. 关于软件测试行业现状分析系列之前已经写了两篇了,各方面数据反馈都很不错. 今天是这个系列的最后一篇,接着来分析一些软件测试行业相关指标,之后准备写技术文. 关于前两篇文章可以参考链接 ...

  7. 2022-2028年中国TCO导电玻璃行业市场研究分析及前瞻规划报告

    [报告类型]产业研究 [报告价格]4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国TCO导电玻璃行业市场行业相关概述.中国 ...

  8. 2022-2028年中国安防视频行业市场前景分析预测报告

    [报告类型]产业研究 [报告价格]4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国安防视频行业市场行业相关概述.中国安防视 ...

  9. 2022-2028年中国海洋电力行业市场深度分析及发展策略分析报告

    [报告类型]产业研究 [报告价格]4500起 [出版时间]即时更新(交付时间约3个工作日) [发布机构]智研瞻产业研究院 [报告格式]PDF版 本报告介绍了中国海洋电力行业市场行业相关概述.中国海洋电 ...

最新文章

  1. cs oracle语句跟踪,Oracle执行语句跟踪 使用sql trace实现语句追踪
  2. albumentations 安装
  3. C++ 统计字符串中某字符出现的次数
  4. 2017 年热门编程语言排行榜,你的语言上榜没?
  5. linux数据污点标记,Taints和Tolerations(污点和容忍)
  6. 2020-07-07 内模原理(The Internal Mode Principle)
  7. what is conversion exit defined in ABAP domain
  8. Kubernetes里ingress配置的一些例子
  9. 音视频开发(Anychat如何改善音视频通话过程中的用户体验)
  10. 语言学句法分析树形图怎么画_哇,好大一棵树! 如何优雅地画句法树形图 丨语言学午餐...
  11. html如何做幻灯片效果,超酷的CSS3幻灯片效果
  12. 3DGIS+数字孪生技术打造智慧工地监控系统分析
  13. [面试问答] 面试常问的40个问题 附带经典答案!
  14. oracle学习笔记-转
  15. 机器人系统仿真(七)——xacro语法详解
  16. Ubuntu18.04下的截图快捷方式
  17. 好用的chrome插件:鼠标手势、阅读视图、onetab
  18. 2022年系统集成项目管理工程师考试知识点:区块链
  19. 爬虫用fiddler抓取网易新闻客户端手机app内容
  20. 【微信公众号】获取获取微信的access_token

热门文章

  1. vue双向绑定原理及实现
  2. ROS语音交互系统_(3)ROS中接入图灵机器人语音理解系统
  3. 关于《机器学习决策树导出图片、PDF支持中文》解决办法
  4. 【Unity 2017.3 制作安卓2D单机手游】2.这就开始做
  5. 岁月温柔-9 妈妈吃人参果的后遗症
  6. HTML超出文本显示省略号...[text-overflow]
  7. 什么是 Android Jetpack?
  8. 无线网络攻防实战:WEP密钥如何被攻破的(图
  9. Python(1)自动发送邮件
  10. 卷积神经网络使用到的公式