What’s Happening

从智能交通到教室监控再到视频直播等等场景,生活中每天都在产生海量的图像/视频数据。在这些场景中,对图像/视频数据进行智能分析、挖掘其中的内容以及对其中的事件进行实时的分析并非易事。

图一 视觉智能 

视觉智能发展朝向两个方向:云上智能和端上智能。云上的智能是指复杂的计算是在云上完成;端上智能则是在终端完成的,例如手机或摄像机本身自带的计算能力、自动驾驶等等。

云上智能除了单体的智能之外,还存在着整体的智能,也就是说也可以把大量数据放在一起进行计算、分析,然后挖掘更深层次的价值。

图二 云上智能的五要素 

算法、平台、数据、用户、商业五大要素构成了云上智能。其中平台提供强大的计算能力,用于支撑图像视频分析算法;大量的数据保障智能算法的优越性能;用户既是算法的消费者,也是数据和算法准确率的贡献者;此外,好的商业模式才能让视觉应用长久地发展。

图三 视觉智能计算主要技术方向 

上图简要地概括了视觉计算技术的几大方向:第一是视频图像分析识别,主要是对视频或图像进行分割、检测、识别和跟踪等;第二个方向是视觉搜索,主要包含特征学习、索引、排序等;第三个方向是视频图像生成,主要是图像视频的生成、场景和物体的3D建模等;第四个方向是大规模视觉计算平台。

图四 搜索和识别的关系 

除视觉生成外,视觉计算技术从算法的角度来看核心可以总结为:搜索和识别。搜索和识别两者本身就具有相关性:现在的图像搜索离不开必要的识别,而识别任务在很多场景中,尤其是数据量非常大的场景中,是需要通过搜索来完成的。

视觉搜索和识别之进展

图五 视觉搜索技术的发展历程 

视觉搜索起源于上世纪九十年代,最初仅是在几千幅图中检索相似的图片;在2007年左右,才出现了基于内容的互联网图像搜索系统,实现了索引大数图像数据的问题,但还是没有正真解决两幅图像比较这一难题;在2012年左右,深度学习的出现才基本解决了图像内容比较的难题(通过深度学习提取图像的描述特征)。

搜索、识别之关键技术

图六 视觉搜索、识别系统的关键要求 

一个真实世界的视觉搜索系统必须满足相关性、覆盖率、伸缩性、用户体验四个方面的要素才能真正地为大众所用。

  • 相关性是指搜索的结果和搜索的目标是视觉语义相关的;
  • 覆盖率是指无论搜索什么物品,都能得到一个合理的结果。
  • 伸缩性是指系统具有处理大量数据和大量搜索请求的能力;
  • 用户体验更多地体现在用户界面的设计,也通常用来弥补算法的不足。

图七 真实世界中的视觉识别和搜索面临的挑战和机遇 

真实世界中的视觉识别和搜索面临着大量的挑战:

  • 用户对相关性/准确率的期望更高;
  • 用户对覆盖率的期望更高;
  • 输入视觉信号质量变化大;
  • 系统性能要求很高;
  • 有具体的衡量标准(能不能满足用户的需求,用户是否用他来购买商品)。

今天,在面对大量的挑战的同时,也拥有着更多的机会:首先,几乎所有的手机都具有相机,使得视觉搜索的入口十分便捷;其次,大数据分析平台的出现使得我们具有计算、处理大数据的能力;此外深度学习技术的出现以及大量的图像视频数据和大量的用户推动着视觉识别和搜索技术的发展。

图八 相关性:分类/识别 

以电商图像搜索为例,简单介绍下相关性的要求:当获得一张图片时,首先需要知道该图片所代表的含义,并将其进行分类。尽管这时分类类目的数量相对较少,但这一步对准确率的要求非常之高。

图九 相关性:主体检测

第二点是主体检测,经过主体检测,找出用户搜索所关注的重点,则图像中背景的影响就会大大减少。

第三点图像特征,学习和描述图像中的特征,通过数字将物品的特点表现出来,便于利用特征搜索获得最终的结果。常见的图像特征包括:深度学习特征和图像局部特征。

视觉大数据之分析平台

对大数据而言,比如有上万路的视频数据或上百亿图像信号需要处理时,则需要结合阿里云计算平台。MaxCompute是阿里云已有的计算平台,我们将该平台与视觉计算的能力结合在一起,使得该平台有能力处理大量的视频数据。

图十 大规模离线视觉分析平台 

对于大规模离线视觉分析:几千路视频首先进行解码,将其分割成视频帧或视频片段,然后在视频帧或视频片段上进行检测/分析,提取出视频帧特征列表,再经过后处理(跟踪、计数、事件等等),最终输出结果,整个过程的计算任务全部在大规模离线计算平台上完成。

图十一 大规模在线视觉分析平台

由于很多视频应用是在线的,有着大量的实时要求,例如智能交通指挥等场景。阿里云的StreamCompute计算平台能够提供实时的大数据处理能力,同时能利用时间域的相关性和空间域的相关性得到目标分析结果,便于进行及时决策。

图十二 阿里云眼

结合视觉搜索算法和大数据分析平台形成的阿里云眼(智能视觉云),是阿里云大数据平台上的智能视觉计算中心,目前承载着云上广泛、深入的视频图像的分析、识别、搜索和生成服务。

具体案例

目前,视觉识别和搜索在阿里已得到了广泛地应用。

图十三 拍立淘

手机淘宝上的拍立淘功能,通过对拍摄照片的分析,搜索出类似的商品。

图十四 基于视频内容的商品推荐和广告 

上图是通过对电视/电影中商品的搜索分析,找到合适的商品,然后再将该商品定向地进行广告推荐。此外,还可以对视频中场景的分类、事件的分类进行检测跟踪,例如检测到视频中人在打瞌睡,可以定向地投放类似红牛之类的广告。

总结

图十五 五大必要因素 

真实世界中的视觉识别和搜索必须将商业、算法、用户、数据、系统五大因素结合在一起,才能真正地弥补目标语义和数据中提取特征之间的鸿沟,使得人工智能真正地大放异彩。

本文根据阿里云智能视觉首席研究员、 IEEE Fellow 、ACM杰出科学家华先胜在8月9日举办的2016云栖大会·北京峰会上的《视觉大数据智能分析、识别和搜索》演讲整理而成。即将在10月13-16日举办的2016杭州云栖大会,也特意开设了“人工智能专场:智,在云端”,交通、物流、海洋渔业等等场景,看人工智能的触角如何在生活中延伸。具体日程如下,精彩不容错过,快速报名!

去年大会距会议开始还有10天,报名就超额导致了提前结束报名,今年大会时下最热的技术分享都已涵盖其中,报名态势十分火爆,极速抢座吧:

抢票入口:https://yunqi.aliyun.com/2016/hangzhou/baoming

大会日程:https://yunqi.aliyun.com/2016/hangzhou/schedule

大会官网:https://yunqi.aliyun.com/

阿里云智能视觉首席研究员华先胜:视觉大数据智能分析、识别和搜索相关推荐

  1. CSDN 独家对话阿里云贾扬清、华先胜等大咖,剧透阿里云原生技术密码

    新一轮科技革命和产业变革正重塑全球发展格局,以云计算为代表的新一代信息技术相互渗透,成为数字经济智能和创新发展新引擎. 过去 12 年,人们对云计算的讨论从原来的"为什么上云",到 ...

  2. 云原生是全云开发的敲门砖?蒋涛独家对话阿里云贾扬清、华先胜等大咖

    新一轮科技革命和产业变革正重塑全球发展格局,以云计算为代表的新一代信息技术相互渗透,成为数字经济智能和创新发展新引擎. 过去 12 年,人们对云计算的讨论从原来的"为什么上云",到 ...

  3. 阿里云现代农业园区解决方案,智慧园区大数据、产品管理、物联网、企业管理平台解决方案

    阿里云智慧农业园区解决方案 阿里云云南一级经销商 云南天成科技 吴经理:13698746778 QQ:463592055 一.农业园区面临的问题 园区场景超级繁荣的背后:重复投资.无法扩展.无智能 超 ...

  4. 阿里云MaxCompute印度开服,加速大数据产业升级

    摘要: 2018年1月18日,阿里云大数据计算服务MaxCompute将在印度正式开服.通过MaxCompute强大的计算能力,阿里云将加速印度大数据产业的全面升级. 点此查看原文:http://cl ...

  5. 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

    2019独角兽企业重金招聘Python工程师标准>>> 一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的 ...

  6. 阿里云服务器实时计算Flink/Blink首选大数据型d2c、d2s实例

    阿里云服务器Flink或Blink实时计算应用,如何选择云服务器配置?阿里云百科认为CPU内存比1:4,可优先考虑通用型如g6.g5实例,或者大数据型d2c或d2s实例. 实时计算服务器配置选择 实时 ...

  7. 阿里云校招面试官解读为什么Java大数据是最火爆人工智能编程语言

    在这里推荐一个学习资料群:java<学习>+交流 523401738可以听老师直播讲课 阿里云程成都峰会 未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而J ...

  8. 阿里云助力浙江大学信息化建设,以实时数据驱动校园智能管理

    随着网络信息化技术的不断进步,就我国高校而言,传统的学习和生活模式已无法满足学生的需求:老机房堆硬件的建设,给信息化深度建设的管理和运维工作人员造成了巨大的麻烦.这些因素促使各所高校对校园智能管理的需 ...

  9. 基于炼铁大数据智能互联平台推动传统工业转型升级

    基于炼铁大数据智能互联平台推动传统工业转型升级 赵宏博1,2,刘伟1,李永杰1,王强1,吴建1 1. 北京北科亿力科技有限公司,北京 100102 2. 北京东方国信科技股份有限公司,北京 10010 ...

最新文章

  1. 白宫:太空将成美国新反导防御报告重点关注领域
  2. 利用序列化进行文件读写
  3. 团队愿景和团队章程的问答?
  4. 用U盘或移动硬盘安装Windows7 (超简单制作Win7安装U盘方法)
  5. 可能用得上的jquery 插件
  6. *【CodeForces - 574A】Bear and Elections (优先队列,水题模拟)
  7. iOS开发UI篇—使用storyboard创建导航控制器以及控制器的生命周期
  8. 设计模式工作笔记-UML和设计模式导论
  9. 使用template.js加载后端数据
  10. 禁止页面拖拽事件(数据什么的)
  11. springboot整合rabbitmq(一)
  12. 高通SDX12:USB主模式调试及RTL8153驱动移植
  13. TRNSYS 内区之间通风原理试验
  14. xmlspy2014 安装与破解
  15. unity 更换standard shader
  16. 等比例压缩图片文件大小
  17. 嵌入式测试 模拟共享单车
  18. C#实战009:Excel操作-删除指定的Excel工作表
  19. IDEA出现error moudle not specified
  20. npm install安装失败,报错记录之The operation was rejected by your operating system. node-sass无法安装,且禁用淘宝镜像

热门文章

  1. [ip核][vivado]串并转换器OSERDES学习
  2. 专访智链ChainNova CTO谢文杰:区块链容器化与水平扩展实践
  3. 怎样批量重命名不同的文件名?
  4. oracle rownum 赋值,Oracle rownum 与 offset
  5. (办公)调研仓库摄像头
  6. 《爬虫100例专栏》复盘更新,再捋一遍这100篇文章,更新1,2,3,4 篇(收藏再看)
  7. Python学习笔记(一):Pandas中的数据结构
  8. 前端Vue项目如何集成百度地图实现地图选址功能
  9. 百度公开课实录:巡检也可智能化操作?揭秘无人机自助巡检背后的奥秘
  10. JAVA面经(SE)