在刚刚圆满落幕的杭州云栖大会上,阿里巴巴董事局主席马云宣布成立达摩院,并将在3年内投资1000亿人民币用于新技术研发。而iDST就是达摩院中的一员,她致力于打造涵盖图像视频、语音交互、自然语言理解、智能决策等人工智能核心技术,肩负着在人工智能领域树立阿里巴巴集团世界领先的技术品牌使命。

那iDST的人工智能技术与阿里视频云强强联合,将碰撞出怎样的科技火花呢?

本文邀请iDST高级算法专家刘扬,将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分,来介绍iDST在视频领域的技术和在视频云上的工作成果。

视频云和人工智能结合的由来

视频AI是由几方面因素组成。最底层是云计算平台,它包括存储、海量视频的分布式计算和流媒体处理能力,这是基础。中间层是人工智能技术,包含了不同的人工智能处理模块,有机器学习、模式识别、计算机视觉等,来为云端存储的视频提供多种分析和理解服务。上层就是数据,数据来源于两个方面,一方面是媒体数据,也就是实际要处理的媒资(介质),比如广播电视、视频网站、短视频、视频直播等,另一方面是海量用户数据,比如直播主播、视频网站用户、短视频达人、新闻从业者等。

这上中下三层整个支撑了视频AI的整个系统,每一层都不可或缺。这里面数据是最为重要的一层,因为所有云计算和视频AI处理的能力,阿里云都可以提供,而在垂直细分市场中,真正能构建行业壁垒和竞争优势的,就是数据。

在视频领域,数据就是视频本身,那消费级视频拥有什么特点呢?

消费级视频的生命周期及演变

消费级视频区别于监控视频、医疗视频、航天视频、测绘视频等专业领域视频,它是用来娱乐大众和被观众消费的视频,我们日常生活中常见的娱乐综艺、影视剧、直播、短视频都属于消费级视频。它的整个生命周期分为四个阶段,第一阶段是生成,视频拍摄和录制,第二阶段是编辑,用户或者平台方进行视频处理和制作,第三阶段是视频通过不同的方式和渠道分发到用户手中,第四阶段是用户对视频进行消费。

随着网络的发展和短视频的兴起,视频的再次编辑->再次分发->再次消费已经成为了流行趋势。比如经常在短视频平台上,看到了热门影视剧中的片段,它经过编辑处理可以在短视频平台上再次分发。

随着时代的发展,消费级视频的生命周期也发生了很大变化。

生产阶段,视频从以往的专业设备拍摄,变成了如今的手机终端随时随地的采集;
编辑阶段,以往视频编辑是由专业人员进行剪辑,而如今视频编辑的概念演变成了美颜、滤镜等特效,降低了门槛,用户可以自由编辑;
分发阶段,从最初的电视节目逐渐演变成了视频网站的定向搜索观看,到如今十分普遍的APP feed流模式和个性化推荐;
体验阶段,从以往的纯粹看,到现在的与视频交互(包括电商、互动游戏、广告等等)。

由此可见,在视频的不同生命周期内,人工智能技术的应用也有所不同。接下来我们一起看看阿里巴巴iDST在视频领域研究的一些进展。

视频人工智能技术三大领域:视频理解、视频搜索、视频编辑

这三点是人工智能在视频云方面应用最广泛的三个领域,我们将从这三个方面详细阐述。

第一,视频内容理解技术

我们先了解下视频的内容怎么定义。
通常情况下我们认为,视频是图像序列。但是视频不仅仅只有视觉画面,视频还包含声音。声音又分为语音和音频两种,语音我们可以通过技术转换成文本,而音频是能表达出特定场景的寓意。另外视频还有运动,物体的运动信息,它能够对于视频中的行为类的内容有强有力的表现形式。所以我们认为,视频内容分析实际上就是对视频中多模态信息分析的过程,理解视频,其实就是理解这些多模态信息。

我们可以把视频内容简单地分为两类:一类是具有具象意义的内容,例如人、物体、场景、事件;另一类是抽象意义的内容:主题、情感等。

对于视频内容的理解,我们会将视频表现成有物理意义的标签。这个标签可以是不同粒度的,比如video-level的,整个视频的类目是新闻、体育,还是财经。再或者clip-level比如视频中的一个片段,是武打、亲吻还是赛车。甚至可以把标签定位到视频的某一帧上,即frame-level的。

图中绿色文字就是为视频打标签的技术手段,包括视频分类、语音识别、人物识别、OCR、物体识别、场景识别。

那在视频内容理解这一领域,人工智能+视频都做了什么?

  • 视频分类

在ACM MM‘17大规模视频分类竞赛中,阿里巴巴iDST团队平均准确率(mAP)达到87.41%,获得冠军。而在竞赛中,借助于阿里云ODPS,提取视频关键特征,我们可以实现大规模的视频分析处理能力,日处理规模为百万视频。

  • 视频多模态分析

下图包括OCR,它可以对视频中出现的文字进行识别;ASR,能够对视频的语音转文本,可以为视频实时加字幕。

  • 视频物体识别与定位

左边那幅图是物体识别,对应到技术上就是图像分类,识别出视频帧中包括什么物体,场景等;中间是云上的物体检测,右图是端上的物体检测,不只能识别视频中的物体是什么,还能定位到物体在哪里。目前,已经支持1000+物体的检测和5000+物体的识别,已经被广泛应用在云相册和优酷土豆的视频打标上。

  • 目标跟踪

在物体检测后,就是目标跟踪的过程。视频本身是有时域信息的,通过目标跟踪,我们可以准确地知道物体的生命周期,可以精确分割出物体的时域片段。比如在淘宝商家上传视频的过程中,会自动检测视频中的商品并跟踪,在前段展示的时候,用户感兴趣的话,可以点击锚点,直接进入商品页。

  • 事件、行为、动作、场景识别

其实在iDST的视频分析系统中,这四块技术的整体框架是相同的。对于任意一段长视频,我们都可以精确到视频中的每一分每一秒,给其中的事件或动作打上标签,并且对舆情进行分析。

  • 视频同款商品检索

iDST从15年开始做视频电商研究。之前如果在视频中搜同款,我们需要在视频中进行采帧,采帧之后对每一帧图像中检测到的物体进行检索。在连续的镜头中,同一件物体,由于演员动作、遮挡、形变等客观因素干扰,相同物体的搜索结果相差很大。为了提高搜索准确度,我们对同一件物体进行跟踪,通过LSTM在时域对物体序列进行encoding,来进行检索。

  • 个性化商品投放

这个能力已经落地在天猫魔盒第一版边看边淘项目中,它可以打通观看视频的用户、视频本身内容、淘宝上的商品之间的关系,它就会在最合适的视频片段里投放用户最感兴趣的商品。

第二,视频搜索技术

我们把视频搜索技术分成三块,一块是音视频指纹,主要用于相同视频检索;另一块是视频相似性,找的是相似的视频;还有一块是跨媒体检索,主要用于多类型query视频检索。

视频指纹技术的应用场景其实比较多,本身就是找同源视频。什么是同源视频?我们在视频网站上看到的,有的视频加了片头、片尾、边框、翻转、码率和格式的转换等,这些都是同源视频。目前,同源视频在检索速度可以达到40:1。视频相似性,通过视频向量的特征来度量不同视频之间的相似性,这个功能主要被应用在视频搜索和视频推荐中。跨媒体视频搜索,通过检索文本、语音、图像和视频片段等标签,在统一特征空间里找到对应的视频。

第三,视频编辑技术

从技术角度来说,视频编辑就是结构化分析。通过视频帧和帧之间的相似性和其他方法对视频进行不同粒度的分解。最细粒度就是帧,再往上一层是镜头,进一步就是场景。

在这个视频结构化分析的基础上,我们会对视频进行编辑,一些编辑应用可以体现在几个方面:封面图,打破传统的视频网站和APP用海报做封面图的模式,利用人工智能去选取最好的一张封面图,吸引用户的点击,这点已经在视频云客户、淘系、阿里大文娱产品中应用;GIF动图,对视频中的帧做成GIF动图,便于编辑快速浏览视频内容,对视频进行打标管理,提高运营效率;Highlight和摘要,对视频中的关键信息、吸引人的片段进行自动提取,比如三分钟看大片或者动态镜头展示;拆条,它的应用包括新闻拆条,新闻联播的视频拆成独立事件,另外一种是UGC或者娱乐视频,拆成片段,为短视频APP提供一些资源,进行再分发;特效就是对人物进行美颜、滤镜,包括专场处理等等。

VENUS视频服务平台

VENUS是由阿里巴巴iDST和阿里视频云一同打造的视频服务平台,这是一个智能分析与计算平台,通过国际权威的冠军技术,打造以视频为入口的平台服务。

视频内容理解服务

产品功能分为:视频分类、语音转字幕、人物识别、文本识别,泛标签提取,应用场景包括媒资管理,视频分发,广告投放,视频电商等。依托于iDST强大的科研实力,视频内容理解服务具备很多核心优势,其中包括刚刚前文讲到的多模态分析,还有完善的标签体系和稳定成熟的应用。因为阿里大文娱和淘系的强大的视频生态环境,资源非常丰富,类目体系完备,所以服务的场景可以涵盖电商、娱乐、短视频、长视频版权剧等等。同时,我们目前视频内容理解服务以及广泛应用在优酷、土豆、UC、闲鱼和手淘视频内容上,所以在集团内部经过了大量的、长期的验证之后,对外推出的服务一定是非常稳定成熟的。

视频指纹服务

这个服务目前是相对来说比较成熟的服务,业务场景非常明确,包括用于视频去重业务场景,版权保护和原创认证(防止侵权,鼓励PGC原创性,分成系统),安全审核(通过黑名单库来做视频安全审核)。目前视频指纹技术的优势在于能够多场景适配(格式、分辨率),对不同分辨率的同源视频具备很好的识别能力,并可以根据业务方需求进行秒级的实时扩展,另外,因为在特征选取上做了很多的深入研究,视频指纹的精确度也非常高。

视频智能编辑服务

涵盖了智能封面图、视频摘要、视频Highlight、GIF、视频切换化等多项产品功能,等你上传了一个视频后,你的所有编辑需求都可以一次性搞定。这里智能封面图也支持根据用户信息的实时反馈和行为日志,实现个性化的首图投放,也可以根据类目,进行首图自适应选取,加强用户体验。另外,智能首图技术不仅仅是基于视觉的处理,本身的模型是通过海量的用户行为日志来做的,我们会分析和提取用户点击率高的视频首图的共性,用这些信息指导模型的学习,所以,模型基于大数据生成的,可以提高用户的观看时长,减少搜索复杂度。

视频AI技术展望

阿里巴巴iDST高级算法技术专家刘扬认为:视频中的电商和广告是一个方向,用户最终是想实现流量变现。所以,未来我们需要在不打扰用户体验的情况下,进行视频电商和广告的尝试。另外,在未来,视频的流量分发也十分重要,平台方需要通过多种维度分析把最合适的视频推给最需要的人,视频AI技术在里面可以起到很大的作用,这是我们的研究方向。最后,视频编辑中版权素材库认证、版权追诉、版权交易的业务,以及视频交互编辑的体验,都是有非常大的前景的。人工智能技术在视频AI领域能够发挥的最大作用就是极大提高工作效率,节省人工成本和计算成本。

我们都知道视频是极耗资源的,视频平台是否能做到海量的视频分析,在最短的实际内高效进行视频处理,并且低成本的稳定运维,这三点极其重要。利用阿里巴巴iDST和阿里云视频云能力强大的技术实力,VENUS视频服务平台可以轻松做到以上几点,帮助客户更好的进行视频内容理解和分析,在消费级视频中更全面的应用计算机视觉和机器学习技术,达到高效工作的目的。

阿里巴巴iDST+阿里视频云:计算机视觉和机器学习在消费级视频中的应用相关推荐

  1. 「镁客·请讲」Video++董慧智:让AI融入消费级视频,我们打开了视频的“黑盒子”...

    在董慧智看来,他们现在还只是做着"视频互联网"生态的底层工作,未来的AI+视频还有更多的可挖掘空间. "哎哎哎,这个人还蛮帅的,你帮我搜搜他是谁." -&quo ...

  2. 视频云王海华:关于移动短视频技术选型的那些事

    摘要: 在短视频时代,让自己的产品提供短视频能力,并拥有良好的用户拍摄和观看体验,让短视频真正能够帮助业务发展是每个产品都应该考虑的问题.如何让自己的应用能够快速拥有短视频的能力,让短视频在你的应用里 ...

  3. 【解决方案】“云端协同”,基于安防视频云服务EasyCVR构建雪亮工程监管视频平台

    一.背景分析 "雪亮工程"是以市.区(县).镇(街)三级综治中心为指挥平台.以综治信息化为支撑.以网格化管理为基础.以公共安全视频监控联网应用为重点的"群众性治安防控工程 ...

  4. AI 视频云 VS 窄带高清,谁是视频时代的宠儿

    随着网络技术的逐渐改善,各类视频消息成为媒体传播的主要选择手段.但其实支撑着视频传播的并不单单是网络技术,还有视频转码与压缩技术.这类技术下分很多,比如曾经被频繁提到的 H.265,比如时下热门的窄带 ...

  5. 阿里云视频云全景创新峰会——视频云,一个极具想象力的赛道

    7月10日,"Imagine"--2021阿里云视频云全景创新峰会暨全球视频云创新挑战赛决赛颁奖典礼在北京举办.本次峰会由阿里云联合Intel主办,与优酷战略技术合作,天池平台及阿 ...

  6. 阿里云视频云推出低代码音视频工厂vPaaS

    大势所趋 众所体感,社会已演进到超视频化时代,视频云技术从内容和交互视角,推动了用户端全方位的体验革新,更驱动了众多行业的音视频数智化转型. 音视频技术积累 阿里云视频云凭借阿里巴巴卓越的技术能力和生 ...

  7. 对话阿里云致凡:社会视频化“狂飙”,倒逼视频云技术加速迭代

    以技术驱动创新,以芯力量拥抱数智未来.平头哥<芯事>访谈对话科技创新者.引领者,探索创芯之路,共建硬核算力,赋能科技创新.本期<芯事>人物--致凡,阿里云视频云技术团队负责人. ...

  8. 2018年视频云服务市场格局进入整合阶段,阿里云视频云位居市场竞争力领导者的位置...

    据计世资讯(CCW Research)的研究结果表明: 一.中国视频云市场进入高速发展阶段 据计世资讯(CCW Research)的研究结果表明,近年来国内视频云市场保持了高速的增长势头,特别是201 ...

  9. 透析阿里云视频云「低代码音视频工厂」之能量引擎——vPaaS视频原生应用开发平台

    简介:支撑15分钟上线高品质专属音视频平台 为满足企业用户极速搭建高品质专属音视频业务的需求,阿里云视频云的"低代码音视频工厂"应运而生,但极速而高品质的平台搭建诉求,需要用全新的 ...

最新文章

  1. [na]vrrp两用(网关冗余+服务器热备)
  2. kademlia java_分布式哈希表原理与实现(Python版和Java版)
  3. Oracle入门(十二G)之序列
  4. java调用android_Java及Android中常用链式调用写法简单示例
  5. MySQL 的CASE WHEN 语句
  6. poj 3370 Halloween treats
  7. Leetcode每日一题:169.majority-element(多数元素)
  8. linux 分区个数限制,硬盘分区个数限制
  9. 【HTML CSS JS 蝴蝶飞舞特效 绝美(附完整代码)】
  10. CANoe中的Channel-based access和Network-based access
  11. WAF - SQL注入之绕过云锁 靶场实战
  12. 使用Axis2创建一个Web Service的客户端 - 子非鱼,安知鱼之乐? - CSDNBlog
  13. SAP Data Service操作简介
  14. 基于SSM框架的杰森摄影工作室选片系统的设计和开发论文
  15. 大数据时代带来的伦理问题
  16. 二叉树的层序遍历-Java
  17. Spring Data Redis 多源
  18. 项目上线,部署到服务器(腾讯服务器),http协议及https协议(微信小程序必须https协议才可发布)、Nginx配置
  19. Laravel php 框架的使用写出第一个hello world,Laravel 入门配置
  20. Qt中几个函数的使用方法

热门文章

  1. Android简易音乐重构MVVM Java版 -搭建项目(八)
  2. 多态and内部类(java)
  3. 运行ts文件时报错:return new TSError(diagnosticText, diagnosticCodes)
  4. 大连理工大学操作系统上机实验二
  5. 专业数据分析软件 OriginLab Origin 8
  6. CGB2005 JT-1(jt概述 SqlYog 物理模型图PD 表结构 pom文件标签说明 jt环境搭建 创建项目2种,创建各种文件 idea导入,打包,删除项目,启动原理)
  7. 软件测试实战项目【电商、银行、商城、金融、医药、电商】
  8. The inception bar:一种新型网络钓鱼手段
  9. 用集群脚本功能安装大象医生优化你的大数据作业
  10. 计算机会计u8实验报告,会计电算化用友实验报告-20210406233157.pdf-原创力文档