深度学习伴随着大数据与云计算技术的崛起而快速发展起来,并在计算机视觉、语音等感知领域迅速取得成功。相对于传统机器学习,深度学习的算法设计更加灵活,可以显著提升针对感知类问题的效果。

随着算力及分布式工程能力的进一步提升,深度学习的参数规模越来越大。可以说,参数越多,模型对知识的理解就越深刻。而深度学习模型也从传统的针对单一任务,比如文本识别、物品识别、语音识别等,向多任务处理发生转移,我们称这种一个模型可以同时处理文本识别与理解、图片识别与理解,实现跨领域联动识别与理解的能力为多模态通用AI能力。

随着深度学习技术的不断发展,越来越多的研究者开始关注AI技术在医疗健康、文娱、工业等领域中的应用和创新。而天池大赛提供了一个“云”上的练兵场,让所有对人工智能应用感兴趣的开发者都能很容易地触达业界的实际需求和场景。

下面是阿里巴巴优酷视频增强和超分辨率挑战赛的相关内容:

1

业界应用
图片的增强和修复算法其实早已融入我们的生活。

比如,被广泛使用的修图软件Photoshop,内部就集成了很多有关亮度、色彩的增强算法。

再比如,我们自拍用的“美颜”,本质上也是对人脸和肤色的增强。近年来,在手机圈火爆的“超级夜景”等功能,也是典型的图像增强技术。

从拍摄硬件上来说,其实我们看到的图片、视频都已经被ISP(Image Signal Processing,图像信号处理)增强过了。ISP内部会进行去噪、色彩增强、色调映射等过程,将原始的RAW格式的数据调整到人眼可见的范围。另外,相对于上层应用使用压缩后的数据,使用RAW格式的数据更容易达到好的处理效果。

因此,对于增强任务,沿着数据获取链路向上游走,走软硬结合的路子是最终的解决方案。

目前,各云平台厂家也都提供图像增强能力,可见其价值。

2

文娱行业面临的画质问题
一方面,近两年《开国大典》《我的祖国》等高清修复内容多次刷屏全网,使老电影焕发新生机。对于影视剧来说,画质和拍摄年代有较强的相关性,也就是说随着拍摄设备技术的提升,画质也在提高。那么,对于老片,也需要与时俱进,需要做高清修复,以满足用户对高清,甚至超高清的需求。

另一方面,随着互联网的快速发展,内容形式已经由图文转向短视频,目前短视频已成为网民碎片化娱乐的首选,而对于目前大量增加的UPGC视频的画质情况却不容乐观。

UPGC视频的来源主要包括两种:

一种是由用户上传的正片切条产生的短小视频。由于用户使用的片源清晰度无法保证,又经过多次的转码、压缩、缩放,因此导致画质下降、压缩噪声、块效应等问题;

另一种是用户拍摄上传的。虽然目前手机的相机成像质量越来越好,分辨率越来越高,甚至出现了1亿像素、30倍变焦等黑科技,但在不受控的拍摄环境中,普通用户一般无法控制拍摄质量,从而导致出现噪声、模糊、光线等问题。

3

实验室介绍和技术手段
摩酷实验室是由阿里巴巴达摩院和优酷联合成立的,旨在对世界级的前沿Media AI技术进行研究,驱动在全媒体领域的持续产品模式创新,进而深耕并沉淀为可规模化的生产力。依托优酷形式多样的海量视频数据,经过艰苦攻关,摩酷实验室已经沉淀出完善的全视频质量评价和增强能力。

一个典型的视频增强流程包括去噪、超分辨率、插帧、HDR等算法模块,如果原片是黑白影片,则还可以进行自动上色。对于老片修复,还有去除胶片污损、反交错等过程。

各个模块有不同的作用:超分辨率技术可以将原低分辨率视频扩展到4K;插帧算法可以提升帧率,有助于消除视频顿挫感,提升平滑度;HDR用于改善动态范围。

4

评估指标
对于算法恢复的视频和抽帧结果,首先采用PSNR(Peak Signal to Noise Ratio,图像的峰值信噪比)和VMAF(Video Multi-Method Assessment Fusion,视频的多方法评测融合)两种评价指标进行逐帧计算。最终的PSNR结果为完整视频和抽帧视频中所有帧的平均值,最终的VMAF结果为完整视频所有帧VMAF结果的平均值。然后对PSNR和VMAF的得分进行加权,得到竞赛得分。

▊ VMAF

VMAF是Netflix开发的一种感知视频质量评估算法,它使用机器学习算法将多种评估指标“融合”在一起,可以更好地对视频质量进行评估。

VMAF开发工具包(VDK)是一个包含VMAF算法实现的软件包,另外,其允许用户训练和测试自定义VMAF模型工具。VDK包为用户提供了许多与VMAF算法实现交互的方法。其中,其核心特征提取库是用C语言编写的,其余的脚本代码包括机器学习回归类、VMAF模型的训练和测试等,都是用Python编写的。

解题思路
如图1所示,建模基本流程分为以下三步。

图1 建模基本流程

图片插值重建,也被称为超分辨率重建,是数字图像处理的一个重要研究分支。它是指利用多帧低分辨率图像/视频,通过一定的重建算法得到高分辨率图像/视频。图片插值重建是近年来学术研究的热门,已在工业界有广泛的应用。

本赛题通过对低清分辨率视频进行分帧处理,即输入低分辨率的单帧或多帧图像,输出高分辨率的单帧或多帧图像,再合成相应的高清分辨率的视频,故此问题为典型的视频/图像超分辨率(Video/Image Super Resolution)重建问题。

  • 本文摘自《阿里云天池大赛赛题解析——深度学习篇》一书,欢迎阅读此书了解更多关于天池大赛深度学习方面的内容。

▊《阿里云天池大赛赛题解析——深度学习篇》

天池平台 著

揭开人工智能算法的神秘面纱

透析大赛专业选手的解题思路

本书聚焦深度学习算法建模及相关技术,选取医疗、视频、工业三个非常有行业代表性的赛题:瑞金医院MMC人工智能辅助构建知识图谱、阿里巴巴优酷视频增强和超分辨率挑战赛、布匹疵点智能识别,介绍赛题涉及的技术知识和选手的创新思路与模型,对赛题的解决方案从0到1层层拆解。

本书从经典行业案例出发,内容由浅入深、层层递进,既可以作为专业开发者用书,也可以作为参赛选手的实战手册。

来看看深度学习如何在文娱行业“落地”相关推荐

  1. AI和深度学习正在席卷医疗保健行业

    根据行业机构研究数据显示,到2021年,人工智能系统将为全球医疗保健行业带来约67亿美元的收入.2014年,他们只创造了6.34亿美元-这一指标将以每年40%的比例增长.人工智能.机器学习和深度学习已 ...

  2. 基于深度学习的遥感测绘行业解决方案

    遥感测绘 | 气象水文 | 星图计算 | 测绘地理 深度学习 | 卫星影像 | 基础测绘 | 星地计算 随着遥感影像的空间分辨率.光谱分辨率和时间分辨率不断提高,空间技术发展尤其是地理信息系统和全球定 ...

  3. Hinton等谈深度学习十年;PyTorch落地Linux基金会的影响;机器学习界的“GitHub”|AI系统前沿动态

    1. 重磅!PyTorch落地Linux基金会 扎克伯格亲自宣布,PyTorch基金会已新鲜成立,并归入Linux基金会旗下,管理委员会成员,包括Meta.AMD.AWS.谷歌云.微软和英伟达.Met ...

  4. 百度CTO王海峰:深度学习如何大规模产业化?

    编者按:10月17日-19日,2019年中国计算机大会(CNCC2019)在苏州举办.百度首席技术官王海峰在会上发表题为<深度学习平台支撑产业智能化>的演讲,分享了百度关于深度学习技术推动 ...

  5. 超全!深度学习在计算机视觉领域的应用一览

    作者 | 黄浴,奇点汽车美研中心首席科学家兼总裁 转载自知乎 简单回顾的话,2006年Geoffrey Hinton的论文点燃了"这把火",现在已经有不少人开始泼"冷水& ...

  6. 一文读懂深度学习:这个AI核心技术被美国掌控,很危险

    2019-11-28 18:39:22 "中国有多少数学家投入到人工智能的基础算法研究中?" 今年4月底,中国工程院院士徐匡迪等多位院士的发声,直击我国在算法这一核心技术上的缺失, ...

  7. 深度学习已经触底?这篇文章的观点令人信服吗?

    来源:机器之心 摘要:AI 迎来另一寒冬?这是 2018 年下半年至今我们一直能听到的一种声音.这类唱衰的文章一经发布,总是能博人眼球.这篇发表在 Medium 上的文章探讨了 AI 的历史和现在,泛 ...

  8. 第五十六期:百度CTO王海峰CNCC2019演讲:深度学习平台支撑产业智能化

    百度CTO王海峰在会上发表题为<深度学习平台支撑产业智能化>的演讲,分享了百度关于深度学习技术推动人工智能发展及产业化应用的思考,并深度解读百度飞桨深度学习平台的优势,以及与百度智能云结合 ...

  9. 2020年需要牢记的10个深度学习Best Practices

    2020年需要牢记的十个深度学习最佳实践 引言 定义业务问题 计算投资回报比 关注数据数量和质量 解决图像标注 组建团队 编写生产就绪代码 模型跟踪实验 本地v/s云基础设施 使用分布式训练 在实际部 ...

  10. 七月二十一日!! NVIDIA DLI 深度学习入门课程——计算机视觉

    介绍 NVIDIA 深度学习学院聚焦于人工智能和深度学习,致力于在全世界范围内提供支持,解决最具挑战性的问题.通过线上自主学习,或者线下由NVIDIA 认证的讲师来教授的培训课程,我们可以帮助开发者. ...

最新文章

  1. 压力与动力是否成正比?
  2. 前端学习(3181):ant-design的button介绍
  3. synchronized 解决死锁的问题 轉貼
  4. 三年级计算机教案 渔舟唱晚,《渔舟唱晚》大班教案
  5. 中国特威兹勒行业市场供需与战略研究报告
  6. 隐藏元素 mayaa
  7. Java铬钼钢车架几何_车架的几何尺寸
  8. UEditor(四)——表情包
  9. 图书管理系统/库存管理系统等计算机毕业论文设计
  10. 小米笔记本pro lol测试软件,小米笔记本Pro游戏实测,MX150显卡竟有猫腻
  11. ibm服务器修改ide,IBM刀片服务器配置IDE RAID的方法
  12. 高斯滤波matlab函数,matlab自带函数实现高斯滤波(gauss filter)快速算法
  13. 软件项目管理题目汇总
  14. CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结
  15. 6年java工作经验总结
  16. python0309
  17. 如何在云服务器上部署程序
  18. Linux之线程条件变量cond
  19. 转载-中文文案排版指指南
  20. 浅析中西思维差异对英语口语交际的影响

热门文章

  1. ehlib的DBGridEh控件中使用过滤功能的方法
  2. VSTO 3.0 for Office 2007 Programming
  3. java中调用xml的方法:DocumentBuilderFactory
  4. unity3d点击屏幕选中物体
  5. nyist 299 Matrix Power Series
  6. 【亲测有效】vs2017无法断点
  7. JSON-RPC轻量级远程调用协议介绍及使用
  8. 数据结构(二)之二叉树
  9. asp不能做到的是什么
  10. Win7下Tomcat7和Apache2.2集成