今年,音视频场景异常火热,视频会议、视频社交、互动直播。而计算机视觉与这些场景有天然的契合点,能以各种形式落地在这些场景中,比如美颜、滤镜、图像分割,还有视频超分辨率。

仅以视频来讲,视频的AI模型网络深度更深、模型更大,但是处理流程却比较简单,没有像音频数据的时域和频域互转的前后处理过程。

目前在视频领域中,大家讨论最多的算法之一就是超分辨率算法。这个算法的功能就是把一张图片、视频实现高质量的放大。这个功能用普通的图片编辑或查看工具也可以实现,只是通过这些工具你得到的会是一张比较模糊的图片。但是,超分辨率算法与传统的图像放大算法的核心区别就在于,它能实现图像细节增强和去模糊。

两者会有大区别呢?我们可以看看下面这张图。左半张图是通过超分辨率算法放大后的,而右边是用图像浏览器修改尺寸放大的。传统的放大一般是使用线性插值来填充新的像素点,实际上就像是一种平滑处理,所以放大后会导致图片看起来很模糊,比如右边图中的尖毛看起来就会更模糊一点。

相较于传统的插值方式,超分辨算法就像是一种更智能的插值技术,在不同的纹理区域有不同的插值选择,而且插值的计算方式也更复杂。

这个应用下的网络模型一般是由卷积和反卷积,以及一些激活函数构成的。 卷积层用于计算特征图,反卷积用于上采样计算新的像素点。这种模型结构的好处很明显,你可以输入任意大小的图片尺寸,最终都能得到一个固定系数放大后的输出图像。

那么这项技术对于音视频领域有什么意义呢?

最重要的意义在于,可以减少数据传输量,比如我可以只传输一个 360P 的视频数据,但是在你收到视频后,数据通过超分算法放大为 720P,然后渲染显示出来。你看,传输数据量变小了,对于带宽的压力小了,但你仍能看到高清视频。

但比较遗憾的是,目前这个技术在运用到实际场景时,还是存在很多让人意想不到的问题。我们还是拿“猫尾巴”做例子,可以看下面这张图,左半部分的红框中的条纹,是经过超分辨率神经网络模型处理后,额外产生的。这也是目前很多超分网络的通病。这是由于神经网络需要抗模糊和锐化图像,但这也会导致本来应该是平滑的区域,却出现锐化的条纹。

不仅如此,正如刚刚所说的,超分辨率算法模型还要面临算法复杂度、性能与质量的挑战。因为当我们将这些算法应用到不同实际运行环境中时,也会收到硬件设备性能等因素的限制。现在很多院校、机构、技术团队也都在做相关研究。相关的专业比赛也有不少。最近就有这么一场围绕“超分辨率图像性能”的技术挑战赛正在进行中。

近期,由声网 Agora、RTC 开发者社区联合DataCastle数据城堡,正式发布了超分辨率图像性能挑战赛,旨在吸引更多研究人员参与超分辨率算法的研究,推动超分辨率算法在RTE场景应用,促进工业界与学术界的深度合作。

关于主办方

声网Agora成立于2013年,是全球实时互动云行业开创者,是全球领先的专业服务商。声网Agora为开发者提供简单易用、高度可定制和广泛兼容的应用编程接口API,使得开发者不需要研发或自己构建底层基础设施,只需简单调用Agora API,即可在应用内构建多种实时音视频互动场景。2020年3月单月,声网Agora通过10,000多个活跃应用程序为100多个国家的终端用户提供超过400亿分钟的实时互动。2020年6月,声网Agora登陆纳斯达克,成为全球实时互动云第一股。

声网Agora 的实时互动技术已经赋能到社交直播、在线教育、游戏电竞、IoT、AR/VR、保险、医疗、企业协作等10余行业,共计100多种场景。使用声网Agora服务的企业包括小米、陌陌、新东方、晓黑板、斗鱼、众安保险、The Meet Group、Kumu、印度的欧莱雅等遍布全球的巨头、独角兽及创业企业。

2019年,声网Agora举行AI in RTC-超分辨率挑战赛,吸引了参赛队伍784支,参赛人数1011人,作品提交次数高达1444次。参赛者覆盖北京大学、中国科学研究院、华中科技大学、华南理工大学、西安电子科技大学等知名高校,以及网易、中兴等知名互联网企业,影响超过数十万开发者和技术人才。

赛题任务

将超分辨算法用于处理实时视频流时,模型的处理表现与运算性能,是一个两难的选择。为了追求较低复杂度,可能需要牺牲图像质量;为了追求较高质量的输出,导致设备资源占用过高,产生设备发烫、视频模糊卡顿等现象。

该挑战主要考察算法模型的性能、同时兼顾图像的质量。参赛者需要对图像做2倍的超分辨率处理,算法复杂度控制在2GFLOPs之内,我们提供一个baseline模型,采用PSNR、SSIM及运行时间来综合评估算法的性能,分值高者即获胜。

大赛奖励

一等奖1名:30000元

二等奖1名:20000元

三等奖1名:10000元

优秀奖若干:3000元

注:提交作品即可进入声网Agora招聘绿色通道。

赛程安排

7月28日:比赛开放报名,公布训练集

8月12日:公布测试集(LR),直至9月16日比赛结束期间,参赛者需要按照赛题要求提交参赛模型

9月16日:线上初赛结束后前排队伍提交代码,大赛组织方进行反作弊

9月19日:线上决赛

参赛规则

大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,组队上限5人。

大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛;主办方员工参赛,可参与排名,但不参与评奖及领取奖金。

直达通道

????扫码报名????

????赛事交流????

戳“阅读原文”,立刻参与大赛

以算法重构视频技术前沿,超分辨率算法那些事相关推荐

  1. 你们的老朋友又来啦!来听小强讲视频超分辨率算法前沿进展

    视频是当前网络媒体主要形式,也是网络带宽资源的主要消耗者.通过视频压缩技术,人们可以使视频以较小的网络带宽消耗进行传输,但传输后被压缩而成的"高糊视频"体验可想而知.如何让视频以更 ...

  2. 微信团队分享:视频图像的超分辨率技术原理和应用场景

    为什么80%的码农都做不了架构师?>>>    本文来自微信多媒体团队高欣玮的技术分享. 1.前言 图像和视频通常包含着大量的视觉信息,且视觉信息本身具有直观高效的描述能力,所以随着 ...

  3. 网络通道数2的倍数_利用双通道卷积神经网络的图像超分辨率算法

    发布时间: 2016-05-25 摘要点击次数: 288 全文下载次数: 39 DOI: 10.11834/jig.20160503 2016 | Volumn 21 | Number 5 图像处理和 ...

  4. 1.5K star量,上古老番变4K,B站开源超分辨率算法

    来源:机器之心 本文约1200字,建议阅读5分钟 本文为你介绍B站AI实验室的最新成果. 喜欢看动漫的人经常会被一些经典作品的情节所吸引,不过画面质量是欣赏下去的大敌 -- 那些超过十年历史的内容自不 ...

  5. 经典论文复现 | 基于深度卷积网络的图像超分辨率算法

    过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...

  6. 阿里-优酷视频增强和超分辨率挑战赛冠军方案:VESR-Net

    作者单位:中国科学技术大学.微软亚洲研究院 论文:https://arxiv.org/pdf/2003.02115.pdf 挑战赛:https://tianchi.aliyun.com/competi ...

  7. 超分辨率算法大战!AI in RTC 创新挑战赛——20万巨奖等你来拿!

    AI in RTC 创新挑战赛--超分辨率挑战开始了! 报名直达: https://challenge.rtcdeveloper.com/ai-in-rtc/ 还未加入的小伙伴要抓紧啦! 比赛概况 超 ...

  8. 腾讯图像超分辨率算法RealSR,开源了

    近日,腾讯优图实验室提出一种新的图像超分辨率算法RealSR并开源.该算法在CVPR-NTIRE-2020真实图像超分比赛中以明显优势获得双赛道冠军. 赛事介绍 在2020年的NTIRE真实图像超分比 ...

  9. 业内首个!基于移动端增强视频通话画质的超分辨率算法

    在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅.标清到高清.超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动 ...

最新文章

  1. Web Api单元测试写法
  2. Oracle RAC系列之:利用srvctl管理RAC数据库
  3. 【赠书】21世纪科技竞争的核心是超级智能的控制权
  4. koa2 mysql增删改查_koa2实现对mysql的增删改查函数封装
  5. 傅里叶变换处理音频c++_KWS-SoC——基于Wujian100的音频流关键词检测SoC拓展开发笔记之一...
  6. 微型统计分析系统README
  7. SAP系统和微信集成的系列教程之八:100行代码在微信公众号里集成地图搜索功能
  8. mysql学习笔记01-创建数据库
  9. LDA-Latent Dirichlet Allocation 学习笔记
  10. 两个pv挂一个vg_两个pv挂一个vg_VG解散LOL分部,LPL官网提前改名,下赛季被“RA”收购...
  11. TensorFlow 三岁了,你想对它说点什么?
  12. C++ Hash表模板
  13. 查看unix和linux的HBA卡的WWN地址
  14. Javascript高级程序设计第四版详细测评
  15. 学计算机逻辑思维能力测试题,逻辑思维能力测试题5道含答案
  16. css最好看最全的按钮样式,动画效果大全,纯css样式
  17. 名企真题-警察抓小偷游戏——数学
  18. 2021数学建模C题详细思路,代码,论文,参考文献
  19. uniapp nvue运用map组件实现地图标注以及检索周边地址
  20. 【巡店软件系统开发】2-1 WEB软件宣传网站

热门文章

  1. 聚类方法:DBSCAN算法研究
  2. Golang基本变量
  3. 【实践驱动开发3-001】TI WL1835MODCOM8 在android的移植 - 准备
  4. 天津大学计算机专业怎么样,请问天大计算机专业的研究生怎么样啊?
  5. 中传计算机学院考研笔记,中传考研 新闻编辑重点笔记 整理版.doc
  6. wordpress插件翻译不生效_谷歌浏览器自带翻译功能如何设置?不喜欢用插件的快来看...
  7. python独立图形_在networkx中查找图形对象中的独立图形
  8. echart 设置y轴间隔_ECharts 柱状图之间的间距怎么调整的?y轴的线怎么调出来? 做成表格状。...
  9. 深度卷积神经网络_深度卷积神经网络中的降采样
  10. java打印结果横向排列_Java8排列组合(6行代码实现)