动手点关注

干货不迷路

近日,CVPR Workshop 下属的 NTIRE2023大赛公布比赛结果,在双目超分双三次插值保真赛道和 360° 全景图像超分赛道上,火山引擎多媒体实验室凭借自主研发的算法获得了双料冠军,技术能力达到行业领先水平。

NTIRE(New Trends in Image Restoration and Enhancement)是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议 CVPR(CCF-A)上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。

双目超分比赛结果

360°全景图像超分比赛结果

双目超分(双三次插值保真)赛道:自研 HTCN 网络,显著提升立体视觉图像分辨效果

随着双目成像技术的发展,移动电话、虚拟现实、自动驾驶和机器人中的双目相机应用越来越受欢迎,高分辨率双目图像包含更多的纹理细节,具有更好的主观视觉效果,且可以提升下游任务性能, 因此立体视觉引起了学术界和工业界的越来越多的关注。双目图像超分的简单直接方式是将单图超分辨率算法分别应用于左右视角图像,但是这样会忽略双目图像左右视角之间的信息关联--左右视角图像可以在超分过程中利用左右视角间的互补信息互为参考,同时也为双目图像超分提供额外的先验约束。因此合理利用左右视角间的互补信息对提升双目图像超分性能至关重要。本次竞赛双目超分双三次插值保真赛道旨在为双目图像SR建立一个利用双三次插值下采样的基准,并且利用最后的保真指标作为评价指标,为研究人员提供了一个共同分享他们的知识和见解的机会,推进算法性能的提高,促进立体图像超分辩技术的发展。

在图像恢复任务中,经常采用多阶段的处理策略。虽然基于 Transformer 的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中还没有展现出比基于 CNN 的方法更显著的优势。这可以归因于两个关键因素:首先,当前的单图像超分辨率 Transformer 在处理过程中无法利用补充的立体信息;其次,Transformer 的性能通常依赖于充分的数据,而在常见的立体图像超分辨率任务中缺乏足够的数据。为了解决这些问题,团队提出了一种混合 Transformer 和 CNN 注意力网络(HTCAN),它利用基于 Transformer 的网络进行单图像增强和基于 CNN 的网络进行立体信息融合。此外,团队采用了 multi-patch 训练策略和更大的窗口尺寸,以扩大感知域。团队还重新审视了其他高级技术,如数据增强、数据合成和模型合成,以减少过拟合和数据偏差,最终超过其他竞争对手,获得第一名的成绩。

论文链接: https://arxiv.org/pdf/2305.05177.pdf

整体双目超分策略

360° 全景图像超分赛道:两阶段框架提升全方位视角图像分辨率

360° 全景图像是一种能够呈现全方位视角的图像,能够提供更加沉浸式和交互式的体验,因此在 VR/AR 应用中得到了广泛的应用。然而,由于采用的鱼眼镜头等原因,360° 全景图像的分辨率较低,影响了图像的清晰度和细节。因此,如何提高 360° 全景图像的分辨率成为了一个重要的研究方向。

超分辨率是一种图像处理技术,旨在通过从低分辨率图像中恢复高分辨率图像的细节信息来提高图像的分辨率。在 360° 全景图像中,超分辨率技术可以通过从低分辨率的全景图像中恢复缺失的高频信息来提高图像的清晰度和细节,从而提高用户的体验。

在此次竞赛中,团队提出了一种 360° 全景图像超分辨率的两阶段框架。第一阶段采用了两个分支:Model A,它包含全景位置感知可变形块(OPDB)和傅里叶上采样;Model B 在模型 A 的基础上增加了空间频率融合模块(SFF)。Model A 旨在增强 360° 图像位置信息的特征提取能力,而 Model B 进一步关注 360° 图像的高频信息。第二阶段基于 Model A 的结构进行 360° 图像的同分辨率增强。此外,团队从公开数据集收集球面数据并使用退化网络生成伪低分辨率图像,以提高 Transformer 的拟合能力。团队提出的方法取得了卓越的性能,并赢得了 NTIRE 2023 360° 全景图像超分辨率挑战赛的冠军。

论文链接: https://arxiv.org/pdf/2304.13471.pdf

整体球面超分策略

Model A 和 Model B 的网络结构

火山引擎多媒体实验室在双目超分双三次插值保真和 360° 全景图像超分领域实现了突破性的进展,并获得了双赛道冠军。两项技术方案可以帮助广大用户在多样化的复杂场景中获得更为清晰、精细的图像展现效果,有助于推动视频行业向着更加智能化、高效化的方向发展。其中,360° 全景图像超分技术已在幸福里 app 落地应用,并通过火山引擎 veImageX 产品面向企业开放。

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

加入我们

字节跳动视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。

目前,视频架构团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。

火山引擎 联系方式

  • 业务咨询:service@volcengine.com

  • 市场合作:marketing@volcengine.com

  • 电话:400-850-0030

扫描下方二维码 or 点击文末阅读原文进行简历投递,加入我们,让我们一起做多媒体领域的领军者!

视频编解码算法工程师-多媒体实验室(北京/上海/杭州/深圳职位开放)

 点击「阅读原文」即刻投递

助力 VR/AR 等复杂图像场景极致高清,火山引擎夺得 NTIRE 大赛双料冠军相关推荐

  1. java dcm转bmp源码_DCM文件转图像,并高清处理图像

    [实例简介] DCM文件转图像,并高清处理图像 [实例截图] [核心代码] #region DicomHandler 医学图像解析 class DicomHandler { string fileNa ...

  2. PPT科研绘图:将PPT绘制的图像保存为高清图片

    目录 step1: 改变PPT的导出分辨率设置 step2: 打开PPT,设置"图片大小和质量" step3: 将PPT页面导出为图像 step4:图片裁剪 在论文写作中需要用到高 ...

  3. ar开发 ue4_助力VR/AR行业应用开发,UE4全面支持ARKit和ARCore

    虚幻引擎4(Unreal Engine 4,简称UE4)是站在行业前端的开发引擎.VR.AR项目可以通过使用UE4来完善功能,提高效率.更优化的流程,更便捷的操作,更通用的工具,是每个开发者梦寐以求的 ...

  4. 公司普通启动VR/AR软件开发虚拟场景游戏

    随着元宇宙技术的不断革新,VR作为一种新兴技术,正在迅速普及.VR软件开发技术将用户沉浸到虚拟世界中,让人们可以身临其境地体验一些事物,如元宇宙游戏.商圈.展会.旅游等.而VR虚拟场景的开发,则是实现 ...

  5. IGNN图卷积超分网络:挖掘隐藏在低分辨率图像中的高清纹理

    本文转载自商汤泰坦公开课. 摘要 · 看点 在NeurIPS 2020上,南洋理工大学.商汤和哈工大研究员联合提出了跨尺度的图卷积超分网络IGNN.近些年来,Non-local方法利用同尺度的自相似性 ...

  6. 移动端调取摄像头上面如何给出框_智能AI助力家居安防,创维小湃高清智能摄像头...

    对于我们这样上有老下有小的一代人来说,家居安防是我们生活中关注的重点.暑假中孩子天天呆在家里有没有乱跑乱爬,家里的老人有没有出门后忘记关火?作为猫奴家里的小猫咪有没有又一次捣乱?一款可以全景监控,远程 ...

  7. 动漫城堡场景Mac高清壁纸

    一组动漫城堡场景高清壁纸分享,色彩搭配十分均衡,让人瞬间有画面感.

  8. 全场景AI高清液晶电视机,和人工智能一起观看LPL春季赛

    随着电竞的日益火爆,英雄联盟作为当下最火热的电竞赛事项目之一,早已被数以亿计的玩家所关注和追捧.数据显示,2020年LPL(英雄联盟中国赛区)职业赛事直播观赛人次超过218亿,职业赛事内容观看量超过1 ...

  9. MATLAB模糊控制Suface三维图像导出svg高清矢量图方法

    -在MATLAB命令窗口输入fuzzy,然后在弹出框点 File → Import → From File -在Fuzzy Logic Designer 中点击 View → Suface 由于用MA ...

最新文章

  1. html 移动端(手机)调试 vconsole
  2. CBM——IT与业务融合的重要途径
  3. 香港金管局批出首批五张支付工具牌照,支付宝、微信支付等“合法”上岗
  4. 青龙依赖环境一键安装部署
  5. linux 拆分文件 多个,linux把一个文件拆分
  6. 一睹为快 | 施耐德电气全生命周期智能制造解决方案亮相线上工博
  7. 浅谈C#中的枚举 【转自http://www.cnblogs.com/liyingyi/archive/2005/12/28/306772.html】
  8. 基础总结篇之八:创建及调用自己的ContentProvider
  9. Java单例模式实现(线程安全)
  10. 浏览器与node事件循环
  11. c 转易语言源码,易语言代码转HTML 测试(源码方式)
  12. 微信翻译助手小程序 day2 -翻译功能页
  13. 计算机中毒后开机变慢,电脑中毒后运行慢的解决方法
  14. 【Hexo搭建个人博客】(八)添加背景效果(点击鼠标显示红心并浮现社会主义核心价值观)
  15. halcon第七讲:基于训练学习的颜色检测
  16. snappy格式解析
  17. gazebo设置_gazebo教程(六)插件配置
  18. 项目怎么加入城市服务器,服务器奔溃逼疯玩家 模拟城市5或可加入单机模式
  19. Destoon增加内容页的浏览历史记录
  20. C++实现的BP神经网络(代码与详解)

热门文章

  1. Git的概念、安装、使用和GitHub
  2. 微信小程序收获地址管理
  3. jsp+pageHelper分页
  4. Android 虚拟机进化史
  5. 算是目前看到过最好的面试手册了
  6. 已知两圆圆心坐标及半径求两圆交点 (C语言|参数方程求解)
  7. 水电站生态泄流监测解决方案
  8. UE5文本转语音TTS插件
  9. 计算机科学顶级会议排名,最新的计算机科学实力排名来了!
  10. jvisualvm连接tomcat