点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨雷晨阳、邢亚洲

编辑丨极市平台

导读

许多图像处理算法虽在单个图像处理中表现出色,但将其直接用于视频时往往会遇到时域不一致问题。本文提出一种通用的框架,可将图像处理算法转换为对应的具有高度时域一致性的视频处理算法,以解决上述问题。

arxiv链接:https://arxiv.org/abs/2010.11838
project主页:https://chenyanglei.github.io/DVP/index.html
video:

许多图像处理算法已在单个图像处理任务中表现了出色的性能,但是将它们直接应用于视频上通常会有时域不一致问题(例如闪烁问题),如图1所示。为了提高时域一致性,大多数研究人员针对不同的视频处理任务设计了专用算法,例如视频上色,视频去噪和视频超分辨率。尽管特定任务的视频处理算法可以改善时域一致性,但是能否将类似的策略应用于其他任务尚不清楚或具有挑战性。不同于前者,作者提出了一种新颖且通用的框架,该框架可以将图像处理算法转换为对应的具有高度时域一致性的视频处理算法。

输入视频帧 应用图像上色算法的预处理视频

图1. 将图像算法应用上视频上

作者观察到一种称作深度视频先验(Deep Video Prior, DVP)的现象:利用视频帧来训练卷积网络的过程中,视频不同帧之间的对应图像块的网络预测输出倾向于一致。 此外,作者认为,视频中的闪烁现象类似于时域中的”噪声“,可以通过该深度视频先验来进行校正。具体而言,在尝试拟合带有闪烁问题的预处理视频时,网络会首先拟合视频中的共同特征,最后才会拟合到不稳定的闪烁噪声。

预处理视频 算法输出

图2. 利用作者算法处理一个不稳定的预处理视频

图3. 算法框架对比

将输入视频帧通过应用图像处理算法f可获得相应的预处理帧()。例如,图像处理算法f可以是图像着色,图像去雾或任何其他算法。该框架通过输入视频和预处理视频来获得具有时域一致性的输出视频,如图2所示。该算法整体框架如图3所示,作者使用一个全卷积网络g模仿原始图像算法f,同时保持时域一致性。与前人工作(Lai et al.) 不同,训练仅需单个视频,并且仅使用单个帧进行每次训练迭代。作者对网络进行进行随机初始化,然后可以在每次网络优化迭代中使用单个数据项对其进行优化,而无需进行任何显式正则化(如光流等)。如图2所示,视频的时域稳定性得到了较大提升。

图4.  两种时域不稳定现象

作者发现许多时域不一致问题属于单模态不一致:所有预处理帧接近于同一模式但是相互之间略有不一致。然而,对于某些任务,存在单一输入具有多种可能预测结果(例如,在上色算法中,汽车可能会被着色为红色或蓝色)。在这种情况下,如图4右图所示,预处理视频中的时间不一致在视觉上更加明显。由于多个模态之间的差异可能很大,因此对不同模式进行平均会导致较差的性能,这与任何一种可能的输出都相去甚远。以前的方法无法生成一致的结果[19]或倾向于大大降低原始性能[3]。

作者提出了一种迭代加权训练(IRT)策略来处理多模态时域不一致的问题,因为它无法被基本的深度视频先验(DVP)来解决。在IRT中,置信度旨在为每个像素从多种模式中选择一种主模式,而忽略离群值(一种次要模式或多种模式)。作者通过增加网络输出中的通道数量(例如,两个RGB图像为六个通道)以获得两个输出:一个主帧; 和一个离群帧。最终我们通过置信图来选择不同的像素用以训练两个不同的帧。

作者首先通过实验中的7个任务评估框架,包括视频上色、视频去雾、视频增强、视频白平衡等等。作者利用两个指标分别评估视频稳定性和效果退化问题并且在两个指标上都超过了盲视频时域一致性领域内最好的算法。作者也进行了一个user study,在大多数任务上作者的结果最受喜爱。

‍图5. 算法效果对比示例‍

如图5所示,在上色和白平衡的任务中,作者的算法得到了时域一致性的结果,同时最大程度上保留图像算法的效果。

图6. IRT的影响‍

如图6所示,通过使用IRT策略,在面临多模态不一致问题时,作者算法依旧可以得到时域稳定的效果。

图7. 不同网络结构的影响‍

如图7所示,作者验证了深度视频先验(DVP)在多种网络结构上都是有效的。

总结

作者提出了一种简单而通用的方法来提高经图像算法处理的预处理视频时的时域一致性。基于作者观察到的深度视频先验(DVP),作者通过利用单个视频从头训练CNN来实现时域一致性。与以前的工作相比,作者的方法要简单得多,并且可以产生令人满意的结果(更好的时域一致性以及更大程度保留原始算法效果)。作者的迭代加权训练(IRT)策略还很好地解决了具有挑战性的多模态不一致问题。作者认为,所提出的方法的简单性和有效性可以将图像处理算法转化成其对应的视频处理算法。因此,利用该框架,人们可以将最新的图像处理算法直接应用于视频。

作者方法的局限性之一是相对较长的测试时间。尽管作者的方法不需要训练大型数据集,但需要为每个视频训练一个单独的模型,与Lai等人相比,比直接推理要花费更多的时间。但是,与以前采用显式采用光流来增强时域一致性的方法不同,作者证明了这一点,通过神经网络训练可以隐式地实现视频先验(即时域一致性)。

作者表示,他们将专注于提高效率以缩短实际应用中的处理时间。此外,作者相信DVP的概念可以进一步扩展到其他类型的数据,例如3D数据和多视图图像。DVP不依赖于视频帧的顺序,并且自然应适用于维护多个图像之间的多视图一致性。对于3D volume数据,3D CNN也可能表现出DVP的相似属性。

作者介绍

雷晨阳,香港科技大学三年级博士生,博士导师陈启峰,本科毕业于浙江大学,主要研究领域:计算摄影学,图像处理和视频处理,low-level computer vision,3D vision。

邢亚洲,香港科技大学三年级博士生,博士导师陈启峰,本科毕业于武汉大学,主要研究领域:计算摄影学,图像增强,low-level computer vision。

Tips

◎本文为论文作者原创投稿,转载请注明来源。

◎极市「论文推荐」专栏,帮助开发者们推广分享自己的优秀工作,欢迎大家投稿。联系极市小编(fengcall19)即可投稿~

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

图像算法可以稳定处理视频了!港科大开源通用算法,解决视频处理时域不稳定问题|NeurIPS 2020...相关推荐

  1. 图像算法处理视频不稳定?港科大团队提出一种通用算法解决视频处理时域不稳定问题

    arxiv链接:https://arxiv.org/abs/2010.11838 project主页:https://chenyanglei.github.io/DVP/index.html vide ...

  2. 玩不起RLHF?港科大开源高效对齐算法木筏,GPT扩散模型都能用

    原文:玩不起RLHF?港科大开源高效对齐算法木筏,GPT扩散模型都能用_训练_人类_微调 开源大模型火爆,已有大小羊驼LLaMA.Vicuna等很多可选. 但这些羊驼们玩起来经常没有ChatGPT效果 ...

  3. 不仅搞定“梯度消失”,还让CNN更具泛化性:港科大开源深度神经网络训练新方法

    原文链接:不仅搞定"梯度消失",还让CNN更具泛化性:港科大开源深度神经网络训练新方法 paper: https://arxiv.org/abs/2003.10739 code: ...

  4. 对标GPT核心技术RLHF!港科大开源RAFT「木筏」,适用GPT扩散模型

    梦晨 发自 凹非寺  量子位 | QbitAI 开源大模型火爆,已有大小羊驼LLaMA.Vicuna等很多可选. 但这些羊驼们玩起来经常没有ChatGPT效果好,比如总说自己只是一个语言模型.没有感情 ...

  5. 玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型火爆,已有大小羊驼LLaMA.Vicuna等很多可选. 但这些羊驼们玩起来经常没有ChatGPT效果好,比如总说自己只是一个语言模型.没 ...

  6. 港科大开源 | 基于事件的双目视觉里程计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 1 摘要 本文提出了一种双目事件相机的视觉里程计方法.我们的系统遵循并行跟踪和建图的方法,建图模块以概 ...

  7. 图像反光能被一键去除了?港科大开源RFC,仅用一个操作,强反光也能完美去除|CVPR2021...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨雷晨阳 审稿丨邓富城 编辑丨极市平台 导读 本文介绍一篇来自香港科技大学中稿CVPR2021的工 ...

  8. EMNLP2021 “Transformer+预训练”再下一城,港科大开源高效的多模态摘要总结网络...

    关注公众号,发现CV技术之美 ▊ 写在前面 多模态摘要总结(Multimodal abstractive summarization,MAS)模型总结了视频(视觉模态)及其相应的文本(文本模态)的知识 ...

  9. 图像反光能被一键去除了?港科大开源RFC,仅用一个操作,强反光也能完美去除|CVPR2021

    本文首发极市平台(微信公众号同名),转载请标明出处. 极市平台是国内专业的计算机视觉开发者平台,原文请戳这里. 代码以及数据集:https://github.com/ChenyangLEI/flash ...

最新文章

  1. php 数组值的交集,PHP 数组交集与差集
  2. 超详细find命令解析,一遍就会!!!
  3. Agile PLM Item Title Block Tab
  4. curl测试返回时间
  5. Python 09--多线程、进程
  6. 双眼融合训练一个月_视觉融合你知道多少
  7. 阮一峰:Flex 布局教程
  8. The 2018 ACM-ICPC上海大都会赛 J Beautiful Numbers (数位DP)
  9. Fastformer:简单又好用的Transformer变体!清华MSRA开源线性复杂度的Fastformer!
  10. 怎样把台式机变成虚拟服务器,怎么把文件传到虚拟主机
  11. mybatisplus多表关联查询_ET工具_KETTLE多表关联
  12. 你可能不知道的Chrome-devtools用法总结
  13. Linux命令之lsof
  14. 微信小程序开发--【Hello World 及代码结构】(二)
  15. 盘点那些牛逼却不为人所知的软件
  16. 共模电感的工作原理及选型
  17. 相机和镜头选型计算公式
  18. 北大青鸟 某百货商场当日他在消费积分最高的八名顾客,他们的积分分别是18,25,7,36,13,2,89,63.编写程序找出的积分及他在数组中的下标
  19. 2022年中式面点师(初级)考试题库及模拟考试
  20. 软件工程基础第一次作业

热门文章

  1. js的eval函数解析后台返回的json数据时为什加上圆括号eval((+data+)),而HTML页面定义的数据不用...
  2. uitableView 选择跳过后, 跳回 颜色变化 问题
  3. 8)排序④排序算法之归并排序
  4. java 发送邮件
  5. 论坛第20000名幸运儿是谁?
  6. Java调用库文件(JNI)(android对此有所改变)
  7. 怒肝两个月MySQL源码,我总结出这篇2W字的MySQL协议详解(超硬核干货)!!
  8. 牛逼了!8000页Java 核心知识点+面试题整理,超全!
  9. 这么流行的ZooKeeper,原来是这样设计的!
  10. 全球支付平台paypal社招一面,二面合并面经