arxiv链接:https://arxiv.org/abs/2010.11838

project主页:https://chenyanglei.github.io/DVP/index.html

video:https://youtu.be/07A3aRF4s0g

许多图像处理算法已在单个图像处理任务中表现了出色的性能,但是将它们直接应用于视频上通常会有时域不一致问题(例如闪烁问题),如图1所示。 为了提高时域一致性,大多数研究人员针对不同的视频处理任务设计了专用算法,例如视频上色,视频去噪和视频超分辨率。 尽管特定任务的视频处理算法可以改善时域一致性,但是能否将类似的策略应用于其他任务尚不清楚或具有挑战性。 不同于前者,作者提出了一种新颖且通用的框架,该框架可以将图像处理算法转换为对应的具有高度时域一致性的视频处理算法。

输入视频帧 应用图像上色算法的预处理视频

图1. 将图像算法应用上视频上

作者观察到一种称作深度视频先验(Deep Video Prior, DVP)的现象:利用视频帧来训练卷积网络的过程中,视频不同帧之间的对应图像块的网络预测输出倾向于一致。 此外,作者认为,视频中的闪烁现象类似于时域中的”噪声“,可以通过该深度视频先验来进行校正。具体而言,在尝试拟合带有闪烁问题的预处理视频时,网络会首先拟合视频中的共同特征,最后才会拟合到不稳定的闪烁噪声。

预处理视频 算法输出

图2. 利用作者算法处理一个不稳定的预处理视频

图3. 算法框架对比

将输入视频帧I_t通过应用图像处理算法f可获得相应的预处理帧P_t = f(I_t)。 例如,图像处理算法f可以是图像着色,图像去雾或任何其他算法。该框架通过输入视频和预处理视频来获得具有时域一致性的输出视频,如图2所示。 该算法整体框架如图3所示,作者使用一个全卷积网络g模仿原始图像算法f,同时保持时域一致性。 与前人工作(Lai et al.) 不同,训练仅需单个视频,并且仅使用单个帧进行每次训练迭代。 作者对网络进行进行随机初始化,然后可以在每次网络优化迭代中使用单个数据项对其进行优化,而无需进行任何显式正则化(如光流等)。如图2所示,视频的时域稳定性得到了较大提升。

图4. 两种时域不稳定现象

作者发现许多时域不一致问题属于单模态不一致:所有预处理帧接近于同一模式但是相互之间略有不一致。然而,对于某些任务,存在单一输入具有多种可能预测结果(例如,在上色算法中,汽车可能会被着色为红色或蓝色)。在这种情况下,如图4右图所示,预处理视频中的时间不一致在视觉上更加明显。由于多个模态之间的差异可能很大,因此对不同模式进行平均会导致较差的性能,这与任何一种可能的输出都相去甚远。以前的方法无法生成一致的结果[19]或倾向于大大降低原始性能[3]。

作者提出了一种迭代加权训练(IRT)策略来处理多模态时域不一致的问题,因为它无法被基本的深度视频先验(DVP)来解决。在IRT中,置信度旨在为每个像素从多种模式中选择一种主模式,而忽略离群值(一种次要模式或多种模式)。作者通过增加网络输出中的通道数量(例如,两个RGB图像为六个通道)以获得两个输出:一个主帧; 和一个离群帧。最终我们通过置信图来选择不同的像素用以训练两个不同的帧。

θi+1=arg⁡min⁡θL_data(C_t,i⊙O_t,imain⁡,C_t,i⊙P_t)+L_data((1−C_t,i)⊙O_t,iminor⁡,(1−C_t,i)⊙P_t)\begin{aligned} \theta^{i+1}=\underset{\theta}{\arg \min } & L\_{\text {data}}\left(C\_{t, i} \odot O\_{t, i}^{\operatorname{main}}, C\_{t, i} \odot P\_{t}\right)+\\ & L\_{\text {data}}\left(\left(1-C\_{t, i}\right) \odot O\_{t, i}^{\operatorname{minor}},\left(1-C\_{t, i}\right) \odot P\_{t}\right) \end{aligned}θi+1=θargmin​​L_data(C_t,i⊙O_t,imain,C_t,i⊙P_t)+L_data((1−C_t,i)⊙O_t,iminor,(1−C_t,i)⊙P_t)​

作者首先通过实验中的7个任务评估框架,包括视频上色、视频去雾、视频增强、视频白平衡等等。作者利用两个指标分别评估视频稳定性和效果退化问题并且在两个指标上都超过了盲视频时域一致性领域内最好的算法。作者也进行了一个user study,在大多数任务上作者的结果最受喜爱。


图5. 算法效果对比示例

如图5所示,在上色和白平衡的任务中,作者的算法得到了时域一致性的结果,同时最大程度上保留图像算法的效果。


图6. IRT的影响

如图6所示,通过使用IRT策略,在面临多模态不一致问题时,作者算法依旧可以得到时域稳定的效果。


图7. 不同网络结构的影响

如图7所示,作者验证了深度视频先验(DVP)在多种网络结构上都是有效的。

总结

作者提出了一种简单而通用的方法来提高经图像算法处理的预处理视频时的时域一致性。基于作者观察到的深度视频先验(DVP),作者通过利用单个视频从头训练CNN来实现时域一致性。与以前的工作相比,作者的方法要简单得多,并且可以产生令人满意的结果(更好的时域一致性以及更大程度保留原始算法效果)。作者的迭代加权训练(IRT)策略还很好地解决了具有挑战性的多模态不一致问题。作者认为,所提出的方法的简单性和有效性可以将图像处理算法转化成其对应的视频处理算法。因此,利用该框架,人们可以将最新的图像处理算法直接应用于视频。

作者方法的局限性之一是相对较长的测试时间。尽管作者的方法不需要训练大型数据集,但需要为每个视频训练一个单独的模型,与Lai等人相比,比直接推理要花费更多的时间。但是,与以前采用显式采用光流来增强时域一致性的方法不同,作者证明了这一点,通过神经网络训练可以隐式地实现视频先验(即时域一致性)。

作者表示,他们将专注于提高效率以缩短实际应用中的处理时间。此外,作者相信DVP的概念可以进一步扩展到其他类型的数据,例如3D数据和多视图图像。 DVP不依赖于视频帧的顺序,并且自然应适用于维护多个图像之间的多视图一致性。对于3D volume数据,3D CNN也可能表现出DVP的相似属性。

作者介绍

雷晨阳,香港科技大学三年级博士生,博士导师陈启峰,本科毕业于浙江大学,主要研究领域:计算摄影学,图像处理和视频处理,low-level computer vision,3D vision。

邢亚洲,香港科技大学三年级博士生,博士导师陈启峰,本科毕业于武汉大学,主要研究领域:计算摄影学,图像增强,low-level computer vision。

图像算法处理视频不稳定?港科大团队提出一种通用算法解决视频处理时域不稳定问题相关推荐

  1. 北理工团队提出一种神经表征驱动的手部运动解码深度学习模型

    近日,北京理工大学机械与车辆学院毕路拯教授团队提出一种神经表征驱动的手部运动解码深度学习模型.研究成果以"MRCPs-and-ERS/D-Oscillations-Driven Deep L ...

  2. windows当服务器不稳定,windows7网速不稳定上网总是断断续续的几种原因和解决方法...

    如果遇到windows7系统网速不稳定的问题怎么解决呢?网速的快慢影响的工作效率,如果网速慢了,打开一个网页要很久是,所以大家对网速的追求都比较高.一些小伙伴就遇到windows7网速不稳定,总是断断 ...

  3. 7Papers|斯坦福学者造出机器鸽;港科大等提出学生情绪分析新系统

    机器之心&ArXiv Weekly Radiostation 参与:杜伟,楚航,罗若天 本周既有港科大.哈工程等机构提出的观察课堂学生情绪变化.注意力集中程度的 EmotionCues 系统, ...

  4. 单张人像生成视频!中国团队提出FaceAnime:最新3D人脸视频生成模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:新智元 |  来源:IEEE 编辑:好困 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量 ...

  5. CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架

    该论文成功提出了第一个无需额外指导或了解闪烁的通用去闪烁方法,可以消除各种闪烁伪影. 高质量的视频通常在时间上具有一致性,但由于各种原因,许多视频会出现闪烁.例如,由于一些老相机硬件质量较差,不能将每 ...

  6. 无需多个模型也能实现知识整合?港中文MMLab提出「烘焙」算法,全面提升ImageNet性能...

    视学算法专栏 转载自:机器之心 作者:葛艺潇 来自港中文 MMLab 的研究者提出一种烘焙(BAKE)算法,为知识蒸馏中的知识整合提供了一个全新的思路,打破了固有的多模型整合的样式,创新地提出并尝试了 ...

  7. 《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型.视频和语言学习领域的主流方法试图从大规模视频文本数据 ...

  8. 怎么把视频合并到一起?这几种方法轻松合并视频

    怎么把视频合并到一起呢?随着智能手机的普及以及拍摄技术的日益完善,大家出门在外会随手使用手机来拍摄视频,在视频编辑过程中,将多个视频文件合并为一个视频文件可以使观看过程更加顺畅,可以产生一个不错的观看 ...

  9. 卫星图片重建洛杉矶3D模型,效果就像谷歌地球,港中大团队提出CityNeRF

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看到下面这张动图,你会想到什么?是谷歌地球,还是苹果自带的3D地图? 其实都不是,它是用卫星和航拍图片直接渲染生成的洛杉矶. 很难想象,如此 ...

最新文章

  1. 技术图文:如何解决 DAO 抛出的 80040154 错误?
  2. 魏少军谈AI芯片热潮和架构创新 透露清华Thinker芯片将独立融资
  3. 用java做出32选7_用java做的一个彩票32选7的简单程序
  4. python 温度 符号_Python通过小实例入门学习---1.0(温度转换)
  5. Spring Boot配置MinIO(实现文件上传、下载、删除)
  6. python去重排序_python读取TXT到数组及列表去重后按原来顺序排序的方法
  7. Python单元测试框架之pytest -- fixtures
  8. 获取微信公众号地址的图片不能正常显示的问题
  9. 小白linux学习[1]__虚拟机NAT方式共享电信拨号上网
  10. shader篇-纹理-渐变纹理
  11. [从头读历史] 第248节 先天八卦和后天八卦
  12. 计算机专业—毕业设计题目大全
  13. 以nba球员数据学习聚类算法
  14. python读取整个txt文件-python读取一个目录下所有txt里面的内容方法
  15. 传真百科:电子传真邮件客户端
  16. 9月赠书活动名单公布啦!
  17. C++ GUI Programming with Qt4 Second Edition 之 前言
  18. 全国考研计算机成绩排名,全国33所计算机考研名校跨考难度系数排名
  19. 如何理解六西格玛MSA测量系统分析中的线性
  20. 数据指标 VS 标签体系,到底有啥区别?终于讲清楚了。

热门文章

  1. pdf在线转换图片该如何进行操作
  2. 最大化平均值 (二分搜索法)
  3. mongo connections url string 的问题
  4. 不使用第三个变量交换两个变量的值
  5. 第二天学习Java的笔记
  6. centos主题设置
  7. mac 用户 文件夹 权限_这可能是 Mac 共享文件最详细的教程了
  8. 基于python的FFT频率和振幅处理
  9. java7 xp版下载64位_JRE7 64位下载|JRE7 64位(java运行环境) V1.7.0.65官方版
  10. VC++获取屏幕大小第一篇 像素大小GetSystemMetrics