简要介绍

提出了一种新的视频神经表示,在神经网络中编码视频,将视频表示为以帧索引作为输入的神经网络,编码过程是神经网络拟合视频帧,解码过程是简单的前馈操作。


相关知识

二维图像最常见的显示表示为离散的像素点,但实际的图像信号是连续的。用连续函数去拟合连续信号是一种可行的方法,但连续函数的形式未知,随着神经网络的流行,用神经网络去拟合连续函数的这种表示方法被称为“隐式神经表示“ (Implicit Neural Representation,INR)。INR可以表示函数、图像、视频、体素:
对于图像,INR函数将二维坐标映射到rgb值。对于视频,INR函数将时刻t以及图像二维坐标xy映射到rgb值。对于一个三维形状,INR函数将三维坐标xyz映射到0或1,表示空间中的某一位置处于物体内部还是外部。当然还有其他形式,如NERF将xyz映射到rgb和sigma。总而言之,这个函数就是将坐标映射到目标值。


主要内容

`

视频使用一系列帧来捕捉动态视觉场景,可以理解为2D空间中的曲线,每个点都可以用空间状态的(x,y)对来表示,如果已有一个(x,y)对模型,即给定x,可以获得对应的状态y。以此类推,可以将视频解释为视觉世界的记录,可以在其中找到每个时间戳对应的RGB状态。文章提出如下假设:

如上图,左图视频的传统表示为帧序列,右图将视频表示为神经网络,由MLP和多个NeRV块组成。
基于时空坐标的INR为逐像素表示,输出每个像素的RGB值,而NeRV输出整个图像。给定大小为TWH的视频,逐像素表示需要对视频采样TWH次,而NeRV只需采样T次。对于高分辨率视频,NeRV在编码时间和解码速度上都会显示极大优势,NeRV利用MLP+ConvNets架构来输出图像,而逐像素表示使用简单的MLP输出像素的RGB值,NeRV简化了优化问题,并有了更好的重建质量。
NeRV可用于视频压缩,传统的视频压缩框架的解码过程较复杂,而NeRV将视频压缩转化为模型压缩问题,三个步骤:模型剪枝、模型量化、熵编码。
NeRV是可学习的隐函数,可用于去噪任务,并且已经证明了它对噪声和扰动的鲁棒性,给定带噪声的视频作为输入,无需任何的额外操作即可生成高质量的去噪输出,甚至优于传统的去噪方法。

MLP直接输出所有像素值会产生巨大的参数,尤其是当分辨率很大时。因此NeRV在MLP后堆叠多个NeRV块,以便不同位置的像素可以共享卷积核,从而形成有效的网络。NeRV块由卷积层、激活层和一个上采样层(通过实验证明采用PixelShuffle 技术效果最好)组成。

(论文笔记)NeRV: Neural Representations for Videos相关推荐

  1. 【论文笔记】Neural Relation Extraction with Multi-lingual Attention

    一.概要   该paper发于ACL2017上,作者主要基于关系事实通常在各种语言中存在某种模式表达,并且不同语言之间的模式是不同的这两个动机,针对于当前存在的单语言关系抽取的方法,从而存在忽略不同语 ...

  2. 论文笔记(Neural Collaborative Filtering)

    神经协同过滤 论文链接:Neural Collaborative Filtering, WWW'17 原理:融合 GMF 和 MLP 1. 摘要 虽然最近的一些研究使用深度学习作为推荐,但他们主要是用 ...

  3. 论文笔记(Neural Graph Collaborative Filtering)

    神经图协同过滤 论文链接:Neural Graph Collaborative Filtering, SIGIR'19 原理:在 user-item interaction graph 上使用 GNN ...

  4. 对象上下文语义分割:OCR论文笔记(Object-Contextual Representations for Semantic Segmentation )

    对象上下文语义分割:OCR 原文:Object-Contextual Representations for Semantic Segmentation 论文链接: https://arxiv.org ...

  5. 论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR

    Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...

  6. 论文笔记之Distributed Representations of Words and Phrases and their Compositionality

    这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题.为了降低复杂度,提高运算效率,论文作者提出了层次softmax以及负采样的方式去解 ...

  7. 论文笔记【Neural Collaborative Filtering】

    标题 * 表示未完成 论文原文 本文使用基于神经网络的模型来分析 user 和 item 的潜在特征,最终设计出了一个基于神经网络的协同过滤通用框架(NCF).此框架融合了线性MF和非线性MLP模型. ...

  8. 论文笔记:Neural Collaborative Filtering(NCF)

    前言 论文链接:https://arxiv.org/abs/1708.05031 github:https://github.com/yihong-chen/neural-collaborative- ...

  9. 论文笔记:Neural Message Passing for Quantum Chemistry

    前言 论文链接:https://arxiv.org/abs/1704.01212 github:https://github.com/ifding/graph-neural-networks 参考:h ...

  10. 论文笔记:Neural Collaborative Filtering

    一.基本信息 论文题目:<Neural Collaborative Filtering> 发表时间:WWW 2017 作者及单位: 二.摘要 In recent years, deep n ...

最新文章

  1. j2ee性能调优之最小化资源压力测试法则
  2. 消控中心人员配置_建筑能耗监测系统集中化运行管理模式和人员配置!
  3. 浅谈线程池(中):独立线程池的作用及IO线程池
  4. Fiddler本机调试的方法
  5. leetcode 41. First Missing Positive 1
  6. Servlet和模本办法
  7. 如何让jQuery执行同步而不是异步的Ajax请求?
  8. CCF201609-1 最大波动(100分)【序列处理】
  9. yolov5学习率设置
  10. 面向对象-封装继承多态
  11. 计算机挂个硬盘显示格式化怎么解决,硬盘提示格式化怎么办?硬盘数据怎么恢复?...
  12. 学计算机需要外接显示器吗,还在使用笔电办公吗?是时候给你的笔记本外接一台显示器...
  13. Git-删除暂存区文件
  14. Python Django框架下做电商项目
  15. Python爬虫获取企查查公开的企业信息
  16. Navicat for MySQL 12破解
  17. 从大数据征信看银行风控创新
  18. OSChina 周三乱弹 —— 假期综合症已发作
  19. spring cloud实践
  20. mysql答题闯关题库

热门文章

  1. python求两个数的最大公约数穷举法_最大公约数GCD算法
  2. Cognos资料整理
  3. 手机端访问本地编写的html页面【亲测有效】
  4. 基于ADS自带二极管的400Mhz倍频器设计
  5. 实现游戏的存档以及读档
  6. 润达软件-督查督办管理系统
  7. 程序猿的24个段子:栈和队列的区别是啥?
  8. android手机存储空间猛增,实测安卓升级到鸿蒙,可用内存增加半个G,存储空间增加6个G...
  9. 计算机组成原理课程笔记
  10. 微信停止为苹果服务器,苹果手机终于解决了微信延迟