(论文笔记)NeRV: Neural Representations for Videos
简要介绍
提出了一种新的视频神经表示,在神经网络中编码视频,将视频表示为以帧索引作为输入的神经网络,编码过程是神经网络拟合视频帧,解码过程是简单的前馈操作。
相关知识
二维图像最常见的显示表示为离散的像素点,但实际的图像信号是连续的。用连续函数去拟合连续信号是一种可行的方法,但连续函数的形式未知,随着神经网络的流行,用神经网络去拟合连续函数的这种表示方法被称为“隐式神经表示“ (Implicit Neural Representation,INR)。INR可以表示函数、图像、视频、体素:
对于图像,INR函数将二维坐标映射到rgb值。对于视频,INR函数将时刻t以及图像二维坐标xy映射到rgb值。对于一个三维形状,INR函数将三维坐标xyz映射到0或1,表示空间中的某一位置处于物体内部还是外部。当然还有其他形式,如NERF将xyz映射到rgb和sigma。总而言之,这个函数就是将坐标映射到目标值。
主要内容
`
视频使用一系列帧来捕捉动态视觉场景,可以理解为2D空间中的曲线,每个点都可以用空间状态的(x,y)对来表示,如果已有一个(x,y)对模型,即给定x,可以获得对应的状态y。以此类推,可以将视频解释为视觉世界的记录,可以在其中找到每个时间戳对应的RGB状态。文章提出如下假设:
如上图,左图视频的传统表示为帧序列,右图将视频表示为神经网络,由MLP和多个NeRV块组成。
基于时空坐标的INR为逐像素表示,输出每个像素的RGB值,而NeRV输出整个图像。给定大小为TWH的视频,逐像素表示需要对视频采样TWH次,而NeRV只需采样T次。对于高分辨率视频,NeRV在编码时间和解码速度上都会显示极大优势,NeRV利用MLP+ConvNets架构来输出图像,而逐像素表示使用简单的MLP输出像素的RGB值,NeRV简化了优化问题,并有了更好的重建质量。
NeRV可用于视频压缩,传统的视频压缩框架的解码过程较复杂,而NeRV将视频压缩转化为模型压缩问题,三个步骤:模型剪枝、模型量化、熵编码。
NeRV是可学习的隐函数,可用于去噪任务,并且已经证明了它对噪声和扰动的鲁棒性,给定带噪声的视频作为输入,无需任何的额外操作即可生成高质量的去噪输出,甚至优于传统的去噪方法。
MLP直接输出所有像素值会产生巨大的参数,尤其是当分辨率很大时。因此NeRV在MLP后堆叠多个NeRV块,以便不同位置的像素可以共享卷积核,从而形成有效的网络。NeRV块由卷积层、激活层和一个上采样层(通过实验证明采用PixelShuffle 技术效果最好)组成。
。
(论文笔记)NeRV: Neural Representations for Videos相关推荐
- 【论文笔记】Neural Relation Extraction with Multi-lingual Attention
一.概要 该paper发于ACL2017上,作者主要基于关系事实通常在各种语言中存在某种模式表达,并且不同语言之间的模式是不同的这两个动机,针对于当前存在的单语言关系抽取的方法,从而存在忽略不同语 ...
- 论文笔记(Neural Collaborative Filtering)
神经协同过滤 论文链接:Neural Collaborative Filtering, WWW'17 原理:融合 GMF 和 MLP 1. 摘要 虽然最近的一些研究使用深度学习作为推荐,但他们主要是用 ...
- 论文笔记(Neural Graph Collaborative Filtering)
神经图协同过滤 论文链接:Neural Graph Collaborative Filtering, SIGIR'19 原理:在 user-item interaction graph 上使用 GNN ...
- 对象上下文语义分割:OCR论文笔记(Object-Contextual Representations for Semantic Segmentation )
对象上下文语义分割:OCR 原文:Object-Contextual Representations for Semantic Segmentation 论文链接: https://arxiv.org ...
- 论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...
- 论文笔记之Distributed Representations of Words and Phrases and their Compositionality
这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题.为了降低复杂度,提高运算效率,论文作者提出了层次softmax以及负采样的方式去解 ...
- 论文笔记【Neural Collaborative Filtering】
标题 * 表示未完成 论文原文 本文使用基于神经网络的模型来分析 user 和 item 的潜在特征,最终设计出了一个基于神经网络的协同过滤通用框架(NCF).此框架融合了线性MF和非线性MLP模型. ...
- 论文笔记:Neural Collaborative Filtering(NCF)
前言 论文链接:https://arxiv.org/abs/1708.05031 github:https://github.com/yihong-chen/neural-collaborative- ...
- 论文笔记:Neural Message Passing for Quantum Chemistry
前言 论文链接:https://arxiv.org/abs/1704.01212 github:https://github.com/ifding/graph-neural-networks 参考:h ...
- 论文笔记:Neural Collaborative Filtering
一.基本信息 论文题目:<Neural Collaborative Filtering> 发表时间:WWW 2017 作者及单位: 二.摘要 In recent years, deep n ...
最新文章
- j2ee性能调优之最小化资源压力测试法则
- 消控中心人员配置_建筑能耗监测系统集中化运行管理模式和人员配置!
- 浅谈线程池(中):独立线程池的作用及IO线程池
- Fiddler本机调试的方法
- leetcode 41. First Missing Positive 1
- Servlet和模本办法
- 如何让jQuery执行同步而不是异步的Ajax请求?
- CCF201609-1 最大波动(100分)【序列处理】
- yolov5学习率设置
- 面向对象-封装继承多态
- 计算机挂个硬盘显示格式化怎么解决,硬盘提示格式化怎么办?硬盘数据怎么恢复?...
- 学计算机需要外接显示器吗,还在使用笔电办公吗?是时候给你的笔记本外接一台显示器...
- Git-删除暂存区文件
- Python Django框架下做电商项目
- Python爬虫获取企查查公开的企业信息
- Navicat for MySQL 12破解
- 从大数据征信看银行风控创新
- OSChina 周三乱弹 —— 假期综合症已发作
- spring cloud实践
- mysql答题闯关题库