【学习笔记】深度学习视频处理

视频处理

视频是由一系列图像按时间序列组成的，既包含了图像的空域信息，也包含了其独有的时域信息。视频处理的范围很广，涵盖了视频从诞生到展示的整个端到端的流程，包括视频采集、视频转码、视频存储、视频传输、视频分发、视频播放等。

视频编解码

视频编解码的主要任务是既要实现较大的压缩比，又要保证一定的视频质量。目前主流的编解码标准包括H.264（AVC）、H.265（HEVC）、VP9、AVI等。各个标准在具体算法的实现上有很大不同，但整体架构均采用了基于块的混合视频编码框架。

帧内预测

帧内预测编码是指利用视频空域的相关性，使用待编码图像块的周边像素值来预测当前待编码图像块的像素值，以达到去除视频空域冗余信息的目的。传统算法的基本思想是遍历各种预测模式，然后用率失真优化进行模式决策，从而得到当前待编码图像块的预测像素值。

深度学习在帧内预测的应用主要有两个思路：

基于某个编码标准，只介入模式决策部分的处理。通过当前待编码图像块的像素值来选择帧内编码模式，可以使用卷积神经网络来处理。输入当前待编码图像块的像素值，经过多个卷积层和池化层的处理，最后用全连接层做分类任务，输出帧内预测模式。
完全代替现有的帧内预测流程。通过当前待编码图像块的周边像素值，直接预测当前待编码图像块的所有像素值。可以使用多层全连接网络进行处理，把当前待编码图像块的周边像素值作为输入，输出当前待编码图像块的预测值，通常使用均方误差作为损失函数。

环路滤波

环路滤波是为了解决视频重建中的块效应、振铃效应、颜色偏差等失真效应。深度学习在环路滤波的应用具体来说，可以重叠地选取比较大的重建块，利用深层卷积神经网络对重建块进行增强和还原。由于不同码率下重建块的质量差异很大，所以对于一个模型可能需要针对不同的码率训练出不同参数以便适应各种情况。也可以将控制码率的量化参数扩展为同重建块一样大小的块，并与重建块直接连接作为网络的输入，能够是模型学习到量化参数与相应重建块质量的关系，从而达到一套参数适应不同码率的效果。

光流

光流（optical flow）是空间运动物体在观察成像平面上的像素运动的瞬时速度，在时间间隔很小（比如视频的连续前后两帧之间）时也等同于目标点的位移。
光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。