图像、帧、片、NALU（firstime）

图像、帧、片、NALU 是学习 H.264 的人常常感到困惑的一些概念，我在这里对自己的理解做一些阐述，欢迎大家讨论：

H.264 是一次概念的革新，它打破常规，完全没有 I 帧、P帧、B 帧的概念，也没有 IDR 帧的概念。对于 H.264 中出现的一些概念从大到小排序依次是：序列、图像、片组、片、NALU、宏块、亚宏块、块、像素。这里有几点值得说明：
（1）、在 H.264 协议中图像是个集合概念，顶场、低场、帧都可以称为图像（本文后面内容用到图像概念时都是集合概念，不再重复说明）。因此我们可以知道，对于 H.264 协议来说，我们平常所熟悉的那些称呼，例如：I 帧、P 帧、B 帧等等，实际上都是我们把图像这个概念具体化和细小化了，即我们提到的“帧”通常就是指不分场的图像；
（2）、如果不采用 FMO（灵活宏块排序）机制，则一幅图像只有一个片组；
（3）、如果不使用多个片，则一个片组只有一个片；
（4）、如果不采用 DP（数据分割）机制，则一个片就是一个 NALU，一个 NALU 也就是一个片。否则，一个片由三个 NALU 组成（即标准“表7-1”中 nal_unit_type 值为 2、3、4 的三个 NALU 属于一个片）；
（5）、以上所述的片和 NALU 的大小关系并不是抽象概念上的从属关系。从概念的从属关系上来看，NALU其实又是片的一个集合概念，例如：标准“表7-1”中 nal_unit_type 值为 5 的 NALU 包括 I 片或者 SI 片。

一幅图像根据组成它的片类型来分，可以分为标准“表7-5”中的 8 种类型。我们平常应用中所最常见到的其实是这些类型的特例。例如：我们平常所谓的“I 帧”和“IDR 帧”，其实是 primary_pic_type 值为 0 的图像，我们平常所谓的“P帧”其实是 primary_pic_type 值为 1 的图像的特例，我们平常所谓的“B帧”其实是 primary_pic_type 值为 2 的图像的特例。

一幅图像根据概念来分可以分为两种：IDR 图像和非 IDR 图像。一幅图像是否是 IDR 图像是由组成该图像的 NALU 决定的，如果组成该图像的 NALU 为标准“表7-1”中 nal_unit_type 值为 5 的 NALU，则该图像为 IDR 图像，否则为非 IDR 图像。这里也有几点值得说明：
（1）、nal_unit_type 值为 5 的 NALU 只会出现在 IDR 图像中，而 IDR 图像中的所有 NALU 都是nal_unit_type 值为 5 的 NALU；
（2）、我们以组成一幅图像的片的类型来区分该图像是否是 IDR 图像是错误的。例如：一幅图像中的所有片都是 I 片并不代表这幅图像就是 IDR 图像。因为 I 片也可以从属于 nal_unit_type 值为 1 的 NALU。只不过我们平常最常见到的形式是：所有片都是 I 片的图像就是 IDR 图像。其实这个时候 IDR 图像的概念也被我们具体化和细小化了。

一幅图像由 1～N 个片组组成，而每一个片组又由一个或若干个片组成。图像解码过程中总是按照片进行解码，然后按照片组将解码宏块重组成图像。从这种意义上讲，片实际是最大的解码单元。而一个片又包含哪些类型的宏块呢？标准“表7-10”做了最好的说明。一个 I 宏块又分为哪些类型呢？标准“表7-11”做了最好的说明。一个 P 宏块又分为哪些类型呢？标准“表7-13”做了最好的说明。一个 B 宏块又分为哪些类型呢？标准“表7-14”做了最好的说明。一个 P 宏块的亚宏块又分为哪些类型呢？标准“表7-17”做了最好的说明。一个 B 宏块的亚宏块又分为哪些类型呢？标准“表7-18”做了最好的说明。

楼上还是没看明白哈。例如一帧 CIF 图像尺寸为 352*288；不分场时可以叫图像，也可以叫帧，其大小为 352*288；分场后其中一半也可以叫图像，也可以叫顶场，其大小为 352*144，另一半也可以叫图像，也可以叫低场，其大小为 352*144。各个论文中提到的帧一般都是指不分场时候的图像。
——（1）、在 H.264 协议中图像是个集合概念，顶场、低场、帧都可以称为图像（本文后面内容用到图像概念时都是集合概念，不再重复说明）。因此我们可以知道，对于 H.264 协议来说，我们平常所熟悉的那些称呼，例如：I 帧、P 帧、B 帧等等，实际上都是我们把图像这个概念具体化和细小化了

图像、帧、片、NALU（firstime）相关推荐

四元数姿态解算c语言例程_（21）用四元数插值来对齐IMU和图像帧
最近一直在外实习,好久没更新博文了,实在罪过哈. 面临秋招,亚历山大,宝宝想哭,但要坚强. 前不久看到一句话,很有感触,送给一起秋招的小伙伴拉: 不要等到准备充足了才去开始,放出去溜溜吧拉1 说正事哈 ...
OpenCV实现按指定间隔抽取视频中的图像帧
习惯了C++语言的OpenCV突然用Python语言OpenCV还是感觉有点不适应,但是慢慢在写的过程中,觉得Python语言的风格也挺美的(但自己的写的还是很丑-),晚上回宿舍的剩余时间,记录一下最 ...
使用ffmpeg从视频中截取图像帧（最简单实用的视频抽帧，一句命令）
Table of Contents 1.最佳方式 2.普通的命令:(画质差) 3. 视频旋转: 4. 批量视频抽帧: 参考:ffmpeg视频抽帧 1.最佳方式第二种方法抽帧图片画质很差,这里提供更好 ...
用java实现给图片增加图片水印或者文字水印（也支持视频图像帧添加水印）
javaCV图像处理系列: javaCV图像处理之1:实时视频添加文字水印并截取视频图像保存成图片,实现文字水印的字体.位置.大小.粗度.翻转.平滑等操作 javaCV图像处理之2:实时视频添加图片水 ...
对h.264压缩视频码流中i帧的提取(firstime)
这个问题要说清楚还是有点复杂:首先判断 NALU 类型是否是 5,如果是,那么以后连续出现的 NALU 类型为 5 的 NALU 就属于 IDR 帧(一种特殊的 I 帧):如果 NALU 不是 5,则 ...
网络数据包片段拼合（连续h264片段拼接成完整h264帧）--纠正下，是h264 slice,不是图像帧
最近项目用的网络摄像头,从网络层获取到连续的h264片段数据,于是写了一个将连续输入数据按指定字符串分割成一个slice数据的 class, 稍作改动,也可以用来处理文本文件中查找替换等等功能, ...
python YUV420视频转图像帧
YUV420p视频转成多帧图像 import os import cv2 import numpy as np from typing import Listdef YUVvideo2IMGs(fil ...
密集人体姿态估计：2D图像帧可实时生成UV贴图（附论文）
Root 编译整理量子位出品 | 公众号 QbitAI Facebook人工智能研究院和法国国立计算机及自动化研究院最近提出了一种密集人体姿态估计新方法:DensePose-RCNN,同时宣布即将 ...
【ROS】ros抽取图像帧
个人认为最简便的办法. 用ros工具从bag文件中提取图片 1)首先需要安装一些图片处理依赖的包: mjpeg, ffmpeg $ sudo apt-get install mjepgtools $ ...
nalu模式多slice_图像、帧、片、NALU
图像.帧.片.NALU 是学习 H.264 的人常常感到困惑的一些概念,我在这里对自己的理解做一些阐述,欢迎大家讨论: H.264 是一次概念的革新,它打破常规,完全没有 I 帧.P帧.B 帧的概念, ...

图像、帧、片、NALU（firstime）

图像、帧、片、NALU（firstime）相关推荐

最新文章

热门文章