H.264软件解码器在PXA270平台上的优化

罗嵘，何苦时间:2009年04月24日

　　摘要： 研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题，提出了四种有效的优化方法，并在PXA270平台上进行了测试。测试结果显示，综合使用提出的四种方法，H.264软件解码器在PXA270（520MHz）上运行时帧率可以达到22f/s（CIF格式）和80f/s（QCIF格式）。
　　关键词： H.264；软件解码器；PXA270

　　视频编解码标准H.264是由国际电联ITU的视频编码专家组VCEG（Video Coding Expert Group）和国际标准化组织ISO的活动图像专家组MPEG（Motion Picture Expert Group）共同组成的联合视频组JVT（Joint Video Team）开发的视频编解码标准，也被称为高级视频编码MPEG-4 AVC（Advanced Video Coding）或MPEG-4 Part10。H.264解码器^[1]的主要模块有运动补偿、帧间预测、去块效应滤波、反变换、帧内预测、重建等。
　　PXA270嵌入式处理器内部包括一个XScale内核[2]（兼容ARM9指令集），运行频率最高可以达到624MHz；一个无线多媒体指令扩展 WMMX(Wireless Multi-Media Extension)协处理器，能够支持多媒体运算指令；还包括一系列外部接口控制器、总线控制器等。
　　文献[3]对H.264解码器中的帧间预测、去块效应滤波、反变换、帧内预测、重建等模块采用了WMMX优化，可以使其相对性能提高92%～100%。文献[4]在PXA270平台上设计了一个AVCORE多媒体函数库，H.264解码帧率可以达到约50f/s（QCIF格式）。文献[5]则在Xscale处理器上利用WMMX技术对多种解码器进行了优化，取得了较好的相对优化效果。但是，这些方法的优化效果有限，只利用PXA270的WMMX功能进行了优化，不能充分利用PXA270处理器的特点。
　　为了提高H.264软件解码器在PXA270处理器上的性能，本文研究了PXA270处理器和H.264软件解码器的特点，并针对其特点进行了多方面的优化。优化方法主要包括WMMX并行计算优化、多项式计算优化、系统资源优化和滤波算法优化四种。
1 H.264解码器优化方法
1.1 WMMX并行计算优化
　　在PXA270平台上，可以利用PXA270处理器内部的WMMX硬件支持对一个宏块内像素点的乘/加法操作进行展开处理，一次执行4/8条乘/加法，同时处理多个像素点。
　　WMMX软件编程模型部分包括寄存器堆、矢量化的执行部件和接口部件三部分^[2]。WMMX寄存器堆的位宽为64bit，包括16个SIMD寄存器、8个状态和控制寄存器。
　　WMMX矢量化的执行部件，包括一个执行单元、一个乘累加单元、一个移位和序列改变单元。利用这些硬件单元，SIMD寄存器可以被组织成字节(8bit)、半字(16bit)、字(32bit)、双字(64bit)结构，实现8/4/2/1个数据的并行运算。
　　利用WMMX的并行计算功能，H.264软件解码器中的很多部分可以被并行化，从而提高计算效率。例如：在H.264的运动估计算法中，进行插值操作的部分算法代码为：
　　
　　进行并行计算优化时，可以对上述代码中的内层循环部分进行展开：
　　　　

　　利用ARM汇编语言改写上面的代码，调用WMMX的硬件，可以使得该内层循环中的四个结构相同的运算同时进行，这样就大大提高了速度。在优化过程中，对H.264模块中的IDCT、IQUANT和插值部分的计算使用了WMMX并行计算优化。
1.2 多项式计算优化
　　利用WMMX硬件并行计算优化，比较适用于各个像素点使用相同计算方法的情况。而对于那些每一个像素点都需要用不同的表达式进行计算的情况，就需要采用另外的并行优化思路。对于那些不便于进行循环展开的代码部分，可以尝试对其多项式计算进行优化，使用提取公共因子、合并同类项的方法，提高运算速度。
　　例如，对于如下的表达式：
　　　

　　上面的表达式中公因子合并之后，加/减法和乘法运算的总数由原来的16个变成12个，因而提高了速度。在 H.264的软件解码器中，运动补偿和帧内预测部分就存在着类似的代码，可以使用提取公因式的方法来进行优化。文献[6]已经证明提取公因式进行计算优化的方法属于NP-hard问题，本文给出了一个比较简单的近似优化算法，其优化流程为：用多项式组中的每一个多项式生成一个集合S_i（i=1，2，…K，K是多项式的个数），其元素s_ij（j=1，2，…k，k是子式的个数）是该多项式的子式；设定初始搜索次数n=0，N为预先设定的搜索次数上限；计算C，C为整个多项式组为优化前总的计算次数。
　　while n
　　选定其中一个多项式的子式s_ij；
　　计算：整个多项式组可以减少的计算次数c；
　　if c
　　　　C=c；
　　　　记录下子式sij；
　　end
n=n+1；
end
　　本文提出的算法得到的结果可能并不是最优的，但该方法能降低计算量，还可以应用于除H.264解码器以外的场合，并且适用于多种架构的处理器。在优化过程中，对H.264解码器中的帧内预测模块使用了多项式优化算法。
1.3 PXA270系统资源优化
　　本文中H.264软件解码器最终运行在PXA270处理器上。该处理器具有多种频率可调组件，其内部还具有256KB片内SRAM，可以用于显示图像存储。PXA270片内系统总线频率在高速模式下可以达到208MHz^[7]，并且LCD控制器的频率可以调整，具有直接显示YUV格式图像的特性。充分利用好这些特性，可以大大改善H.264软件解码器在平台上的运行效率。在 H.264软件解码器的代码中，需要对数据进行大量的存储操作，为了提高存储速度，在运行时可以动态地将系统总线频率调整为高速模式，同时对SDRAM和 Flash等存储器件进行访问速度的调整，以保证性能要求。
　　针对H.264软件解码器进行的PXA270系统资源优化流程如下：
if H.264软件解码器运行
　　保存处理器和总线当前配置；
　　将处理器内核置为超频频率上；
　　将系统总线频率设置为高速模式；
　　为解码器分配PXA270片内SRAM作为缓存（受操作系统限制）；
end
　　if H.264软件解码器运行结束
　　恢复处理器和总线配置；
end
　　系统级的优化需要对处理器的频率等关键资源进行调整，这可以通过PXA270处理器的时钟管理模块实现。
1.4 滤波算法优化
　　在H.264编解码算法中，对滤波器算法的规定具有一定的灵活性[8]，可以在不违反标准的情况下使用自己的滤波方法。在改进的滤波器中，通常采用的方法是改变子宏块（Sub-Macroblock）边界的滤波顺序，从而提高存储效率和数据的复用性^[9]。本文设计了一个优化的滤波器算法，达到了一定的效果。
　　在H.264标准中，规定的标准解码算法是：对于一个16×16的宏块（图像格式为YUV4:2:0），其中各个4×4的子宏块边界的滤波顺序如图1的标号1～48所示。
　　在用软件实现滤波算法时，一帧图像数据的存储以二维数组的方式进行。例如，对于CIF（352×288）格式的一帧图像，其亮度信号存储在一个Y[352][288]数组中。
　　在计算机和多数嵌入式系统的内存中，内存地址是线性的，因此一个16×16的亮度宏块(划分为16个4×4大小的子宏块）中每个4×4的子宏块分别被编号为1～16。1～4子宏块的第一行数据在内存中的位置为M1，第二、三、四行数据在内存M2、M3、M4。M1～M4之间的位置分别被其他16×16的宏块所占据。5～8子宏块在内存中的位置为M5～M8，因此在形式上相邻的两个子宏块1和5，在内存中的位置可能差得很远。
　　在计算机系统中，为了充分利用数据的空间、时间相关性，会在访问内存中的一个数据时，把该数据相邻区域的一块数据都加载到缓存中。例如，当程序访问子宏块1的第一行数据时，处理器会自动把整个M1块加载到缓存中，即第2~4个子宏块的第一行也被加载到缓存中。由于缓存的大小非常有限，内存中有很多地址都可以映射到缓存中的同一个地址处。例如，当程序访问子宏块5的第一行时，M5被加载到缓存中，就有可能覆盖掉原来M1在缓存中位置。而对于M1~M3来说，它们在内存中的位置靠得比较近，因此可以被映射到缓存中的不同区域，不会相互覆盖。
　　对于图1中的滤波方案，会存在缓存未命中（Cache Miss）的问题。按照图1中的滤波顺序，每对一个边界做滤波都有可能覆盖掉前一次加载的数据，这样会增加对内存的访问次数，降低速度。为了改进这一点，本文提出了如图2所示的新的边界滤波顺序。

　　新方案在多数情况下可以利用前一次已经加载到Cache的数据进行操作。例如：在对编号为2、3、4的边界进行滤波时，可以利用对1边界进行滤波时已经加载的数据。这样可以提高去宏块效应滤波器的速度。
　　对于YUV4:2:0格式的图像，传统的滤波算法在处理一个16×16的亮度宏块和两个8×8的色度宏块时，可能在32条边界（共48条边界）处发生数据缓存未命中，这些边界分别是1～24、25～37、41、43、45、47(参见图1)。而改进的滤波算法则可能在11条边界处发生数据缓存未命中，这些边界分别是：1、5、9、17、25、33、35、37、41、43、45（参见图2）。由此可见，改进的滤波算法提高了内存访问效率。
2 仿真和测试结果
2.1 使用WMMX优化后的测试结果
　　使用WMMX汇编语言对H.264软件解码器进行并行计算优化后得到的效果如表1。

　　对比表1中的结果可以看出，WMMX计算优化的效果最为明显，对帧率的改善可以达到3f/s～5f/s。WMMX技术也是PXA27x系列处理器的一个亮点，这一功能使其可与一般DSP的计算能力相匹敌。
2.2 多项式计算优化的方针和测试结果
　　为了显示多项式优化的效果，首先在ARM（PXA270处理器是兼容ARM体系结构的)仿真环境下对单个函数测试，编译器采用ARM公司出品的ADS 1.2，在测试过程中，C/C++编译器的参数设置为：-O2-O time -g+ -cpu XXXXX(具体的ARM处理器内核类型，如ARM946E-S)。
　　在测试过程中，没有修改编译器的设置，为了证明算法的普适性，在多种ARM处理器内核上进行了仿真。
　　仿真时选用的函数是：predict_4x4_mode_3；predict_4x4_mode_4；predict_4x4_mode_5；predict_4x4_mode_6；predict_4x4_mode_7；predict_4x4_mode_8。
　　这些函数对应帧内预测的第3～8种模式，具体算法可以参照H.264的标准文档。下面给出函数predict_
4x4_mode_3进行优化后的简单示例。predict_4x4_mode_3在进行优化前的代码为：
predict_4x4_mode_3
　　Begin

　　Y0=(a0+a2+(a1<<1)+2)>>2；
　　Y1=Y4=(a1+a3+(a2<<1)+2)>>2；
　　Y2=Y5=Y8=(a2+a4+(a3<<1)+2)>>2；
　　Y3=Y6=Y9=Y12=(a3+a5+(a4<<1)+2)>>2；
　　Y7=Y10=Y13=(a4+a6+(a5<<1)+2)>>2；
　　Y11=Y14=(a5+a7+(a6<<1)+2)>>2；
　　Y15=(a6+(a7<<1)+a7+2)>>2；
end
　　进行优化后的代码如下：
predict_4x4_mode_3
Begin
　　T0=a0+a1；T1=a1+a2+2；Y0=(T0+T1)>>2；
　　T0=a2+a3；Y1=Y4=(T0+T1)>>2；
　　T1=a3+a4+2；Y2=Y5=Y8=(T0+T1)>>2；
　　T0=a4+a5；Y3=Y6=Y9=Y12=(T0+T1)>>2；
　　T1=a5+a6+2；Y7=Y10=Y13=(T0+T1)>>2；
　　T0=a6+a7；Y11=Y14=(T0+T1)>>2；
　　T1=a7+a7+2；Y15=(T0+T1)>>2；
end
　　考虑到程序表示方面的简明性，在优化的程序中使用了一些临时变量。从程序中涉及的多项式计算的表达式来看，在未优化程序中，使用了21次加法和14次移位运算；而在优化后的程序中，使用了19次加法和7次移位运算。对其他几个函数进行优化后，也有类似的结果。仿真器得到的结果请参照表2和表3。

　　从仿真结果可以看出，多项式计算优化算法应用于某些特定函数上，可以缩短时间和缩减代码体积。不过，多项式计算优化算法在H.264软件解码器中的应用是有限的，对整个软件解码器性能提高的贡献不大。
2.3 优化测试结果
　　对PXA270系统资源进行优化后，再运行H.264软件解码器时的测试结果比较见表4。通过系统资源优化，可以使H.264软件解码器性能提高 2f/s～3f/s。这表明系统资源优化是提高H.264解码器性能比较有效的一种方法。从表4可以看出，对去宏块效应滤波器优化后，解码器整体的性能的提高不是很大，这主要是由于滤波运算在测试视频中所占的比重不是很高引起的。编码时视频流所采用的量化器的量化程度比较低，所得的图像比较平滑，因此需要进行的滤波运算也少。

　　将上面提到的各种优化方法综合应用到H.264软件解码器中，取得的效果相当可观。联合使用各种优化方法，可以使得各个方法间相互补充，获得比单独使用更好的优化效果，如表4中测试组一和测试组二所示。对H.264软件解码器进行联合优化以后，性能的提高达到40%左右。
　　通过在实际平台上的测试可知，PXA270系统资源优化和WMMX并行计算优化的贡献最大，而其他两种方法的贡献则要小得多。但是也必须看到，效果好的方法其专用性也会很强，如WMMX并行计算需要有专门硬件的支持。去宏块效应滤波器算法优化和多项式计算优化两种方法虽然在 PXA270平台上对H.264软件解码器的优化效果不佳，但是它们对PXA270内部的特定资源依赖很小，通用性较强，可以用于其他平台或应用实例中，具有一定的使用价值。

参考文献
[1] WIEGAND T，SULLIVAN G，LUTHRA A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264 | ISO/IEC 14496-10 AVC)，Joint Video Team(JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 8th Meeting：Geneva, Switzerland，2003，5.
[2] Intel Corporation.Intel wireless MMXTM technology developer guide，2002.
[3] PAVER N C，KHAN M H，ALDRICH B C，et al.Accelerating mobile video applications using Intel@ wireless
MMXTM technology.IEEE workshop on signal processing systems，2003：207-212.
[4] http：//www.cyansoft.com.cn/products.php?display=1&select=1，2007-5-23.
[5] PRASAD A，MITTAL A，KUMAR M，et al.Optimization and comparison of computational complexities of standard compliant video decoders on SIMD processors.ICASSP 2007：II-93-II-96.
[6] HOSANGADI A，FALLAH F，KASTNER R.Factoring and eliminating common subexpressions in polynomial expressions.ICCAD，2004：169-174.
[7] Intel Corporation.Intel PXA27x processor family developer′s　manual，2004.
[8] LIST P，JOCH A，LAINEMA J，et al.Adaptive deblocking filter，IEEE transactions on circuits and systems for video technology，2003.
[9] 牛晓雷，戴琼海，刘烨斌.H.264/AVC解码器解块滤波的结构优化.计算机工程与应用，2005：104-106.

H.264软件解码器在PXA270平台上的优化相关推荐

AVS解码器在DSP平台上的优化
AVS( Audio Video Coding STandard)是由我国数字音视频标准工作组制定的具有自主知识产权的第二代音视频压缩准.AVS实行1 元专利费用的原则,相比其它音视频编解码标准具有 ...
H.264开源解码器评测（转发）
H.264开源解码器评测(转发) 2003年5月,当H.264编码标准草案发布时,很多人都觉得H.264太复杂,不宜实用.眨眼间3年过去了,以往的论断.疑惑被如今的现实冲洗的干干净净.随着硬件性能的提 ...
虚拟机VMWare“提示：软件虚拟化与此平台上的长模式不兼容”的解决方法
虚拟机VMWare"提示:软件虚拟化与此平台上的长模式不兼容" 不少童鞋反映,在使用Windows7 64位操作系统时,无法运行VMWare或MS Virtual server等软 ...
H.264软件编码与硬件编码格式对比
H.264软件编码格式不同于硬件编码格式,通过分析工具查看到每一帧的数据. H.264分析工具:H264BSAnalyzer.exe x264软件编码格式: 其中,第一帧为SPS,第二帧为PPS,第三 ...
华为在深度学习平台上的优化实践
"Kubernetes Meetup 中国 2017"--北京站3.18落幕啦!本次分享嘉宾彭靖田来自华为,他的分享题目是<华为在深度学习平台上的优化实践>.实录将从深 ...
如何用直播摄像机、编码器、电脑端OBS软件在抖音平台上做推流直播现实背景
现实背景自2021年以来,抖音平台提高了电脑推流直播门槛,导致很多人无法通过电脑软件做推流直播,也无法通过第三方推流工具做直播,具体要求如下图所示: 抖音平台的新规则如下: 硬性条件: 1. 需实名 ...
H.264视频编解码的代码移植和优化
基于DSP系统开发的视频编解码系统,国内几乎都是走的移植,优化的路线,并且移植的代码,都是开源的.毕竟花费大量的人力,物力去开发一套自己的代码,并不见得比一些成熟的开源代码效率更高,健壮性更好.更何况 ...
Shader山下（三十）移动平台上的优化
以下摘录自<Unity 3D ShaderLab开发实战详解>,第34章.(2015年第2版) 本章的大部分内容都是从 Unity 的官方论坛和文档收集的,在此只是简单地分享给读者. 移动 ...
2005年全球H.264编解码器荟萃
2005年全球H.264编解码器荟萃 videosky.9126.com Peter Lee 2005-0920 [摘要] H.264/AVC作为最新的视频编码标准,研究领域和产业界都非常看好该标准. ...

H.264软件解码器在PXA270平台上的优化

H.264软件解码器在PXA270平台上的优化相关推荐

最新文章

热门文章