罗 嵘,何 苦 时间:2009年04月24日

  摘 要: 研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题,提出了四种有效的优化方法,并在PXA270平台上进行了测试。测试结果显示,综合使用提出的四种方法,H.264软件解码器在PXA270(520MHz)上运行时帧率可以达到22f/s(CIF格式)和80f/s(QCIF格式)。
  关键词: H.264;软件解码器;PXA270

  视频编解码标准H.264是由国际电联ITU的视频编码专家组VCEG(Video Coding Expert Group)和国际标准化组织ISO的活动图像专家组MPEG(Motion Picture Expert Group)共同组成的联合视频组JVT(Joint Video Team)开发的视频编解码标准,也被称为高级视频编码MPEG-4 AVC(Advanced Video Coding)或MPEG-4 Part10。H.264解码器[1]的主要模块有运动补偿、帧间预测、去块效应滤波、反变换、帧内预测、重建等。
  PXA270嵌入式处理器内部包括一个XScale内核[2](兼容ARM9指令集),运行频率最高可以达到624MHz;一个无线多媒体指令扩展 WMMX(Wireless Multi-Media Extension)协处理器,能够支持多媒体运算指令;还包括一系列外部接口控制器、总线控制器等。
  文献[3]对H.264解码器中的帧间预测、去块效应滤波、反变换、帧内预测、重建等模块采用了WMMX优化,可以使其相对性能提高92%~100%。文献[4]在PXA270平台上设计了一个AVCORE多媒体函数库,H.264解码帧率可以达到约50f/s(QCIF格式)。文献[5]则在Xscale处理器上利用WMMX技术对多种解码器进行了优化,取得了较好的相对优化效果。但是,这些方法的优化效果有限,只利用PXA270的WMMX功能进行了优化,不能充分利用PXA270处理器的特点。
  为了提高H.264软件解码器在PXA270处理器上的性能,本文研究了PXA270处理器和H.264软件解码器的特点,并针对其特点进行了多方面的优化。优化方法主要包括WMMX并行计算优化、多项式计算优化、系统资源优化和滤波算法优化四种。
1 H.264解码器优化方法
1.1 WMMX并行计算优化

  在PXA270平台上,可以利用PXA270处理器内部的WMMX硬件支持对一个宏块内像素点的乘/加法操作进行展开处理,一次执行4/8条乘/加法,同时处理多个像素点。
  WMMX软件编程模型部分包括寄存器堆、矢量化的执行部件和接口部件三部分[2]。WMMX寄存器堆的位宽为64bit,包括16个SIMD寄存器、8个状态和控制寄存器。
  WMMX矢量化的执行部件,包括一个执行单元、一个乘累加单元、一个移位和序列改变单元。利用这些硬件单元,SIMD寄存器可以被组织成字节(8bit)、半字(16bit)、字(32bit)、双字(64bit)结构,实现8/4/2/1个数据的并行运算。
  利用WMMX的并行计算功能,H.264软件解码器中的很多部分可以被并行化,从而提高计算效率。例如:在H.264的运动估计算法中,进行插值操作的部分算法代码为:
  
  进行并行计算优化时,可以对上述代码中的内层循环部分进行展开:
    

  利用ARM汇编语言改写上面的代码,调用WMMX的硬件,可以使得该内层循环中的四个结构相同的运算同时进行,这样就大大提高了速度。在优化过程中,对H.264模块中的IDCT、IQUANT和插值部分的计算使用了WMMX并行计算优化。
1.2 多项式计算优化
  利用WMMX硬件并行计算优化,比较适用于各个像素点使用相同计算方法的情况。而对于那些每一个像素点都需要用不同的表达式进行计算的情况,就需要采用另外的并行优化思路。对于那些不便于进行循环展开的代码部分,可以尝试对其多项式计算进行优化,使用提取公共因子、合并同类项的方法,提高运算速度。
  例如,对于如下的表达式:
   

  上面的表达式中公因子合并之后,加/减法和乘法运算的总数由原来的16个变成12个,因而提高了速度。在 H.264的软件解码器中,运动补偿和帧内预测部分就存在着类似的代码,可以使用提取公因式的方法来进行优化。文献[6]已经证明提取公因式进行计算优化的方法属于NP-hard问题,本文给出了一个比较简单的近似优化算法,其优化流程为:用多项式组中的每一个多项式生成一个集合Si(i=1,2,…K,K是多项式的个数),其元素sij(j=1,2,…k,k是子式的个数)是该多项式的子式;设定初始搜索次数n=0,N为预先设定的搜索次数上限;计算C,C为整个多项式组为优化前总的计算次数。
  while n
  选定其中一个多项式的子式sij
  计算:整个多项式组可以减少的计算次数c;
  if c
    C=c;
    记录下子式sij;
  end
n=n+1;
end
  本文提出的算法得到的结果可能并不是最优的,但该方法能降低计算量,还可以应用于除H.264解码器以外的场合,并且适用于多种架构的处理器。在优化过程中,对H.264解码器中的帧内预测模块使用了多项式优化算法。
1.3 PXA270系统资源优化
  本文中H.264软件解码器最终运行在PXA270处理器上。该处理器具有多种频率可调组件,其内部还具有256KB片内SRAM,可以用于显示图像存储。PXA270片内系统总线频率在高速模式下可以达到208MHz[7],并且LCD控制器的频率可以调整,具有直接显示YUV格式图像的特性。充分利用好这些特性,可以大大改善H.264软件解码器在平台上的运行效率。在 H.264软件解码器的代码中,需要对数据进行大量的存储操作,为了提高存储速度,在运行时可以动态地将系统总线频率调整为高速模式,同时对SDRAM和 Flash等存储器件进行访问速度的调整,以保证性能要求。
  针对H.264软件解码器进行的PXA270系统资源优化流程如下:
if H.264软件解码器运行
  保存处理器和总线当前配置;
  将处理器内核置为超频频率上;
  将系统总线频率设置为高速模式;
  为解码器分配PXA270片内SRAM作为缓存(受操作系统限制);
end
  if H.264软件解码器运行结束
  恢复处理器和总线配置;
end
  系统级的优化需要对处理器的频率等关键资源进行调整,这可以通过PXA270处理器的时钟管理模块实现。
1.4 滤波算法优化
  在H.264编解码算法中,对滤波器算法的规定具有一定的灵活性[8],可以在不违反标准的情况下使用自己的滤波方法。在改进的滤波器中,通常采用的方法是改变子宏块(Sub-Macroblock)边界的滤波顺序,从而提高存储效率和数据的复用性[9]。本文设计了一个优化的滤波器算法,达到了一定的效果。
  在H.264标准中,规定的标准解码算法是:对于一个16×16的宏块(图像格式为YUV4:2:0),其中各个4×4的子宏块边界的滤波顺序如图1的标号1~48所示。
  在用软件实现滤波算法时,一帧图像数据的存储以二维数组的方式进行。例如,对于CIF(352×288)格式的一帧图像,其亮度信号存储在一个Y[352][288]数组中。
  在计算机和多数嵌入式系统的内存中,内存地址是线性的,因此一个16×16的亮度宏块(划分为16个4×4大小的子宏块)中每个4×4的子宏块分别被编号为1~16。1~4子宏块的第一行数据在内存中的位置为M1,第二、三、四行数据在内存M2、M3、M4。M1~M4之间的位置分别被其他16×16的宏块所占据。5~8子宏块在内存中的位置为M5~M8,因此在形式上相邻的两个子宏块1和5,在内存中的位置可能差得很远。
  在计算机系统中,为了充分利用数据的空间、时间相关性,会在访问内存中的一个数据时,把该数据相邻区域的一块数据都加载到缓存中。例如,当程序访问子宏块1的第一行数据时,处理器会自动把整个M1块加载到缓存中,即第2~4个子宏块的第一行也被加载到缓存中。由于缓存的大小非常有限,内存中有很多地址都可以映射到缓存中的同一个地址处。例如,当程序访问子宏块5的第一行时,M5被加载到缓存中,就有可能覆盖掉原来M1在缓存中位置。而对于M1~M3来说,它们在内存中的位置靠得比较近,因此可以被映射到缓存中的不同区域,不会相互覆盖。
  对于图1中的滤波方案,会存在缓存未命中(Cache Miss)的问题。按照图1中的滤波顺序,每对一个边界做滤波都有可能覆盖掉前一次加载的数据,这样会增加对内存的访问次数,降低速度。为了改进这一点,本文提出了如图2所示的新的边界滤波顺序。

  新方案在多数情况下可以利用前一次已经加载到Cache的数据进行操作。例如:在对编号为2、3、4的边界进行滤波时,可以利用对1边界进行滤波时已经加载的数据。这样可以提高去宏块效应滤波器的速度。
  对于YUV4:2:0格式的图像,传统的滤波算法在处理一个16×16的亮度宏块和两个8×8的色度宏块时,可能在32条边界(共48条边界)处发生数据缓存未命中,这些边界分别是1~24、25~37、41、43、45、47(参见图1)。而改进的滤波算法则可能在11条边界处发生数据缓存未命中,这些边界分别是:1、5、9、17、25、33、35、37、41、43、45(参见图2)。由此可见,改进的滤波算法提高了内存访问效率。
2 仿真和测试结果
2.1 使用WMMX优化后的测试结果

  使用WMMX汇编语言对H.264软件解码器进行并行计算优化后得到的效果如表1。

  对比表1中的结果可以看出,WMMX计算优化的效果最为明显,对帧率的改善可以达到3f/s~5f/s。WMMX技术也是PXA27x系列处理器的一个亮点,这一功能使其可与一般DSP的计算能力相匹敌。
2.2 多项式计算优化的方针和测试结果
  为了显示多项式优化的效果,首先在ARM(PXA270处理器是兼容ARM体系结构的)仿真环境下对单个函数测试,编译器采用ARM公司出品的ADS 1.2,在测试过程中,C/C++编译器的参数设置为:-O2-O time -g+ -cpu XXXXX(具体的ARM处理器内核类型,如ARM946E-S)。
  在测试过程中,没有修改编译器的设置,为了证明算法的普适性,在多种ARM处理器内核上进行了仿真。
  仿真时选用的函数是:predict_4x4_mode_3;predict_4x4_mode_4;predict_4x4_mode_5;predict_4x4_mode_6;predict_4x4_mode_7;predict_4x4_mode_8。
  这些函数对应帧内预测的第3~8种模式,具体算法可以参照H.264的标准文档。下面给出函数predict_
4x4_mode_3进行优化后的简单示例。predict_4x4_mode_3在进行优化前的代码为:
predict_4x4_mode_3
  Begin

  Y0=(a0+a2+(a1<<1)+2)>>2;
  Y1=Y4=(a1+a3+(a2<<1)+2)>>2;
  Y2=Y5=Y8=(a2+a4+(a3<<1)+2)>>2;
  Y3=Y6=Y9=Y12=(a3+a5+(a4<<1)+2)>>2;
  Y7=Y10=Y13=(a4+a6+(a5<<1)+2)>>2;
  Y11=Y14=(a5+a7+(a6<<1)+2)>>2;
  Y15=(a6+(a7<<1)+a7+2)>>2;
end
  进行优化后的代码如下:
predict_4x4_mode_3
Begin
  T0=a0+a1;T1=a1+a2+2;Y0=(T0+T1)>>2;
  T0=a2+a3;Y1=Y4=(T0+T1)>>2;
  T1=a3+a4+2;Y2=Y5=Y8=(T0+T1)>>2;
  T0=a4+a5;Y3=Y6=Y9=Y12=(T0+T1)>>2;
  T1=a5+a6+2;Y7=Y10=Y13=(T0+T1)>>2;
  T0=a6+a7;Y11=Y14=(T0+T1)>>2;
  T1=a7+a7+2;Y15=(T0+T1)>>2;
end
  考虑到程序表示方面的简明性,在优化的程序中使用了一些临时变量。从程序中涉及的多项式计算的表达式来看,在未优化程序中,使用了21次加法和14次移位运算;而在优化后的程序中,使用了19次加法和7次移位运算。对其他几个函数进行优化后,也有类似的结果。仿真器得到的结果请参照表2和表3。

  从仿真结果可以看出,多项式计算优化算法应用于某些特定函数上,可以缩短时间和缩减代码体积。不过,多项式计算优化算法在H.264软件解码器中的应用是有限的,对整个软件解码器性能提高的贡献不大。
2.3 优化测试结果
  对PXA270系统资源进行优化后,再运行H.264软件解码器时的测试结果比较见表4。通过系统资源优化,可以使H.264软件解码器性能提高 2f/s~3f/s。这表明系统资源优化是提高H.264解码器性能比较有效的一种方法。从表4可以看出,对去宏块效应滤波器优化后,解码器整体的性能的提高不是很大,这主要是由于滤波运算在测试视频中所占的比重不是很高引起的。编码时视频流所采用的量化器的量化程度比较低,所得的图像比较平滑,因此需要进行的滤波运算也少。

  将上面提到的各种优化方法综合应用到H.264软件解码器中,取得的效果相当可观。联合使用各种优化方法,可以使得各个方法间相互补充,获得比单独使用更好的优化效果,如表4中测试组一和测试组二所示。对H.264软件解码器进行联合优化以后,性能的提高达到40%左右。
  通过在实际平台上的测试可知,PXA270系统资源优化和WMMX并行计算优化的贡献最大,而其他两种方法的贡献则要小得多。但是也必须看到,效果好的方法其专用性也会很强,如WMMX并行计算需要有专门硬件的支持。去宏块效应滤波器算法优化和多项式计算优化两种方法虽然在 PXA270平台上对H.264软件解码器的优化效果不佳,但是它们对PXA270内部的特定资源依赖很小,通用性较强,可以用于其他平台或应用实例中,具有一定的使用价值。

参考文献
[1] WIEGAND T,SULLIVAN G,LUTHRA A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264 | ISO/IEC 14496-10 AVC),Joint Video Team(JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 8th Meeting:Geneva, Switzerland,2003,5.
[2] Intel Corporation.Intel wireless MMXTM technology developer guide,2002.
[3] PAVER N C,KHAN M H,ALDRICH B C,et al.Accelerating mobile video applications using Intel@ wireless 
MMXTM technology.IEEE workshop on signal processing  systems,2003:207-212.
[4] http://www.cyansoft.com.cn/products.php?display=1&select=1,2007-5-23.
[5] PRASAD A,MITTAL A,KUMAR M,et al.Optimization and comparison of computational complexities of standard compliant video decoders on SIMD processors.ICASSP 2007:II-93-II-96.
[6] HOSANGADI A,FALLAH F,KASTNER R.Factoring and eliminating common subexpressions in polynomial expressions.ICCAD,2004:169-174.
[7] Intel Corporation.Intel PXA27x processor family developer′s manual,2004.
[8] LIST P,JOCH A,LAINEMA J,et al.Adaptive deblocking filter,IEEE transactions on circuits and systems for video technology,2003.
[9] 牛晓雷,戴琼海,刘烨斌.H.264/AVC解码器解块滤波的结构优化.计算机工程与应用,2005:104-106.

H.264软件解码器在PXA270平台上的优化相关推荐

  1. AVS解码器在DSP平台上的优化

    AVS( Audio Video Coding STandard)是由我国数字 音视频标准工作组制定的具有自主知识产权的第二代音视频压缩准.AVS实行1 元专利费用的原则,相比其它音视频编解码标准具有 ...

  2. H.264开源解码器评测(转发)

    H.264开源解码器评测(转发) 2003年5月,当H.264编码标准草案发布时,很多人都觉得H.264太复杂,不宜实用.眨眼间3年过去了,以往的论断.疑惑被如今的现实冲洗的干干净净.随着硬件性能的提 ...

  3. 虚拟机VMWare“提示:软件虚拟化与此平台上的长模式不兼容”的解决方法

    虚拟机VMWare"提示:软件虚拟化与此平台上的长模式不兼容" 不少童鞋反映,在使用Windows7 64位操作系统时,无法运行VMWare或MS Virtual server等软 ...

  4. H.264软件编码与硬件编码格式对比

    H.264软件编码格式不同于硬件编码格式,通过分析工具查看到每一帧的数据. H.264分析工具:H264BSAnalyzer.exe x264软件编码格式: 其中,第一帧为SPS,第二帧为PPS,第三 ...

  5. 华为在深度学习平台上的优化实践

    "Kubernetes Meetup 中国 2017"--北京站3.18落幕啦!本次分享嘉宾彭靖田来自华为,他的分享题目是<华为在深度学习平台上的优化实践>.实录将从深 ...

  6. 如何用直播摄像机、编码器、电脑端OBS软件在抖音平台上做推流直播现实背景

    现实背景 自2021年以来,抖音平台提高了电脑推流直播门槛,导致很多人无法通过电脑软件做推流直播,也无法通过第三方推流工具做直播,具体要求如下图所示: 抖音平台的新规则如下: 硬性条件: 1. 需实名 ...

  7. H.264视频编解码的代码移植和优化

    基于DSP系统开发的视频编解码系统,国内几乎都是走的移植,优化的路线,并且移植的代码,都是开源的.毕竟花费大量的人力,物力去开发一套自己的代码,并不见得比一些成熟的开源代码效率更高,健壮性更好.更何况 ...

  8. Shader山下(三十)移动平台上的优化

    以下摘录自<Unity 3D ShaderLab开发实战详解>,第34章.(2015年第2版) 本章的大部分内容都是从 Unity 的官方论坛和文档收集的,在此只是简单地分享给读者. 移动 ...

  9. 2005年全球H.264编解码器荟萃

    2005年全球H.264编解码器荟萃 videosky.9126.com Peter Lee 2005-0920 [摘要] H.264/AVC作为最新的视频编码标准,研究领域和产业界都非常看好该标准. ...

最新文章

  1. 直接运行可执行文件linux终端一闪而过
  2. 使用mac pro电脑当tomcat端口被占用怎么解决?
  3. 一款优秀的翻译软件DeepL
  4. mysql录入foreigen错误_Python MySQLdb 使用utf-8 编码插入中文数据问题
  5. 华为nova5i计算机有计算记录吗,华为nova 5i正式发布,看完价格后:还是算了吧!...
  6. java弹出虚拟键盘_JS实现电脑虚拟键盘的操作
  7. linux下ora 01110,ORA-01003ORA-01110
  8. linux ipset 流量,linux中ipset命令的使用方法详解
  9. java tcp ip原理_从0到1用java再造tcpip协议栈:ICMP协议的原理和实现
  10. firefox启动很慢 linux_Win10安装和使用Linux子系统(WSL 2)完整指南
  11. java毕设可以用结构化方法吗,php,java,jsp网络留言薄,怎么实现一个网络留言簿好毕设指导轻松完成...
  12. 凌云一周看点 | 什么是云原生数据库;因云而生的云原生网络;大型团队如何从0到1自建SRE体系;空间数据模型之从CAD到BIM...
  13. 易云维医院后勤管理系统浅谈医院空调设备管理的问题及优化建议
  14. 游戏开发中的基本数学与物理
  15. oracle dbv验证,关于dbv检测的结果,有些不懂,请各位指点
  16. 5. 位操作指令 AND,ORR, TST,BIC
  17. 远方测试软件,远方测试仪操作指导书
  18. ubuntu Anaconda安装gi模块 ValueError: Namespace Gtk not available
  19. ldaptemplate 分页_长图片如何分页打印?3秒搞定|360浏览器|chrome浏览器
  20. 小程序广告主和流量主相关

热门文章

  1. 第十四节:Lambda、linq、SQL的相爱相杀(3)
  2. ABP入门系列(2)——领域层创建实体
  3. Linq找不到行或行已更改
  4. 【编译原理】什么是AST?
  5. 【Python学习】 - - 链表推导式[ 2*x for x in X ]、匿名函数、并行迭代
  6. 【牛客 - 696C】小w的禁忌与小G的长诗(dp 或 推公式容斥)
  7. 【51Nod - 1416】两点 (dfs 或 并查集+dfs)
  8. 微博API接入初识【cxn专用】
  9. elementuiDemo1.1
  10. 获取键盘录入的5个int数,并存放到int数组arr中,输入前提示输入的是第几个值 * * 2.2 传递数组arr调用getNum(int[] arr)方法,获取返回值,并打印输出