用定点DSP实现MPEG-4标准中DCT系数快速量化的方法分析

时间：2011-06-17

　　离散余弦变换（DCT）是N.Ahmed等人在1974年提出的正交变换方法。它常被认为是对语音和图像信号进行变换的方法。为了工程上实现的需要，国内外许多学者花费了很大精力去寻找或改进离散余弦变换的快速算法。由于近年来数字信号处理芯片（DSP）的发展，加上专用集成电路设计上的优势，这就牢固地确立离散余弦变换（DCT）在目前图像编码中的重要地位，成为H.261、JPEG、MPEG 等国际上公用的编码标准的重要环节。在视频压缩中，常用的变换方法是DCT,DCT被认为是性能接近K-L变换的准变换。

　　在基于DCT变换的图像压缩编码方法中，对DCT系数必须做量化处理。量化过程是一个多对一的映射，例如对一个8×8块的64个DCT变换系数分别除以量化步长后取整。由于大多数DCT变换系数量化后变为零，因而达到压缩的目的。由于在量化过程中用到除法，因此通常需要进行浮点运算。

　　但是，可进行浮点运算的数字信号处理器（DSP）芯片结构比定点DSP芯片复杂，价格一般也比定点DSP芯片高很多。所以数字图像处理系统中通常采用定点DSP芯片来完成图像压缩运算，这种方法已经成为数字图像处理技术的的一个趋势。

　　TMS320C6200系列是德州仪器的新一代高性能定点DSP芯片。它具有VLIW（Very Long Instruction Word）结构，由8个可并行运行的执行单元构成。这些单元使得该系列芯片在单周期内可以并行执行多条指令，例如在单周期内并行完成2个16位×16位乘法和2个移位操作。它还具有流水线结构，使得若干条指令的不同执行阶段可以并行执行。这些设计使得TMS320C6200系列芯片程序执行速度更快、性能更高。

　　定点DSP完成的是整数运算或小数运算，数值格式中不包含阶码，通常定点 DSP是16位或24位数据宽度。在定点DSP上完成除法，通常的办法是调用库函数。但是调用库函数，势必会打破循环中的流水线操作，严重影响量化的完成速度。所以提高量化过程速度的关键就在于避免任何函数调用、跳转等操作。

　　本文以TMS320C6200系列定点DSP为例，提出一种用定点乘法和移位运算来代替量化过程中除法和饱和运算的方法，从而极大地提高了量化过程的运行速度。该方法也同样适用于其它各种定点微处理器。

　　1 MPEG-4标准中采用的量化技术及程序优化

　　MPEG-4标准中定义了两种量化方式：H.263量化方式和MPEG-4量化方式。这里为简单起见，只介绍TMN2.0编码器所用到的一种量化策略：AC系数和帧间宏块的DC系数用H.263量化方式，而帧内宏块的DC系数用MPEG-4量化方式中的DC系数非线性量化方式。

　　1.1 H.263量化方式

　　量化参数QP可以取值[1,3],量化步长为2QP.则量化公式为：

　　对于帧内宏块，LEVEL=|COF|/（2QP）

　　对于帧间宏块，LEVEL=（|COF|-QP/2）/（2QP）式中，COF表示即将被量化的DCT变换系数，LEVEL表示量化结果的。

　　1.2 MPEG-4DC系数非线性量化方法

　　量化公式为：LEVEL=DC_COF//dc_scaler

　　式中，DC_COF表示即将被量化的DCT变换DC系数；LEVEL表示量化结果；//表示先进行除法运算，然后对结果四舍五入取整。

　　在内部宏块内，定义亮度块为类型 1块，色差块为类型2块，类型1块的C系数由类型1的非线性标尺量化；类型2的DC系数由类型2的非线性标尺量化。

　　表1为定义DC非线性量化标尺dc_scaler.

　　表1 帧内宏块DC系数标尺

　　从表1中可以看到亮度块和色差块的DC系数有独立的量化标尺，亮度块具有较大的标尺而色度块具有较小的标尺。这种分段线性的非线性量化策略是一种高效的量化方式，它在保证图像质量的基础上提高了压缩效率。

　　1.3 将量化除法改定点乘法的方式

　　以内部宏块的AC系数量化公式为例，将其改写为：

　　LEVEL=|COF|/2QP=|COF|（2 n/2QP）/2 n

　　定义量化参数ac_cocff=[2n/2QP],[x]表示对x截尾取整，则：

　　LEVEL=|COF|×ac_coeff/2n

　　在QP的取值都范围[1,31]内，要使截尾取整后的每一个2 n/2QP的值都能够用量化参数ac_coeff一一对应地表示，n必须足够大。通过计算得出：当n≥11时满足要求。

　　取n=11得到ac_coeff的计算公式为：

　　ac_coeff=[2 11/2QP]

　　其实质就是用一个字（32 bit）的低11位（0Q11）来表示1/2QP的小数部分。

　　由于QP在[1,31]之间，可以用上述公式计算出对应于帧内宏块AC系数量化的量化系数的查找表：ac_coeff=AcQConff[QP].用C语言表示为（假设QP=0时ac_coeff=0）：

　　计算表明，AC系数量化系数、亮度块DC系数量化系数和色差块DC量化系数都可以统一用一个字的低11位（0Q11）来表示。这样就可以分别计算出它们的量化系数的查找表，从而实现用乘法运算代替除法运算。

　　而除以2 n的操作可以用右移n位的办法来完成。

　　对于8bit无符号二进制数表示的象素值，在经过DCT变换后，其DCT变换系数的值域为[-2048,2047],有12位二进制数。同时，由上述分析可知量化系数有11位。所以用本文方法计算出的量化系数与DCT变换系数相乘后，结果不会溢出。

　　根据MPEG-4 Visual标准TMN 2.0的要求，量化后AC系数值要饱和到[-2048,2047]之间。可利用TMS320C62x芯片指令集中的饱和左移指令SSHL来实现，只需要两条指令即可完成饱和运算，无需使用比较指令与跳转指令。

　　下面给出内部宏块量化的TMS320C62x线性汇编程序：

　　由该程序可以看到，程序中没有任何会影响流水线的的跳转语句及函数调用。因此将该程序编译后会发现，此循环被优化构成软件流水。如果再使用其它一些优化手段，比如合并程序中的移位指令，合作字访问指令处理两个短型数据等，该程序的效率将会更高。我们用TMS320C62x软件仿真器测试表明，原来使用除法的量化函数需要4871个周期，而运用上述优化办法进行优化后的量化函数只需275个周期即可完成，效率提高约18倍。

　　DCT/IDCT变换及量化过程是视频图像压缩系统中的关键模块。该模块的执行速率对整个系统的处理流度影响很大，因此将量化过程中的浮点运算转换为定点运行，提高该模块在定点DSP芯片上的执行速度，其意义显得尤为重要。同时由于目前绝大多数数字通讯系统都基于定点DSP芯片，如果用定点芯片完成视频图像处理将会有易于与数字通讯系统集成的优点。我们的这一方法为在定点芯片上完成图像处理进行了有益的尝试，为后续的研发工作打下了一个良好的基础。

上一篇：TMS320C2812在无刷直流电动机控制中的应用研究

下一篇：一种用于图像的无失真半易损电子水印系统的设计