1 概述
H.264/AVC 国际视频编码标准的逐渐成熟和推广,越来越多的视频应用已经或即将采用H.264/AVC标准。由于存在不同的网络和不同的终端,因此对于视频编码的可伸缩性方面的要求也越来越迫切。所谓的可伸缩视频编码(scalable video coding:SVC)技术要求视频编解码器在比特流级别具有以下可伸缩特性:通过简单的丢包或截断码流等操作提取出的子码流具有较低的空间-时间分辨率和/或较低的码率(对应于较低的视频质量),同时任何可能子码流的编码效率应该与相应非可伸缩视频编解码器相当。
当前国际上对于视频编码技术的研究热点逐渐集中于在H.264/AVC 基础上实现可伸缩视频编码(Scalable Video Coding, SVC)。2005年1月,ISO的MPEG和ITU-T的VCEG,同意联合起来将SVC作为H.264/AVC的扩展集并由联合视频组(JVT)提出了草案,收录为H.264/AVC的Annex G。此后,每次JVT的会议都围绕着SVC技术对草案进行修订和完善。在2006年10月的JVT会议上,提出了H.264/AVC可伸缩扩展集的第8版草案。
2 基于H.264/AVC的SVC
H.264/AVC可伸缩扩展集的一大特点是,扩展集中所采用的H.264/AVC中的大部分技术都与AVC标准中的定义一致(例如,运动补偿预测,intra预测,变换编码,熵编码,去块滤波器等),只加入或修改了很少一部分内容。H.264/AVC的可伸缩扩展的技术要点为:(1)时域分级预测结构;(2)用于空域可伸缩性的层间预测机制;(3)基本层与H.264/AVC兼容;(4)用渐进细化片(progrESSive refinement slices)实现精细颗粒的质量可伸缩性;(5)NAL单元概念的使用和扩展。
H.264/AVC的SVC扩展集以不同的空间尺寸的图像为基础形成分层结构,并且在此丛础上,用等级B图像来实现时域的可伸缩性,用渐进细化(progressive refinement)的纹理编码来实现质量可伸缩性。一个降低的时/空分辨率序列所对应的比特流可以简单的通过丢弃NAL单元(或网络包)来得到,该完整的流对于获得所需的时-空分辨率是没有必要的。对应渐进精细片的NAL单元也可以被任意截断以进一步降低比特率和相应的重建质量。
实际应用的SVC编码器结构取决于要实现的可伸缩性的维度。
3 基本的空域可伸缩性
基于图像空间尺寸的空域可伸缩性是通过使用金字塔形的空域分辨率概念来实现的。将原始尺寸的输入视频序列进行下采样,得到所需的较低的空域分辨率,每个空域分辨率都用一个新的层进行编码,并且在各空域分辨率层的基础上进一步实现时域和质量的可伸缩性。由于低层是由高层通过下采样得到的,因此在相同的时域分辨率情况下,每一个高层帧都有与之相对应的低层帧,两者之间存在着显而易见的相关性,我们称之为层间冗余。显然,为了获得更高的压缩效率,有必要通过各种层间预测技术来消除层间冗余,这也是空域可伸缩性技术的关键所在。 SVC允许编码器自由选择哪些空域分辨率层间的相关性需要被消除。在具体实现时采用以下三种方式:
(1)Intra宏块的预测使用上采样的基本层incra块;(2)运动信息的预测使用上采样后的基本层运动数据;(3)残差信息的预测使用上采样后的基本层残差块。同样的技术可以用于基本层与当前层具有相同的空间分辨率的情况。此时,就不用进行上采样了。
4 扩展的空域可伸缩性
在基本的空域可伸缩编码中,对于高低层之间的空间关系有较严格的限定,即,低层必须对高层的完整图像进行以2为倍数的尺寸缩小。但是在实际应用中,由于网络状况、终端能力和用户需求多样,因此以上的限制使得应用中的需求无法得到充分满足。例如,当网络带宽减小时,用户可能更希望对感兴趣区域保留原始的空间分辨率的同时玄除其他区域(切割),而非对整个图像进行整体缩小;又如,为了适合终端显示尺寸,可能要对原图像进行非2倍的尺寸缩小。为了满足类似上述需求,JVT提出了扩展空域可伸缩件(ESS:extended spatial scalability)的概念。
ESS使得相邻的空域层之间具有了一般化的关系。这包含了两方面的意义:低空域层的图像可以来自于高分辨率图像中任意位置剪切出的矩形区域,并且相邻层分辨率的比例关系不再限制于2倍。
相应的,为实现以上功能,ESS 中新定义了以下两种技术: (1)剪切; (2)一般化的上采样(任意的水平和竖直层间尺寸比例)。
考虑两个连续的空域层,基本层(Base layer)和增强层(Enhancement laver),增强层图像的宽度和高度分别表示为wenh和henh。基本层图像的宽度和高度分别表示为wbase和hbase。基本层图像是从增强层图像中位置(xorig,yorig)起,宽高尺寸分别为wextract和hextract,部分或全部在增强层图像中的矩形区域,通过下采样得到的。增强层和基本层图像被划分为宏块。wextract/wbase和hextract/hbase对应了基本层图像和增强层提取图像之间实际的下采样比率。因此,参数集(xorig,yorig,wextract,hextract)完整的定义了基本层和增强层图像之间的几何关系。作为特例,在基本的2倍空域伸缩关系的配置中,这些参数为(0,0,2*wbase,2*hbase)。
如同基本的空域可伸缩性一样,ESS的增强层宏块可以使用基本层的运动信息进行层间预测,增强层的宏块使用从基本层获得的运动数据进行重建。由于ESS使得空域层间的关系变得更为复杂,因此层间预测技术也有了相应的发展,包括运动信息和纹理信息两个方面的内容。
5 ESS层间运动信息的获取
ESS运动信息上采样通过以下步骤完成:
(1) 获取几何参数
基本层经上采样后与增强层重叠所表现出的两层宏块的对应关系,虚线表示基本层上采样后的宏块,实线表示增强层的宏块。
对于ESS来说,增强层的某一个宏块可能在基本层中没有对应的宏块(在增强层图像的边界上),也可能有一个或几个对应的宏块。因此,首先有必要决定相应的高层宏块所对应的1、2或4个基本层的宏块,及它与这些基本层宏块的几何关系。
(2) 确定层间宏块对应关系类型
根据获得的几何参数,一个高层的宏块可能分属以下4个类型:
Comer:高层宏块有1个对应的基木层宏块;
Hori:高层宏块有2个对应的上下排列的基本层宏块;
Vert:高层宏块有2个对应的左右排列的基本层宏块;
Center:高层宏块有4个对应的基本层宏块。
(3) 获取宏块类型和分割类型
通过层间宏块对应关系,从相应的基本层宏块获取分割和子分割信息。使用这些变量来判断高层宏块是否(有可能)被分割。
例如,考虑一个高层宏块,如果对应的基本层宏块分别按照8×8和16×16分割,因为左边的8×8块由一个宏块边界获得,则获得的宏块分割为8×8。此外,子分割的类型也直接由对应的摹本层8×8块获得。
(4) 运动数据的继承
在得到了宏块分割和子分割的信息之后,一步就是从每个(子)分割继承运动信息(例如,参考帧索引和运动矢量)。首先,确定考虑的高层(子)分割的左上方的4×4块,计算确定对应的基本层4×4块,继承覆盖了基本层4×4块的(子)分割的参考帧索引和运动矢量,对运动矢量进行相应的伸缩。
当使刚的剪切窗口与宏块边界对齐,且上采样比率为1或2时,运动和纹理信息的上采样过程与基本的空域可伸缩编码相同。台则,必须使用一般化的上采样工具。根据当前SVC草案中的规定,只有当宏块完全在基本层内的时候,才进行层间预测。
6 ESS的层间纹理预测
层间纹理预测过程由对基本层纹理进行基于直接内插的上采样来完成。对于intra纹理,使用一组6抽头的滤波器,同时内插会跨越块边界,所使用的基于整数的6抽头滤波器,由Lanczos3滤波器变化而来;对于残差纹理,使用双线性滤波器,同时内插不跨越块边界。
考虑到基本层和增强层之间存在潜在的色度相移,因此对于亮度和色度的处理存住细微的差别。
对于亮度样点,增强层中在位置(X,Y)的实际的预测点pred[X,Y]由以下式子得到:
interp是来自于基本层亮度纹理1/16样点内插的样点向量。
对于色度样点,增强层中在位置(X Y)的实际的预测点predC[X,Y]由以下式子得到:
predC[X,Y]=interpC[xI,yI]
其中
interpC是来自于基本层色度纹理1/16样点内插的样点向量(C可以是Cr或Cb)。xorigC,yorigC,wextractC,hextractC,wextractC,hextractC,wextractC,hextractC是色度几何参数,Pbasex,Pbasey,Pextractx,Pextracty是水平和垂直的色度相移,单位是基本层或增强层亮度点的1/4像素距离。
7 结论和展望
作为当前JVT工作的中心任务,围绕SVC的研究还在不断深化,更多细节和新技术被添加到草案中。
作为一项新技术,ESS能解决实际应用中对于空域伸缩的一般化的要求,但是对这一技术的具体实现还存存一些问题。
在H.264 SVC实现的软件参考模型JSVM中,采用了自适应的层问预测方式选择,以实现更高的编码效率。但目前只实现了图像级的自适应,即对于整幅图像的所有宏块决定是否进行层问预测。因此在ESS中采用图像剪切的情况下,部分高层宏块将没有对应的基本层宏块。此时在图像级判断自适应的结果只能不进行层间预测,这使得ESS的编码效率大受影响。为了充分消除帧间冗余,必须要引入宏块级的自适应层间预测。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。