MPEG-7音频综述

时间：2010-08-02

引言

　　MPEG-1、MPEG-2、MPEG-4数据压缩与编码标准只是对多媒体信息内容本身的表示，而MPEG-7标准则是建立在MPEG-1、MPEG-2、MPEG-4标准基础之上，并可以独立于它们而使用，它提供的是关于多媒体信息内容的标准化描述信息，不是内容本身，而是关于“数据的数据”。MPEG-7标准并不是要替代这些标准，而是为这些标准提供一种标准的描述表示法。其实，早在1997年，MPEG-7就已经被提出来，当时的提出者很好的预计了我们今天面对的网络世界。现在每一个因特网用户每天面对着网路上面数百万兆的音视频信息，但是还不存在一种搜寻你所要的音视频内容的统一方法。这样，MPEG-7应运而生。它定义了一个通用的标准结构，可以交换描述多媒体内容信息的数据，从而支持内容搜寻和管理。因此，MPEG-7的称法为多媒体内容描述接口，同时这一名称也表示了它所代表的应用范围。（见图1所示）

　　虽然有很多种描述方法可以描述一段多媒体内容，但是描述格式的定义通常是规范的，所以具备了可用性、统一性和互操作性。鉴于是标准描述化，所以MPEG-7标准只是指定描述的格式（语法和语义）。

　　虽然提出多媒体内容描述接口的初衷是为了解决人们在面对多到泛滥的网络多媒体信息面前的无所适从，但是MPEG-7的应用绝不仅限于搜寻，它也有很多其他类型的应用，例如实时监控、广播过滤，半自动编辑，自动播放列表的产生。

　　在本篇论文中，我们将讨论MPEG-7的基本理论，并且侧重于音频方面。

图1 MPEG-7的范围

一. MPEG-7基本

1.定义

　　MPEG-7的基本描述实体叫做描述符（descriptor），它通过定义语法和语义来表示特定内容的性质、特征和属性。在音频领域中，描述符可以描述音频信号的频谱包络。

　　描述方案（description schemes）的作用是联合和构造描述组件，以满足应用的要求。描述方案包含了一系列的描述符和同一个体系中的其它的描述方案。

　　描述符和描述方案在语义上都是由所谓的描述定义语言（description definition Language，DDL）定义的，它可以进行扩展。MPEG-7 DDL是以XML语言为基础，因为它可以实现内容描述的文本表示，并且允许描述工具的扩展。

2.描述定义语言- DDL

　　描述定义语言是基于XML（文本格式）的描述性语言。之所以采用XML语言一部分是因为它是SGML语言的延伸，而且它的普及型确保了描述工具的扩展性。此外，MPEG-7采用XML还因为它在与多媒体内容描述相关的数据结构的创建中发挥着巨大的作用。

　　但是MPEG-7 DDL不是对XML语言规范的完全复制，它有少许的改变，比如它对一些特定的数据类型提供扩展支持，并且它剔除了多余的特征等。特别是，DDL引入了定义数组和矩阵的新型结构，扩展了XML语言架构的功能。

3.多媒体描述方案(MDS)

　　创建多媒体描述方案不只是为了满足不能单独适用于视频或者音频工具的需要，而且能够满足多媒体内容的需要。所以，MPEG-7标准中的MDS提供了与MPEG-7音频标准相关的一系列的两个层次的工具。首先，有一系列低层次的工具，它包含了扩展的数据类型，例如音视频数据的段的基本定义类型，还有一系列高层次的工具，它超出了音视频描述的范围，允许音视频相关，例如高层次内容的语义描述。为了避免MPEG-7标准会存在冗余功能，它的音频部分是由MDS提供音频文件所需要的工具集。

二. MPEG-7音频

　　MPEG-7音频标准的结构可分为两个类别，就是通用音频描述框架和特定应用工具。音频描述框架即基本兼容层（工具箱），也就是通用描述和特定应用构建的基础，而且它还包含了可扩展系列方案、低层描述符（LLDs）、静音段（silence segment）。另一方面，声音识别工具、乐器音色描述工具、说话内容描述工具、旋律描述工具、鲁棒性音频匹配工具分别专注了它们各自的应用领域，所以它们的描述能力都比较强。

1.描述结构

　　MPEG-7音频依赖于两个基本结构，段和可扩展序列。

　　段数据类型实际上由MPEG标准的MDS继承而来的，而且在一开始就被MPEG-7音频描述所采用。音频段和段分解共同作用可以连续的分解音频流。将音频分为“段”，它的依据是每段至少得有一个特征，无论是概念上的还是数学上的。你可以把音频流分割成任何你想要的分辨率，以及任何层次的深度。只要子段的时域范围完全在母段上，母段本身的特性就会限制子段的特性，而且子段可能会存在缺口、重叠、两者都有或者两者都无。特定的一段时间的音频流可以被任意数量的段所描述。

　　可扩展序列的是一系列对应于描述符的采样值。普遍的设想是它作为一个时间序列的同时，同样适应于频域的采样。可扩展序列还能够存储各种各样的汇总值，如描述符值的值、值和方差。

2.低层音频描述符

　　一般来说，涉及到大部分的音频信号的低层描述符，能够分成以下几个组别，同时下面给出了描述符的描述范围

　　基本：瞬时波形和功率值。

　　基本谱：对数频率功率谱和频谱特性，包括谱心，频谱延展性，频谱平坦度。

　　信号参数：准周期信号的基频和信号谐波。

　　音色时域：对数表示的开始时间（log attack time），时域分割的单声道音频的时域中心。

　　音色谱：在线性空间内的频谱特性。例如单声道音频的谱心，还包括信号的谐波部分的频谱特性，也就是谐波谱心，频谱偏差，频谱延展性，谱变化。

　　频谱的基本表示：主要用于声音识别的特性，一般用于在低维空间的识别。

　　2003年MPEG又发布了MPEG-7 Audio Version 2，增加了一些低层描述符,包括音频信号质量描述符和音乐节拍（BPM）描述符。音频信号质量描述符描述的范围包括背景噪声、音频通道互相关、相对延迟、平衡、DC偏移、带宽和传输技术，以及录音错误。并且对原先的MPEG-7 Audio进行了扩展，增加了对立体声/环绕声的描述和说话内容的描述。

3.面向应用的音频工具

　　(1)声音识别工具

　　声音识别描述符和描述方案是索引和分类全部声音效果的一组工具。它们支持自动化声音效果识别和索引，而且包含了详细说明声音分类的工具和声音识别的工具。此识别器可用来自动索引和音轨分段。

　　(2)说话内容描述工具

　　基于目前的语音系统并不完美，从而产生了说话内容描述工具。它不是一个简单的说话文本（虽然它也能适应这种情况），这个描述方案包含了合并词和音位格，它能为音频流中的每一个说话者服务。通过结合音位格的方式，很大程度上解决了在出现词汇表之外的词汇所带来的问题。即使原始解码出错，或者单词超出了识别引擎的词汇表的范围，检索信息依然能够能够进行。它能够用于两大类别的检索方案：音频流的索引和检索以及语音多媒体对象的索引。

　　(3)乐器音色描述工具

　　音色描述针对的是对乐器声的感知特性的描述。音色作为感知特性被定义在库中。当两个声音拥有相同的基音音高和响度时，但是听起来却不一样，这是因为这两个声音音色的不同。音色描述工具利用简化的一组描述符描述这些感知特性。描述符涉及到一些概念，例如声音的起始时间、明亮度或者丰满度。

　　总共存在有四类乐器声：谐和、持续、连贯的声音；冲击性非持续的声音；非谐和、持续、连贯的声音；非连贯、持续的声音。在这4大类中，MPEG-7标准已经详细说明了前两类，而且一直在不断更新中。另两类被视作低优先级，因为它们相对比较少见，但是标准仍对它们进行了说明。音色描述工具广泛使用了前面讨论过的音色时域和频域的低层描述符。

　　(4)旋律描述工具

　　有两种方法来描述旋律特性，采用哪一种取决于你所需要的简洁度和度。旋律轮廓（melody contour）描述方案是一种简洁描述旋律信息的方法，它允许有效、稳健地旋律相似性匹配，例如，通过嗡声查询。旋律轮廓（melody contour）描述方案使用5步轮廓法（表示相邻音符的音程长度的不同），并且音程被量化。旋律轮廓描述方案还可以通过存储每个音符邻近的拍数来表示节奏信息，而且这还能显著的提升从资料库提取信息匹配的准确度。

　　对于应用来说，需要更加优良的描述准确度和给定旋律的重建能力，所以旋律描述方案支持描述符集合的扩展和高音程编码。音符跟音符之间有着的音高区间（到分或者更高），而不是只量化到5个级别。通过对类似音高区间的音符起始时间的差异的对数比进行编码，才有了的节奏信息。这些描述符是一系列的可选支持描述符，例如歌词、音调、韵律和起始音符，以满足应用的需要。

　　(5)鲁棒匹配工具

　　鲁棒音频匹配工具能够稳健和有效的完成音频信号的身份匹配，也就是说，即使在信号有了线性或者非线性失真之后，也能够去区分两个音频信号在本质上是否相同。未知音频信号和相关的资料数据库条目能够进行稳健和有效的匹配，这使得它具备了音频材料的自动识别功能，以及能够仿真出跟人类能力一样基于记忆的声音的识别能力。更重要的是，在MPEG-7标准中，建立了为现有的传统音频格式的给定音频内容块来查找内容描述数据（例如，歌名或者歌手名字）的方法。例如CD不提供任何链接到相应的描述数据库条目。虽然鲁棒音频匹配在原则上可以通过若干特征而实现，但是使用MPEG7中的频谱平坦度描述符就可以完美的实现了。

三. MPEG-7音频的应用

　　1.说话内容搜寻

　　语音是人类相互交流沟通的重要的手段，与我们的生活息息相关。所以能够实现对于说话内容的搜寻功能显得非常的重要。现今的自动语音识别器都是基于单词/音位格的。

　　前面已经简单讲过MPEG-7对于说话内容的描述的方法。它先存储音位格作为描述数据（而不是用纯文本的形式），然后采取查询/匹配的方法，并且它允许模糊处理和未知单词的检索。这个应用可以使你能够检索某一段的说话内容，还能够使用语音对某段内容加上注解。

　　2.一般声音识别和索引

　　当你面对各种各样的声音，甚至是复杂的混合声时，该怎么样去识别其中的一个呢？当你面对两个相似的声音时，怎样去解决这个问题呢？对它们进行频谱独立分量分析和利用隐马尔科夫模型就可以很好的区分出来。

　　3.存档和恢复

　　这个应用很好的解决了文化遗产（音频部分）的保护问题，我们可以对它们进行存档以给日后使用。我们经常想要保存原始的录音，这样在日后我们可以对它进行后期处理或者恢复。对于存档和恢复音频文件，MPEG-7是通过音质描述编码实现的，这其中包括对它们的一般音质、技术录音参数、缺陷的位置和类型进行记录编码。

　　4.乐器音色搜寻

　　人类对于声音的感觉不只包括音调、响度和持续时间，还包括音色的感知。MPEG-7通过使用感知相关特性去描述单声道乐器声以对声音进行比较，而且它还考虑了持续谐波声和冲击乐器声。

　　5.旋律搜寻

　　对于如何搜寻旋律的问题，它要求搜寻工具不仅能够高效工作而且能够容许音调和时间稍微不准确。MPEG-7的方法是采用旋律描述编码，它对音调、节奏、时间信息等进行编码，以进行搜寻。

　　6.音频识别/指纹

　　关于怎么识别一段录音的问题，MPEG-7所用到的方法是存储数据库的原始文件的MPEG-7的签名/指纹来实现，再通过和数据库签名进行匹配来识别未知的音频材料。这种通过从音频信号中抽取独特签名来自动识别音频内容的音频指纹方法获得了广泛的兴趣。不仅如此，MPEG-7还可以应用于说话人的识别。

四. 结论

　　在发布了几代的音视频压缩标准之后，MPEG标准小组把工作范围延伸到了多媒体内容的描述上。因为对音视频内容的高效搜索和检索的需求在不断增长，MPEG-7标准试图为音视频提供标准的内容描述方法。尤其是标准中的很多描述工具被用来有效地表示内容的内部结构和特性，而不是像其它的元数据标准一样以纯注解形式来描述。MPEG-7音频提供了通用概念以及它有着面向应用的特点，同时它具备很多功能，例如音乐的哼唱检索应用、声音效果识别、乐器音色描述、说话内容的注释、音频信号的稳健匹配等。

上一篇：射频拉远单元RRU与数字光纤直放站分析比较

下一篇：高清视频会议技术全面解析