基于内容的音频检索系统的前端抗噪技术

时间：2010-09-14

1.引言

　　基于内容的音频检索指通过音频特征分析，对不同音频数据赋以不同语义，使具有相同语义的音频在听觉上保持相似。该技术在许多领域都有极大应用价值。在检索系统中一种常见情形是将安静环境下训练的模型应用于实际有背景噪声的环境。尤其在哼唱输入的情况下，噪声不可避免，因此噪声背景环境中的音频识别技术一直备受关注。本文给出一个将音频增强和音频检索系统相连接的抗噪声音频检索系统，重点分析基于内容的音频检索系统的前端抗噪技术。

　　2 系统平台的建立

　　基于内容的音频检索系统运用多媒体信息处理技术，结合人感知心理研究和模式识别技术实现音频检索，包括音频分割、特征提取和索引检索等关键步骤。在提交哼唱式音频过程中不可避免地会受到来自周围环境和传输媒介引入的噪声、设备内部电噪声的干扰。这些干扰将使检索系统的性能恶化。因此，必须对带噪音频进行抗噪处理。音频检索系统首先是建立数据库，对音频数据进行特征提取。音频检索主要采用哼唱查询方式，用户通过查询界面哼入查询信息，然后提交查询。在进行属性特征提取前通过前端抗噪模块增强哼唱语音。接着系统对哼唱音频提取特征，然后检索引擎对特征矢量进行匹配，按相关性排序后通过查询接口返回给用户。图1为抗噪声检索系统原理框图。

　　3 音频抗噪技术分析

　　3.1 语音增强算法分类

　　系统前端输入信号通常是哼唱输入，语音频段可以采用语音增强技术。语音增强是指为了提高受噪声污染的语音信号的质量而对含噪语音所做的处理，主要用于从带噪语音信号中提取纯净的原始音频或原始语音参数。根据不同的标准，语音增强算法有多种分类方法。

　　从信号输入的通道数分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统下语音与噪声同时存在于一个通道中，语音信息与噪声信息必须从同一个信号中得出。常用方法包括谱减法、信号统计模型方法、听觉掩蔽算法、维纳滤波方法、信号子空间算法等。多通道语音增强算法则采用麦克风阵列获取信号数据，它可充分利用阵列信号的信号源方向、说话人位置等空间特性，结合语音信号与噪声的特征实现语音增强。代表性的算法有自适应波束形成算法、结合波束形成与后滤波算法及各种基于信号子空间、统计模型算法等。

　　另一种分类方法是根据对语音信号处理方式的不同，将语音增强算法分为时域语音增强算法和变换域语音增强算法两大类。时域语音增强是在时间域直接处理带噪语音来恢复纯净语音，利用语音信号在时域中的短时平稳特性、相关特性等来研究具有针对性的噪声消除技术，其代表性算法有后验概率估计法、卡尔曼滤波法、梳状滤波器法、子空间的方法、自适应噪声抵消算法、语音生成模型等。变换域语音增强需一个适当的变换将语音信号转换到变换域中，然后针对变换域中的带噪语音分量的特性设计算法恢复纯净语音分量，通过相应的反变换获得纯净语音信号在时域中的估计。其常用变换有离散傅里叶变换、离散余弦变换及K-L变换和小波变换等，代表性算法有谱减法、维纳滤波法、短时谱幅度的MMSE估计、自适应滤波法等、听觉掩蔽效应增强算法，小波变换算法、基于频域盲源分离的语音增强技术等。还有一些新方法，如神经网络、分形理论等。

　　3.2 系统抗噪算法的确定

　　在基于内容的音频检索系统中，用户通过哼唱等方式输入检索信息，基于单麦克风输入的单通道语音增强算法是一种简便、实用的形式。变换域语音增强算法可充分利用变换域中语音与背景噪声较其在时域中更为显著的特征区别，且能有效消除语音信号在时域中存在的相关特性，因此其对带噪语音的增强效果要优于时域语音增强算法。因此系统适合采用谱减法、听觉掩蔽算法、维纳滤波方法、信号子空间算法。

　　维纳滤波法能改善平稳段的谱估计，残留噪声类似于白噪声，降低音乐噪声的干扰，但算法复杂度较大，适用于对实时性要求不高的场合。听觉掩蔽算法可减少不必要的语音失真，实际应用中常只能用带噪语音估计掩蔽阈值，则估计结果误差较大，对噪声估计要求较高。信号子空间算法能有效去除带噪语音中的背景噪声，使语音的质量和可懂度都有较大提高，但计算量较大。谱减法算法简单，算法复杂度低，实现较容易，能够上满足实时性要求，但会引入较大音乐噪声，适合在平稳噪声环境和对实时性要求较高的场合使用。由于本系统为实时检索系统，对实时性和快速性的要求较高，因此这里采用谱减法。

　　4 基于谱减法的减噪技术

　　4.1 谱减法的基本原理

　　谱减法就是在频域将噪声的频谱分量从带噪语音信号的频谱中减去。其基本思想是：在假定加性高斯噪声与短时平稳的语音信号独立的条件下，从带噪语音信号的功率谱中减去噪声的功率谱，从而得到增强后较为纯净的语音频谱。其基本原理框图如图2所示，图1中，s(n)表示纯净语音，d(n)表示加性噪声，r(n)=s(n)+d(n)表示带噪语音信号，Yk和Sk(k=0，1，2…)分别表示带噪语音信号和纯净语音的频谱系数，λn(k)表示噪声的功率谱系数。

　　式中，α和β为参数。当α=1，β=1时，为幅度谱减法形式。当α=2，β=1时，为功率谱减法形式。

　　该谱减法称为传统谱相减法。它基于人耳对声音相位不敏感特性，从含噪语音中减去估计噪声而达到语音增强的目的，直观简单，但容易产生“音乐噪声”，因此实际应用中常采用谱减法的改进算法。

　　4.2 谱减法的改进算法

　　用功率谱减法处理语音信号后，在频域中仍残留有噪声，要滤除或减少这些噪声，可适当的多减去噪声分量，使残留噪声在幅值上减少，从而降低噪声的影响，即过减法。此时式(1)取β>1，这样语音失真可能会增大。因此，通过噪声估计来调整和确定β的取值。β值的取值原则：对信噪比低的带噪语音，噪声的方差大，β可适当大些；对信噪比高的带噪语音，β取值则可小些。因为噪声谱的估计是平均值，所以当前帧的噪声谱实际上与估计值有偏差，因此，经谱减法计算的语音谱值可能是负值，一般则设结果设为零，即采用半波整流法，还可采用残余噪声衰减法，噪声残留的幅值介于零和整个非语音活动期噪声残留幅值之间，由于残留噪声的随机性，在每个频点上其振幅值随不同分析帧而随机波动，因此在给定频点上通过用相邻帧的频点振幅值代替当前帧的振幅而压缩残留噪声。这样就形成改进型谱减法的系统，能有效实现前端减噪。

　　5 结束语

　　基于内容的音频检索技术适应性更强，具有广泛的应用价值，具有噪声鲁棒性的检索系统在实际应用中不可或缺。本文给出一个将音频增强和音频检索系统级联的抗噪声音频检索系统，从不同角度分析语音增强算法，并通过比较选取谱减法作为基于内容的音频检索系统的前端抗噪技术，同时给出谱减法的改进算法。

上一篇：采用差分PulSAR ADC AD7982转换单端信号

下一篇：低成本无电刷直流电机控制