1 引言
说话人识别技术被认为是自然的生物技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,说话人识别的主流特征往往只反映了说话人的声道频率特性,而忽略了声门的振动信息,以及声门振动对于声道的潜在影响。在详细分析说话人识别的主要特点和进展,特别是基于声门特征的说话人识别研究现状的基础上。生物特征的身份识别技术是当前国际上的重点研究内容,自动说话人识别通过语音识别说话人的身份,在系统安全、司法鉴定、金融服务以及电子侦听等领域有着广泛的应用价值。本文在对现有说话人识别技术分析的基础上,运用互信息理论进行说话人识别的研究,提出了可实际应用的语音信号互信息计算方法,并针对基于文本和文本无关的说话人识别分别提出了相应的说话人语音模型和互信息匹配算法,实验证明了本文提出的语音信号互信息计算方法的有效性。
本文依据主元分析(PCA:Principal Component Analysis)原理和说话人语音特征在观察空间的分布散度提取主要散度向量构造说话人语音特征子空间,将说话人语音特征子空间从观察空间分离出来。实验分析了基于特征子空间的说话人识别性能,结果证明了这种方法的有效性,特别是在小于3秒的短时测试语音情况下识别性能明显优于VQ和GMM等方法。
2 特征子空间分离
在宇宙大空间中,子空间是指有许多同样存在的小空间,这些小空间是并存的,而在每个空间的边缘都有类似一种间隔的存在,它们的作用就是把每个子空间隔开,但是这种间隔并不是层状的,它们像是空间一样有着自己的领域,但是这些领域中,存在于子空间的规则在这里却并没有效用,在这种间隔中光飞行的速度可以达到在子空间速度的亿倍以上。
基于语音特征子空间分离的说话人识别系统中,说话人模型由特征子空间表示,模式匹配部分则通过计算输入测试语音特征矢量与子空间的距离进行。特征子空间根据说话人训练语音提取的特征矢量在观察空间的统计分布特性,依据PCA原理选取具有较大权值的散度向量构成。
设一个说话人训练语音集合为{S1,S2,…,SN},每一个训练语音样本经过特征提取后形成特征矢量序列,即
如果特征矢量具有P个参数,则特征矢量Vij表示P维观察空间的一个点,所有的特征矢量
在观察空间形成具有一定统计分布特性的点集{V1,V2,…,VM},其中M是说话人所有训练语音特征矢量的总数。描述说话人语音特征矢量在观察空间分布的一个主要统计指标是分布散度,它可以由平均特征矢量和自协方差矩阵表示,如下:
公式(1)中平均特征矢量V反映说话人所有特征矢量在观察空问的中心点。公式(2)中自协方差矩阵R是一个P×P正定对称矩阵,它反映了说话人特征矢量各参数的平均偏离值,因此可以衡量特征矢量在观察空间的分布散度。
求自协方差矩阵R的本征值{λ1,λ2,…,λP}和相应的本征向量{e1,e2,…,eP},则它们之间的关系如下式(3)~(5)所示。其中φ是由本征向量作为每一列构成的P×P矩阵,A是由本征值构成的对角矩阵。
因为本征向量ei,i=1~P是从描述说话人语音特征矢量分布散度的自协方差矩阵计算得到,所以,从空间的角度看,说话人的语音特征分布完全可以由以平均特征矢量V为中心,本征向量ei,i=l~P为正交归一化基底的子空间描述,如图1所示。这样,就从语音特征观察空问将说话人语音特征子空间分离了出来,不同的说话人具有不同的特征子空间。
虽然计算得到的本征向量个数与观察空间维数相同,但有些本征向量对应的本征值较小,在表示语音特征分布散度时影响较小。因此,实际应用中可以选择具有较大散度权值(本征值)的向量构成子空间的基向量。图1显示了一个三维观察空间中分离出的两个二维说话人特征子空问例子,这些子空间的基底对应前两个较大的散度权值。第4小节分析了选取不同散度权值本征向量构成子空间情况下的识别性能,结果表明子空间维数并非越多越好。
说话人语音特征子空间本质上是根据训练语音特征矢量在观察空间的统计分布特性分析得到的一种结构性说话人模型,各子空间的基底描述了说话人语音特征分布的框架结构。因此,可以认为子空间融合了说话人语音特征的统计特性和结构特性,可由下式(6)表示:
3 子空间距离测度与模式匹配
系统模式匹配对输入测试语音与各说话人子空间的相关度进行分析,提供说话人身份的判别依据。设输入测试语音St相应的特征矢量序列为
则通过计算该特征矢量序列与说话人特征子空间的距离来分析测试语音与子空间的相关度,距离越小,相关度越大。终的说话人识别判决可以依据距离准则进行,即测试语音说话人所对应的子空间应该与测试语音之间的距离,即相关度。
输入语音特征矢量Vt与子空间的距离测度采用子空问投影距离计算,如下式(7)所示。其中Q是子空间的维数,Q≤P。
上式项是观察空间特征矢量Vt与说话人语音特征子空间中心矢量V之差向量Vt一V的平方模;第二项是这个差向量Vt一V在子空间各维投影的平方和,代表了这个差向量在子空间上的投影长度的平方。两项相减就是输入测试语音特征矢量Vt与子空间的距离。
以上距离测度中采用了训练语音的平均特征矢量V,使观察空间特征矢量转换为适合子空间处理的差向量形式。实际应用中,说话人语音特征是时变的,并引起特征矢量统计分布特性的变化,其表现之一是平均特征矢量随时问的漂移。从子空间角度看,这个平均特征矢量的变化代表了说话人语音特征子空间的一种整体时变漂移,在计算子空间距离时如果不能及时反映这种变化,将可能引起一定程度的失真,为此,定义第二种距离测度如下:
前面两项的含义与种测度d1(Vt,SF)是一致的,但差向量不是根据训练语音的平均特征矢量V形成,而是由输入测试语音的平均特征矢量Vt形成。这样,不仅使观察空间特征矢量转换为适合子空间处理的差向量形式,并且使形成差向量的两个特征矢量在时间上一致起来。但是,子空间是根据训练语音构造的,其中心特征矢量是训练语音的平均特征矢量,距离测度中必须反映这一差异。所以,在第二种距离测度中增加第三项描述训练语音和测试语音特征矢量的平均差异,两者通过加权系数c结合,其中N是测试语音短时帧个数。因此,这一距离测度不仅描述了特征矢量与说话人特征子空间的距离,而且描述了测试语音特征与子空间所表示的说话人语音特征的平均距离,同时考虑了语音特征的结构性和统计特性差异。加权系数c的选择使两类距离对整个测度的影响保持平衡,可以通过各自的统计方差之比计算。
模式匹配通过计算整个输入测试语音特征矢量序列与子空间的距离进行。利用以上距离测度,输入测试语音St与说话人语音特征子空问的总距离如下:
设系统需要识别的M个说话人对应的子空间分别为SF1~SFM,经过模式匹配得到输入测试语音St与各子空间的距离SFD1~SFDM,则识别判决准则如下:
4 实验分析
需要通过实验分析的问题包括:(1)基于特征子空间识别方法的有效性?(2)子空间维数与识别性能的关系,并确定一个子空间维数。(3)不同子空间距离测度下识别性能的比较分析(4)不同特征参数,例如LPCC、MFCC情况下识别性能分析?(5)不同长度测试语音输入时,说话人识别性能的变化趋势(6)在相同训练语音数据、实验环境和条件下,子空间方法和VQ、GMM等其他方法的识别性能比较分析。
4.1 实验数据与条件
语音数据选择SD2002一D2数据库,该数据库中包含了在普通实验室环境下通过计算机声音系统采集得到的40个说话人的280条语音片段,其中,男声26人,女声14人,每人分别有7段语音,每段语音包括停顿间隙长度为12秒。语音采样率为11025Hz,16位量化,单声道输入。
在模型训练和识别测试中,预处理部分首先消除输入语音信号的背景噪声,保留纯语音数据,并进行权重系数为0.97的高频提升。短时分析采用27ms哈明窗,帧移步长18ms。特征参数LPCC和MFCC为16阶,其中,LPCC由16阶LPC线性预测系数推导得到,MFCC是基于Mel频率尺度的倒谱系数,通过计算Mel频率域均匀分布的19个三角滤波器组的DFT输出,并经DCT变换得到,实验中选取第l~16个系数作为特征参数。实验中,特征子空间采用说话人的前4段语音信号进行训练,其纯语音成分的长度平均为32秒。测试实验采用每说话人的后3段语音。
4.2 不同距离测度和特征参数下子空间维数与识别性能关系分析
根据PCA原理,特征子空间可以选择较大散度本征值对应的本征向量为基底,这样可以提高子空间之间的非相关性。但是,选择的基向量不能过少,否则可能引起子空间不能充分表示语音特征的分布结构。因此,需要在实验分析子空间维数与识别性能关系的基础上确定一个子空间维数。
将散度本征值按大小顺序排列,并选取前面几个较大本征值所对应的本征向量作为子空间的基向量进行分析。图2显示了采用LPCC特征参数以及两种不同子空间距离测度情况下系统误识率随子空间维数变化的情况,其中测试语音长度为3秒。可以看到,第二种子空间距离测度总体上比种距离测度更优越,但两种测度下都显示当子空间维数为6时系统的误识率。图3显示了采用第二种子空间距离测度时,两种特征参数LPCC和MFCC所对应的识别性能随维数变化的情况,其测试语音长度也是3秒。可以看到,MFCC参数相对而言比LPCC要优越些,但差距并不大。另外,从图3同样可以看到当子空间维数为6时系统具有识别性能。
根据以上实验结果可以得出这样得结论:基于子空间分离的说话人识别方法是有效的,但其识别性能随子空间维数是变化的,当维数为6时识别性能达到,误识率仅为0.189%。因此,在以下的实验分析中子空间维数均采用6。
4.3 不同特征参数下识别性能与测试语音长度关系分析
实际应用中,测试语音的长度不是固定的。因此,衡量一个说话人识别系统的识别性能必须针对不同的测试语音长度进行分析。
图4显示了当采用两种特征参数LPCC和MFCC时,不同测试语音长度下系统的识别性能情况。其中,子空间距离的计算采用第二种测度,即d2(Vt,SF)。
从图4可以看到,所有测试语音长度下系统都能够得到较好的识别性能,误识率均在3%以下,当测试长度达到5秒时,MFCC对应的误识率趋于零,但LPCC对应的误识率下降趋势慢一些。另外可以看到,采用MFCC作为特征参数时的识别性能比LPCC时优越,但差距并不大。
4.4 子空间方法与其他方法的比较分析
说话人识别的根本性问题是模型和特征参数,即用怎样的方法去描述说话人的语音特征以及采用什么样的参数表示说话人语音特征的问题。常用的文本无关说话人模型有GMM和VQ。
图5和图6分别显示了子空间方法与VQ和GMM方法的比较。其中,VQ码本的码字数为128,GMM的混合分量数为16。可以看到,子空间方法在测试语音长度小于3秒时其识别性能优于其他方法,而在大于等于3秒时则相反。这个结果说明,GMM和VQ等完全基于统计聚类的方法由于运用了说话人语音的统计特性,所以对于较长的测试语音有较可靠的识别性能,但当测试语音较短时,由于无法提供可靠的统计特性进行匹配,误识率就很快下降。而子空间方法是根据说话人语音特征的分布散度得到的一种空间结构性模型,由于不是完全依靠语音特征的统计特性,所以在较短的测试语音时也能够得到较好的识别性能。
5 结论
本文依据主元分析原理从语音特征观察空间分离说话人语音特征子空间,对输入语音特征矢量与子空间的距离测度进行了定义,并对基于特征子空间的说话人识别性能进行了分析。说话人语音训练样本提取特征后在语音特征观察空间形成具有一定散度的分布,根据主元分析原理和分布散度提取主要散度本征向量作为基底构成说话人语音特征子空间,并通过测试语音特征矢量与子空间的距离测度进行模式匹配。实验结果表明,特征子空间方法对说话人识别是有效的,特别是在小于3秒的短时测试语音下能够得到较高的识别率。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。