MFCC概述及提取流程
时间:2024-04-29
Mel频率倒谱系数(MFCC)是一种常用于语音和音频信号处理的特征提取方法,它能够有效地捕捉语音信号的重要特征。下面是MFCC的概述及提取流程:
概述:
MFCC的提取过程涉及多个步骤,包括预加重、分帧、加窗、傅里叶变换、梅尔滤波器组计算、对数和离散余弦变换等。
提取流程:
预加重(Pre-emphasis):
对输入的语音信号进行预加重,通过高通滤波器强调高频部分,以减少后续处理中的高频噪声对特征提取的影响。
分帧(Frame Blocking):
将预处理后的信号分成若干固定长度的帧,通常每帧持续时间为20-30毫秒。
加窗(Windowing):
对每一帧的信号应用窗函数,常用的窗函数包括汉明窗、汉宁窗等,目的是减少帧边界处的频谱泄漏。
傅里叶变换(Fourier Transform):
对每一帧的加窗信号进行傅里叶变换,将时域信号转换为频域信号。
梅尔滤波器组计算(Mel Filterbank Computation):
将傅里叶变换后的频谱图通过一组梅尔滤波器进行滤波,将频率轴转换为梅尔频率轴,以模拟人耳对频率的感知特性。
对数运算(Logarithm):
对滤波器组输出的能量值进行对数运算,以增强低能量部分的信息。
离散余弦变换(Discrete Cosine Transform, DCT):
对对数能量谱进行离散余弦变换,得到终的MFCC系数。通常只保留前几个系数,其余被舍弃,以达到降维的目的。
特征归一化(Normalization):
对得到的MFCC系数进行归一化处理,使其具有零均值和单位方差,以提高特征的稳定性和可比性。