非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个框架,其硬件平台通常是功能强大的工作站或PC机。
§2.2 声音录入
本设计利用PC上的话筒口进行声音录入。通过MATLAB的wavrecord函数进行声音录入。wavrecord是MATLAB的专有声音录入函数,他有一下三种调用方式:
(1) y = wavrecord(n,Fs) (2) y = wavrecord(n,Fs,ch) (3) y = wavrecord(n,Fs,\'dtype\')
其中n代表声音录入的总采样数。Fs代表声音的采样率。ch代表声音录入采用的通道数,当ch为1时为单声道,当ch为2时为立体声。’dtype’代表采样数据的存储类型,MATLAB提供四种存储类型如下:
(1) \'double\' (default value), 16 bits/sample (2) \'single\', 16 bits/sample (3) \'int16\', 16 bits/sample (4) \'uint8\', 8 bits/sample
本设计单次采样总数为50000点,采样率为22000HZ。 即:y=wavrecord(50000,22000);
5
河南科技大学本科毕业设计(论文)
§2.3 声音的预处理
§2.3.1 欲加重处理
预加重的目的在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进一步提升。在计算短时能量之前应用该滤波器,还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。
§2.3.2 分帧处理
在计算各个系数之前要先将语音信号作分帧处理。语音信号是瞬时变化的,但在10~20ms内是相对稳定的.我设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以1024点为一帧进行处理,帧移为512个采样点。
§2.4 端点检测
所谓端点检测,就是在实时输入的声音信号中,区分背景噪声和环境噪声,准确地判断出声音信号的开始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来基于MTLAB编写的语音端点检测程序。除此之外, 在语音合成、 编码等系统中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此, 端点检测的效率、 质量在语音处理系统中显得至关重要。
§2.4.1 过零率
过零率(Zero Crossing Rate)是在每个音框中,音讯通过零点的次数。一般而言,噪声的过零率大于气音的过零率,而气音的过零率又大于有声音的过零率。一半情况下,噪声的波形和声音波形相比幅度非常小,为了排除噪声对过零率产生的影响,我将声音的原始谱向上平移,使得噪声的过零点影响大大减小。如下,图2-1展示了没有平移前的过零谱图,图2-2展示了
6
河南科技大学本科毕业设计(论文)
平移后的过零谱图。可以看出,平移后,话音可以很容易从噪音中区分开来。
声音波形210-1-200.511.5过零谱60040022.533.5x 104200000.511.522.533.5x 104
图2-1 平移前的过零谱
声音波形210-1-200.511.5过零谱604022.533.5x 10420000.511.522.533.5x 104
图2-2 平移后的过零谱
§2.4.2 音量
能量或者音量代表声音的大小,可由声音讯号的震幅来类比,又称为能量(Energy)或强度(Intensity)等。话音的能量远比噪声的能量要大,故可
7
河南科技大学本科毕业设计(论文)
用能量来区分是静音还是由话音。这里将每帧的幅度绝对值之和作为每一帧的总能量大小。音量谱如图2-3所示:
声音波形210-1-200.511.5音量谱100022.533.5x 104500000.511.522.533.5x 104
图2-3 音量谱
§2.4.3 过零率和音量积谱
通常利用短时能量来检测浊音,用过零率来检测清音,两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。图2-4展示了过零谱、音量谱和过零率和能量成绩构成的谱线。
8
河南科技大学本科毕业设计(论文)
声音波形20-200.511.5过零谱50000.511.5音量谱1000500022.533.5x 10422.533.5x 1040x 1040.511.522.533.5x 104过零音量积谱42000.511.522.533.5x 104
图2-4 过零音量积谱
§2.4.4 用过零率和音量积谱来检测端点
端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。这里采用的是第二种方法,通过能量和过零率的乘积构成的能频值来判断语音的端点。
这里我对端点进行了两级判断。首先根据过零率和音量积设定一个较高的门限T H , 若谱大于T H ,则可确定2个端点A、 B, 并可认为这 2个端点之间是语音信号, 这样相当于完成初判。 再根据背景噪声的过零率和音量积设定一个比TH 稍低的门限T L , 如果信号的能量大于 TL ,则所对应的端点C、 D 之间仍是语音信号,至此完成了第二级判断。
9
河南科技大学本科毕业设计(论文)
判断结果如图2-5所示:
声音波形210-1-200.511.522.533.5x 10语音波形210-1-21.41.51.61.71.81.922.1x 1044
图2-5 端点检测出的语音波形
§2.5 特征参数提取
§2.5.1 特征参数概述
对于特征参数,有多种参数可供选取。常见的有三种: (1)线形预测系数特征矢量(LPC) (2)LPC倒谱特征矢量(LPCC) (3)Mel倒谱系数(MFCC)
1. 线性预测系数(LPC)
这里我采用最简单的一种线形预测系数特征矢量(LPC)。 线性预测(Linear Prediction)分析是最有效的语音分析技术之一,在语音编码、语音合成、语音识别和说话人识别等语音信号处理领域中得到了广泛的应用。基
10
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新高等教育语音识别控制小车设计大学本科毕业论文(3)全文阅读和word下载服务。
相关推荐: