(1) 语音信号预处理与特征提取 (2) 声学模型与模式匹配 (3) 语言模型与语言处理
(1)语音信号预处理与特征提取
语音识别一个根本的问题是合理的选用特征。选择的标准应体现对于异字音,相应特征间的距离应大,而对于同字音,彼此间距离应小。若以前者距离与后者距离之比作为优化准则用的“目标量”[3],则应使此量最大。
一般将语音信号的特征向量分为两类:第一类为时域特征向量,通常将帧语音信号的各个时域采样值直接构成一个向量。第二类为变换域特征向量,即对一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单,缺点是不能压缩维数且不适于表征幅度谱特性。与此对应,各种变换域特征向量的计算比较复杂,但能从不同的角度反映幅度谱的特征。
特征的选取取决于具体的系统,下面的特征是有代表性的: 1) 幅度(或功率) 2) 过零率
3) 邻界带特征矢量 4) LPC 预测系数特征矢量 5) LPC 倒谱特征矢量 6) Mel 倒谱参数
7) 前三个共振峰F1、F2、F3
幅度是端点检测的主要依据,也用于区分元音和辅音。过零率可以用来表示擦音和齿音。高分辨率的谱信息(即共振峰、LPC 参数或滤波器组输出) 提供共振峰和共振峰变迁的信息。
特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息。从信息论角度讲,这是信息压缩的过程。一般而言,由于倒频谱(cepstrum)有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例如过去常用的线性预测编码导出的倒频谱参数(LPCC)[4][6]和梅尔刻度式倒频谱参数(MFCC)[4]等都是常用的语音特征。从目前使用的情
Page 7
相关推荐: