主音信息交换的三大分类:
1、 人与人之间的语音通信:包括语音的夺缩、编码及语音的增强等。 2、 第一类人机语音通信:包括语音的合成,机器讲话、人听话的研究。
3、 第二类人机语音通信问题:包括语音的识别和理解,人讲话、机器听话的研究。
浊音语音和基音周期的定义:
空气流经声带时,会使声带产生张驰振动。即声带周期性地开启和闭合。当声带开启时,空气流从声门喷射出来,形成一个脉冲。当声带闭合时相当于脉冲序列的间隙期。这种状态下形成的准周期脉冲状的空气流经过声道,最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期的即为基音周期。男性:50到250,女性:100到500。
清音:
空气流由肺发出,在声带舒展的状态下进入声道的收缩部位,形成空气湍流,这种空气湍流通过声道后便形成所谓的摩擦音或清音。
共振频率或共振峰
声道可以看成是一根截面非均匀的声管,在发音时相当于共鸣器的作用,声音产生后在声道中传播,其频谱必然会受到声道谐振特性的影响。而声道具有一组共振频率,称为共振频率或共振峰。
掩蔽效应
响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响响度较低频率成分的听觉感受,使其变得不易察觉。这种现象称为人耳的掩蔽效应。
二元激励的语音生成模型 T 振幅Av 声道参数 a1~ap 冲激序列 声门波 发生器 模型 清/浊 声道 辐射 音判断 模型 模型 V(z) R(z) 随机噪声 发声器 振幅Au 图2.12 二元激励的语音生成模型
语音信号的处理:预加重、和分帧
预加重即将语音信号经一阶FIR高通数字滤波器来实现:
分帧处理用加窗来实现: 窗长一般为100到200
当窗长较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。
当窗长较窄时,平滑作用小,反映了能量的快变细节,而看不出包络的变化。
矩形窗较汉明窗较为明显地反映了能量包络的变化情况。
短时平均能量
??n 2
n
m???m?n?(N?1)
n 2
n
m?n?(N?1)
短时平均过零率(清音过零率高,浊音过零率低) 双门限比较法的两级判决法: 第一判决:
1、 先根据短时平均能量的轮廓选取一个较高的门限T1,进行一次粗判,语音起止点位于该
门限与能量包络交点对应的时间段AB之外。
2、 再根据背景噪声的短时平均能量确定一个较低的门限T2,并从A往左,从B往右,找到 能量包络与门限T2和相交点CD即CD为用双门限法根据短时能量所判断的语音段。 第二判决:
以短时平均过零率为标准,从C点往左,D点往右,找到短时平均过零率低于某个门限T3(由背景噪声过零率决定)的两点EF,这便是语音的起止点。
H(z)?1??z?1E??[x(m)w(n?m)]?? [x(m)w(n?m)]2 E??x(m) 短时自相关函数性质: 1、 周期性
2、 在k为0是取得最大值
3、 对于确定信号,在k=0时对应于能量;对于随机信号,在k=0时对应于平均功率。 语音信号的短时自相关函数: ??
n
m???
浊音和清音的短时自相关函数的特点:
1、 短时自相关函数可以很明显地反映出浊音信号的周期性。
2、 清音信号的自相关函数没有周期性,也不具有明显的峰值,其性质类似于噪声。 3、 不同的窗对短时自相关函数的结果有一定的影响。
短时傅里叶变换的性质:
?? j??j?m nR?k???x?m?w?n?m?x?m?k?w?n?k?m? X(e)?m????x(m)w(n?m)e2FSB? (Hz) N
时或采样率:
j? 的近似带宽为: 采样率:2B
矩形窗:
Fs B? (Hz) NW(e)(汉明窗)
采样率:2B
频率采样率:
k
Xn(e)是以2π为周期的w连续函数
j?2πk??, k?0,1,?,L-1 L总采样率:
SR=2B*N=2*C*Fs
欠速率采样和过速率采样
+ + + + y(n)-1x(n) D* [ ] L[ ] D*[ ] ?(n)?(n) xyx1(n)?x2(n)y1(n)?y2(n) ?1(n)?y?2(n)?1(n)?x?2(n)yx
D* [ ]
* * * + + + ?Z[ ] ln [ ] Z -1 [ ] ?x(n)x(n)X(z)X(z)
图5.3 卷积同态系统的特征系统
?+ * + + · · y(n)y(n)Z[ ] exp [ ] Z-1 [ ] ?
Y(z)Y(z)
图5.4 卷积同态系统的逆特征系统
12
图5.2 卷积同态系统的典范表示 x(n)?x1(n)?x2(n) X(z)?X(z)?X(z)
?1
复倒谱
?(z)?lnX(z)?ln[X(z)?X(z)]X12?(z)?X?(z)?ln[X1(z)]?ln[X2(z)]?X12?1??1???1(n)?x?2(n)?x?(n)z[X(z)]?z[X1(z)]?z[X2(z)]?x1π?j?j?n?(n)?xX(e)ed??2π?π
相关推荐: