随机模块
由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:
Enm[x(m)w(nm)]2mnN1n[x(m)w(nm)]2,其中N为窗长
特殊地,当采用矩形窗时,可简化为:
Enmx2(m)
这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现:矩形窗的主瓣宽度小(4*pi/N),具有较高的频率分辨率,旁瓣峰值大(-13.3dB),会导致泄漏现象;汉明窗的主瓣宽8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。
上图给出了加矩形窗和hamming窗的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming窗的效果比矩形窗略好,具有更平滑的能量函数。
2.不同窗长时的短时能量
窗的长短影响起决定性作用。窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小( N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz左右的采样频率下,N选为100~200比较合适。由图可看出当N=128时的效果比N=32时的效果要好些。
3.短时谱
由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:
Xn(e)jwmx(m)w(nm)ejwm
其中w(n-m)是实窗口函数序列,n表示某一语音信号帧。令n-m=k',则得到
Xn(e)jwk'w(k')x(nk')ejw(nk')
于是可以得到
假定
Xn(e)ejwjwnkw(k)x(nk)ejwk
Xn(e)jwkw(k)x(nk)ejwk
则可以得到
Xn(ejw)ejwnXn(ejw)
同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n和ω,所以它既是时序n的离散函数,又是角频率ω的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令ω=2πk/N,则得离散的短时傅立叶吧如下:
Xn(ej2k/N)Xn(k)
mx(m)w(nm)ej2km/N,(0kN1)
由上图可看出,加汉明窗时的短时谱比加矩形窗时的短时谱更为平滑,效果要好一些。由于矩形窗的旁瓣峰值大,会导致泄漏现象;汉明窗的旁瓣峰值低,可以有效的克服泄漏现象,具有更平滑的低通特性。
4、自相关函数
Xt1,t2)自相关函数用于衡量信号自身时间波形的相似性。自相关函数R(可正、可负,其
绝对值越大,表明相关性越强。一般说来,t1和t2相隔越远,相关性越弱,其绝对值也
Xt1,t2)越小,当t1=t2=t时,其相关性最强,R(最大。从图中可看出,在t=100处,其相
关性最强,因为分析的是语音信号在(4000,4100)这段时间的相关性,从源信号可看出,在100点附近波形较为平稳。
5.互相关
互相关函数是两个随机过程联合统计特性中重要的数字特征。表示的是两个时间序列之间和同一个时间序列在任意两个不同时刻的取值之间的相关程度,即互相关函数是描述随机信号x(t),y(t)在任意两个不同时刻t1,t2的取值之间的相关程度。从图中可看出,在t=100处,其相关性最强,因为分析的是语音信号在(4000,4100)和(4100,4200)这两段时间的相关性,从源信号可看出,在100点附近波形相似性更好。
6. 复倒谱
复倒谱x(n)是x(n)的Z变换取对数后的逆Z变换,其表达式如下:
^
xZ^1[lnZ[x(n)]]
在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道
系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下面的关系:
s(n)e(n)v(n)
^^^
由图可看出,汉明窗的效果要好些。此语音为清音,激励为噪声序列,语音信号周期趋于无穷大。
7. 倒谱
倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即
1c(n)z[ln|X(z)|]
由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系:
c(n)c(n)c(n)
sev
浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,由图可看出,在150附近时有峰值,为浊音,其他点幅值基本上为0,故为清音。
8. FFT长度不同时的FFT变换
对于快速傅里叶变换(FFT变换),变换的长度N不同,其效果也不同,N越大,效果越好,更能反映处信号的幅频特性,对信号的分析更加准确。由图分析可知,数据长度相同都为32时,变换长度不同128点FFT变换比32点FFT变换效果要好。
9. 数据长度不同时的FFT变换
对于快速傅里叶变换(FFT变换),变换的长度N不同,其效果也不同,N越大,效果越好,更能反映处信号的幅频特性,对信号的分析更加准确。而数据长度对FFT变换的效果没有太大影响。图中N都为128,数据长度不同,但对变换的效果没什么影响。
10. 最大似然估计
当估计量为未知常数时,不能采用贝叶斯估计方法,这时可采用最大似然估计。最大似然估计可简便地实现复杂估计问题的求解,而且,当观测数据足够多时,其性能也是非常好的。由图可看出,估计点数越多,估计的性能越好。
11. 加噪
由时域图可知,时域波形跟加噪前没有什么明显的区别,只是幅值有所增加。在频域上我们发现有一个近6000Hz的高频成分,这是产生的噪音的根本所在,所加的噪声为A*cos(2*pi*f*t),其中f=50000,A=0.005.
12. 概率密度估计
13. 均值
14. 方差
15. IIR高通滤波器
16. IIR低通滤波器
17. IIR带通滤波器
18. 正态概率密度
19. 希尔伯特变换
20. 平滑滤波
因篇幅问题不能全部显示,请点此查看更多更全内容