从语谱图和波形上,可以看出使用RNN降噪后,噪声明显被抑制,并且RNN的抑制效果相比WebRTC的算法更强。从语音主观听觉上,RNN降噪后残留马路噪声明显比WebRTC降噪后残留的弱。
另外我们通过以下四项指标来评价降噪效果,分别为:SNR(Signal-to-noise ratio,信噪比),segSNR(分段信噪比),LSD(Log Spectral Distance,对数谱距离),PESQ(Perceptual Evaluation of Speech Quality,主观语音质量评估)。通常情况下,SNR、segSNR、PESQ的值越大表示语音质量越好,LSD的值越小表示语音失真越小。各项指标的具体说明如下:
1)信噪比(Signal-to-Noise Ratio,SNR)
SNR是衡量语音增强效果的常规方法,计算整个时间轴上的语音信号与噪声信号的平均功率之比。其定义为信号功率与噪声功率的比率,以分贝(dB)为单位表示。
其中:
为降噪前信号功率;
为噪声功率,即降噪前信号功率减去降噪后信号功率。
2)分段信噪比(Segment Signal-to-Noise Ratio,SegSNR)
由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。分段长度一般为10到20ms。
其中:
s为降噪前信号,ŝ为降噪后信号,T为分段的个数,R为每段长度。
3) PESQ(Perceptual Evaluation of Speech Quality)
ITU-T P.862 推荐使用语音质量感知评价PESQ算法,是基于输入-输出方式的典型算法,效果良好。 PESQ算法将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5--4.5之间,得分越高表示语音质量越好。
4)对数谱距离(Log Spectral Distance,LSD)
计算公式:
其中:
M为分段的个数,L为每段长度,s为降噪前信号,ŝ为降噪后信号。