论文翻译:2020GCRNLearning Complex Spectral Mapping With Gated Convolutional Recurrent Networks for Monaural Speech Enhancement

技术论文翻译:2020GCRNLearning Complex Spectral Mapping With Gated Convolutional Recurrent Networks for Monaural Spee

翻译:2020 _ gcrn _ learning具有门控易失性递归网络的复杂频谱映射用于单声道语音增强

论文地址:学习复频谱映射使用门控卷积循环网络来增强单声道语音。

代码地址:https://github.com/JupiterEthan/GCRN-complex

作者主页:https://jupiterethan.github.io/

引用格式:谭k,王德升.用选通卷积递归网络学习复谱映射进行单声道语音增强[J].IEEE/ACM音频、语音和语言处理交易,2019,28: 380-390。

摘要

相位对于语音的感知质量非常重要。然而,由于缺乏频谱时间结构,通过监督学习直接估计相位谱似乎很困难。复频谱映射的目的是从含噪语音中提取纯语音的实频谱和虚频谱,同时增强语音的幅度响应和相位响应。受多任务学习的启发,我们提出了一种用于复谱映射的选通卷积循环网络(GCRN),它可以作为单声道语音增强的因果系统。实验结果表明,在复频谱映射中,所提出的GCRN算法在客观语音清晰度和质量方面要比现有的卷积神经网络好得多。此外,与振幅谱映射和复比掩模相比,该方法产生显著更高的STOI和PESQ。我们还发现复谱映射和所提出的GCRN提供了有效的相位估计。

关键词:复频谱映射,选通卷积递归网络,相位估计,单声道语音增强。

1 引言

在日常收听环境中,语音信号会受到背景噪声的干扰。这种失真严重降低了语音的可懂度和质量,使自动语音识别等许多与语音相关的任务变得更加复杂。许多与语音相关的任务,如自动语音识别和说话人识别,都比较困难。语音增强的目的是去除或减弱语音信号中的背景噪声信号。如果语音信号由信噪比较低的单个麦克风采集,从根本上来说是一个挑战。如果语音信号由低信噪比的单个麦克风捕获。本研究的重点是单声道语音增强。

?在过去的几十年里,语音处理领域对单声道语音增强进行了广泛的研究。受计算听觉场景分析(CASA)中时频(T-F)掩模概念的启发,近年来,语音增强被表述为监督学习[36]。对于监督语音增强,正确选择训练目标非常重要[38]。对于有监督的语音增强,正确选择训练目标非常重要。一方面,明确的训练目标可以显著提高语音清晰度和语音质量。另一方面,培训目标应接受监督学习。在T-F领域已经制定了许多培训目标,主要分为两类。一组是基于掩码的目标,如理想比例掩码(IRM)[38],它定义了干净语音和有噪声语音之间的时频关系。另一种是基于映射的目标,如对数功率谱(LPS)[44]和目标幅度谱(TMS)[20],[12],它们代表干净语音的频谱特征。

?这些训练目标中的大多数都是在STFT计算的噪声语音的振幅谱上操作的。因此,典型的语音增强系统仅增强幅度谱,并且简单地使用噪声相位谱来重新合成增强的时域波形。没有增强相位谱有两个原因。首先,发现相位谱中没有清晰的结构,使得直接估计纯语音的相位谱变得困难[43]。其次,人们认为相位增强对于语音增强并不重要[37]。然而,Paliwal等人[23]最近的一项研究表明,精确的相位估计可以大大提高客观和主观的语音质量,尤其是在仔细选择相位谱计算的分析窗口时。随后,各种相位增强算法也被开发用于语音分离。Mowlaee等人[21]通过最小化均方误差(MSE)来估计混合物中两个源的相位谱。科劳兹克和格克曼[17]用声音增强语音帧的相位,但不改变没有声音的帧。Kulmer等人[18]通过对瞬时噪声相位谱进行相位分解,然后进行时间平滑来估计纯语音相位。通过这些相位增强方法,可以实现客观的语音质量改善。此外,相位信息也可以包括在T-F掩模中。王和王[39]训练了深度神经网络(),通过逆傅里叶变换层利用噪声相位直接重构时域增强信号。结果表明,语音合成和掩蔽估计的联合训练在保持客观可懂度的同时提高了感知质量。另一种方法是相位敏感掩模(PSM)[5],它结合了纯语音和噪声语音之间的相位差。实验结果表明,PSM估计比只增强幅度谱产生更高的信噪比。

?威廉姆森等人[43]观察到,虽然相位谱缺乏谱时结构,但纯语音谱的实部和虚部是清晰的。

结构,因此适合于监督学习。因此,他们设计了复杂理想比值掩码(cIRM),它可以从噪声语音中重建纯净语音。在他们的实验中,采用了一个DNN来联合估计实谱和虚谱。与[21]、[17]和[18]中的算法不同,cIRM估计可以增强噪声语音的幅值和相位谱。结果表明,复杂比率掩码(cRM)比IRM估计产生更好的感知质量,同时在客观可懂度上取得轻微或没有改善。随后,Fu等人[6]采用卷积神经网络(CNN)从噪声频谱中估计出纯净实谱和虚谱。然后,估计的实谱和虚谱被用来重建时域的波形。他们的实验结果表明,与DNN相比,CNN使短时客观可懂度(STOI)提高了3.1%[29],使语音质量的感性评价(PESQ)[28]提高了0.12。此外,他们还训练了一个DNN,以从噪声的LPS特征映射到纯净特征。他们的实验结果表明,使用DNN的复数谱映射比使用相同DNN的LPS频谱映射产生了2.4%的STOI改善和0.21的PESQ改善。

??在过去的十年中,监督下的语音增强已经从CNN和循环神经网络(RNN)的使用中获益匪浅。在[42]、[41]、[40]和[5]中,具有长短期记忆(LSTM)的RNN被用来进行语音增强。最近,Chen等人[1]提出了一个具有四个隐藏LSTM层的RNN,以解决不依赖噪声的模型的说话人泛化问题。他们发现,RNN对未经训练的说话人有很好的泛化作用,并且在STOI方面明显优于前馈DNN。此外,CNN也被用于掩码估计和频谱映射[7],[25],[11],[31]。在[25]中,Park等人利用卷积编码器-解码器网络(CED)来进行谱映射。CED实现了与DNN和RNN相当的去噪性能,而其可训练的参数却少得多。Grais等人[11]提出了一个类似的编码器-解码器架构。最近,我们提出了一个基于扩张卷积的门控残差网络,它有大的感受野,因此可以利用长期背景[31]。卷积递归网络(CRNs)得益于CNNs的特征提取能力和RNNs的时空建模能力。 Naithani等人[22]通过连续堆叠卷积层、递归层和全连接层设计了一个CRN。 在[46]中开发了一个类似的CRN架构。最近,我们将CED和LSTMs集成到CRN中,这相当于一个因果系统[32]。此外,Takahashi等人[30]开发了一个CRN,在多个低尺度上结合了卷积层和递归层。

??在一项初步研究中,我们最近提出了一种新型的CRN,用于执行单声道语音增强的复数谱映射[33]。这个CRN是基于[32]中的架构。 与[6]中的CNN相比,CRN产生了更高的STOI和PESQ,而且计算效率更高。在这项研究中,我们进一步发展了CRN架构,并研究了用于单声道语音增强的复数谱映射。我们对[33]的扩展包括以下内容。首先,每个卷积层或解卷积层被相应的门控线性单元(GLU)块所取代[4]。第二,我们在最后一个去卷积层的基础上增加了一个线性层来预测实谱和虚谱。

??本文的其余部分组织如下。在第二节中,我们介绍了STFT域中的单声道语音增强。在第三节中,我们详细描述了我们提出的方法。在第五节中,我们介绍并讨论了实验结果。第六部分是本文的结论。

2STFT域单耳语音增强

  给定一个单麦克风混合物$y$,单声道语音增强的目的是将目标语音$s$从背景噪声$n$中分离出来。 噪声混合物可以被建模为:

$$公式1:y[k]=s[k]+n[k]$$

其中$k$是时间样本指数。对两边进行STFT,我们得到:

$$公式2:Y_{m,f}=S_{m,f}+N_{m,f}$$

其中$Y$、$S$和$N$分别代表$y$、$s$和$n$的STFT,$m$和$f$分别表示时间段和频bin。在极坐标中,公式(2)变成

$$公式3:\left|Y_{m, f}\right| e^{i \theta_{Y_{m, f}}}=\left|S_{m, f}\right| e^{i \theta_{S_{m, f}}}+\left|N_{m, f}\right| e^{i \theta_{N_{m, f}}}$$

其中$|·|$表示幅值,$\theta$表示相位。虚数单位用$’i’$表示。在典型的基于频谱映射的方法中,纯净语音的目标幅度谱(TMS)(即$|S_{m,f}|$是一个常用的训练目标[20], [12]。在这些方法中,从噪声特征(如噪声幅度$Y_{m,f}$)到目标幅度的映射被学习。然后将估计的幅度$|\hat{S}_{m,f}|$与噪声相位$\theta_{Y_{m,f}}$相结合,重新合成波形。图1(a)描述了一个语音信号的相位谱,其中相位值被包裹在$(-\pi , \pi )$范围内。经过包装后,相位谱看起来相当随机。在图1(b)中,相位谱的解包版本导致了更平滑的相位图,当连续的T-F单元之间的绝对相位跳动大于或等于$\pi $时,相位值通过添加$\pm 2\pi$的倍数进行校正。 因此,通过监督学习直接估计相位谱是难以做到的。

??从另一个角度来看,语音信号的STFT可以用直角坐标表示。因此,公式。(2)可以改写为

$$公式4:Y_{m, f}^{(r)}+i Y_{m, f}^{(i)}=\left(S_{m, f}^{(r)}+N_{m, f}^{(r)}\right)+i\left(S_{m, f}^{(i)}+N_{m, f}^{(i)}\right)$$

其中上标$(r)$和$(i)$分别表示实部和虚部。在[43]中,cIRM被定义为

$$公式5:M=\frac{Y^{(r)} S^{(r)}+Y^{(i)} S^{(i)}}{\left(Y^{(r)}\right)^{2}+\left(Y^{(i)}\right)^{2}}+i \frac{Y^{(r)} S^{(i)}-Y^{(i)} S^{(r)}}{\left(Y^{(r)}\right)^{2}+\left(Y^{(i)}\right)^{2}}$$

其中,为简单起见,省略了指数$m$和$f$。增强的频谱可以通过对噪声频谱应用cIRM $\hat{M}$的估计而得到。

$$公式6:S=\hat{M}*Y$$

其中上面的乘法’×’是一个复数算子

??此外,我们还扩展了信号近似法(SA)[15]。SA通过最小化纯净语音的频谱幅度和估计语音的频谱幅度之间的差异来进行掩码。 基于cRM的信号逼近(cRM-SA)的损失定义为:

$$公式7:S A=|c R M \times Y-S|^{2}$$

其中$|·|$代表复数模子,即复数的绝对值。

??如图1(d)和1(e)所示,实谱和虚谱都表现出清晰的谱时结构,类似于图1(c)的幅度谱,因此适合于监督学习。因此,我们建议像[6]那样,直接从噪声语音的实谱和虚谱(即$Y^{(r)}$和$Y^{(i)}$)到纯净语音的实谱和虚谱(即$S^{(r)}$和$S^{(i)}$)学习谱映射。随后,估计的实谱和虚谱被合并以恢复时域信号。

??需要注意的是,Williamson等人[43]声称,通过DNN直接预测STFT的实部和虚部是无效的。然而,我们发现,在STOI和PESQ指标中,复数谱映射始终优于幅度谱映射、复数比率掩码和基于复数比率掩码的信号逼近,只要有一个精心设计的神经网络结构。为方便起见,我们将复数频谱映射中使用的训练目标,即$S^{(r)}$和$S^{(i)}$,称为目标复数频谱(TCS)。

图1:语音信号的相位、幅度、实部和虚部频谱的图示。

幅度以及实部和虚部频谱的绝对值绘制在对数刻度上

3系统描述

A 卷积循环网络(CRN)

  在[32]中,我们开发了一个卷积递归网络,它本质上是一个编码器-解码器架构,在编码器和解码器之间有LSTMs。具体来说,编码器包括五个卷积层,而解码器包括五个去卷积层。在编码器和解码器之间,两个LSTM层对时间依赖性进行建模。编码器-解码器的结构是以对称的方式设计的:内核的数量在编码器中逐渐增加,在解码器中逐渐减少。为了沿频率方向汇总上下文,在所有卷积层和解卷积层中沿频率维度采用2的跨度。换句话说,特征图的频率维度在编码器中逐层减半,在解码器中逐层翻倍,这确保了输出与输入具有相同的形状。此外,跳过连接被用来将每个编码器层的输出与相应的解码器层的输入连接起来。在CRN中,所有的卷积和解旋都是因果关系,因此增强系统不使用未来信息。图2说明了[32]中的CRN架构,用于幅值域的频谱映射。

B 门控线性单元

  门控机制控制着整个网络的信息流,这有可能允许对更复杂的相互作用进行建模。它们最早是为RNNs开发的[14]。在最近的一项研究中[34],Van den Oord等人采用了LSTM式的门控机制对图像进行卷积建模,这导致了掩盖式卷积。

$$公式8:\begin{aligned}
\mathbf{y} =\tanh \left(\mathbf{x} * \mathbf{W}_{1}+\mathbf{b}_{1}\right) \odot \sigma\left(\mathbf{x} * \mathbf{W}_{2}+\mathbf{b}_{2}\right) \\
=\tanh \left(\mathbf{v}_{1}\right) \odot \sigma\left(\mathbf{v}_{2}\right)
\end{aligned}$$

图2[32] 中用于谱映射的 CRN 的图示

CRN 包含三个模块:编码器模块、LSTM 模块和解码器模块。 Conv表示卷积和Deconv反卷积

其中v1 = x ? W1 + b1,v2 = x ? W2 + b2。W’s和b’s分别表示内核和偏置,σ表示sigmoid函数。符号?和分别代表卷积运算和逐元乘法。门控的梯度为

$$公式9:\begin{aligned}
\nabla\left[\tanh \left(\mathbf{v}_{1}\right) \odot \sigma\left(\mathbf{v}_{2}\right)\right]= \tanh ^{\prime}\left(\mathbf{v}_{1}\right) \nabla \mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right) \\
+\sigma^{\prime}\left(\mathbf{v}_{2}\right) \nabla \mathbf{v}_{2} \odot \tanh \left(\mathbf{v}_{1}\right)
\end{aligned}$$

其中tanh(v1), σ(v2)∈(0, 1),质数符号表示微分。由于降尺度因子tanh(v1)和σ(v2)的作用,随着网络深度的增加,梯度逐渐消失了。为了缓解这个问题,Dauphin等人[4]引入了GLU。

$$公式10:\begin{aligned}
\mathbf{y} =\left(\mathbf{x} * \mathbf{W}_{1}+\mathbf{b}_{1}\right) \odot \sigma\left(\mathbf{x} * \mathbf{W}_{2}+\mathbf{b}_{2}\right) \\
=\mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)
\end{aligned}$$

梯度的GLU

$$公式11:\nabla\left[\mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)\right]=\nabla \mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)+\sigma^{\prime}\left(\mathbf{v}_{2}\right) \nabla \mathbf{v}_{2} \odot \mathbf{v}_{1}$$

包括一条没有降级的路径?v1 σ(v2),它可以被看作是一个乘法的跳过连接,有利于梯度在各层中流动。图 3(a)是一个卷积 GLU 块(表示为 “ConvGLU”)的图示。去卷积GLU块(记为 “DeconvGLU”)是类似的,只是卷积层被去卷积层所取代,如图3(b)所示。

C通过分组策略降低模型复杂度

  模型的效率对于许多现实世界的应用是很重要的。例如,移动电话应用需要低延迟的实时处理。在这些应用中,高的计算效率和小的内存占用是必要的。Gao等人[9]最近提出了一种分组策略来提高递归层的效率,同时保持其性能。这种分组策略如图4所示。在一个循环层中,输入特征和隐藏状态都被分成互不相干的组,组内特征在每个组内分别学习,如图4(b)所示。分组操作大大减少了层间连接的数量,从而降低了模型的复杂性。然而,组间的依赖性不能被捕捉到。换句话说,一个输出只取决于相应特征组中的输入,这可能会大大降低表示能力。为了缓解这个问题,在两个连续的递归层之间采用了一个无参数的表征重排层来重排特征和隐藏状态,这样就可以恢复组间的相关性(图4?)。为了提高模型的效率,我们对模型中的LSTM层采用了这种分组策略。我们发现,这种策略在适当的组数下提高了增强性能。

图3 一个卷积GLU块和一个反卷积GLU块图,其中σ表示sigmoid函数。

图4rnn的分组策略示例

D网络结构

  这项研究扩展了[32]中的CRN架构(见图2),以执行复杂的谱映射。由此产生的CRN还结合了GLU,因此相当于一个门控卷积递归网络(GCRN)。图5描述了我们提出的GCRN架构。请注意,与[6]一样,噪声语音的实谱和虚谱被视为两个不同的输入通道。如图5所示,编码器模块和LSTM模块在估计实部和虚部时是共享的,而两个不同的解码器模块则分别用于估计实部和虚部的频谱。这种结构的设计受到多任务学习的启发[19], [45], 其中多个相关的预测任务被联合学习,并在任务间共享信息。对于复数谱映射,实部分的估计和虚部分的估计可以被视为两个相关的子任务(见[43])。因此,参数共享有望实现子任务之间的正则化效应,这可能导致更好的泛化。此外,参数共享可能会鼓励学习,特别是当两个子任务高度相关的时候。另一方面,子任务之间过度的参数共享可能会阻碍学习,特别是当两个子任务是弱相关的时候。因此,正确选择参数共享可能对性能很重要。在[33]中,我们研究了四种不同的参数共享机制。其中,共享编码器模块和LSTM模块而不共享解码器模块会导致最佳性能。

??在这项研究中,我们假设所有的信号都是以16千赫兹采样的。利用一个20ms的汉明窗来产生一组时间帧,相邻时间帧之间有50%的重叠。我们使用161维频谱,这相当于320点STFT(16 kHz × 20 ms)。

??表一提供了我们提出的网络结构的细节。 每层的输入大小和输出大小是以featureMaps × timeSteps × frequencyChannels的格式给出的。此外,层的超参数以(kernelSize, strides, outChannels)的格式指定。请注意,每个解码器层的特征图的数量因跳过连接而增加一倍。我们没有使用[32]中的2×3(时间×频率)的核大小,而是使用了1×3的核大小,我们发现这并不会降低性能。每个卷积或解卷积的GLU块后面都有一个批量归一化[16]操作和一个指数线性单元(ELU)[3]激活函数。在每个解码器的顶部叠加一个线性层,将学到的特征投射到实数或虚数谱图上。

图5用于复数谱映射的GCRN的网络结构。更多详情见表一

表1提出了GCRN架构,其中t表示谱图中的时间帧数

4 实验步骤

A 数据准备

  在我们的实验中,我们在WSJ0 SI-84训练集[26]上评估所提出的模型,该训练集包括来自83个说话人(42个男性和41个女性)的7138个语料。我们将这些说话人中的6个(3个男性和3个女性)留作测试用,没有经过训练。换句话说,我们用剩下的77个说话者来训练模型。在这77个训练者的语料中,我们从NOISEX-92数据集[35]中随机抽出150个语料,用工厂噪声(称为 “factory1”)创建一个验证集,信噪比为-5dB。对于训练,我们使用来自一个声音效果库(可在https://www.soundideas.com)的10,000个噪音,其总时长约为126小时。 对于测试,我们使用两个高度非平稳的噪音,即咿呀声(“BAB”)和食堂(“CAF”),来自Auditec CD(可在http://www.auditec.com)。

??我们的训练集包含32万个混合物,其总时间约为500小时。具体来说,为了创建一个训练混合物,我们将一个随机选择的训练语料与10,000个训练噪声中的一个随机片段进行混合。信噪比从{-5, -4, -3, -2, -1, 0}dB中随机抽取。我们的测试集由150个混合物组成,这些混合物是由6个未训练过的说话人的25×6句话创建的。我们对测试集使用三种信噪比,即-5、0和5dB。

B基线和培训方法

  我们将我们提出的方法与五个基线进行比较。我们首先训练一个CRN,将噪声语音的幅度谱映射到纯净语音的幅度谱[32](表示为 “CRN + TMS”)。估计的幅值与噪声相位相结合,重新合成波形。在第二条基线(表示为 “CRN-RI + TMS”)中,同样的CRN被用来从噪声语音的实部和虚部频谱映射到纯净语音的幅度频谱。第三,如[6]所述,训练一个CNN来执行复数谱映射。它有四个卷积层,有50个核,核大小为1×25,然后是两个全连接层,每层有512个单元。除输出层外,所有层都采用了参数化整流线性单元(PReLUs)[13]。 在输出层,322个(161×2)线性激活单元被用来预测实数和虚数谱。第四,我们训练我们提出的GCRN来预测cIRM。请注意,cIRM的实部和虚部可能在(-∞, +∞)中有很大的范围,这可能使cIRM的估计变得复杂。 因此,我们按照[43]中的建议,用以下双曲正切来压缩cIRM。

$$公式12:O^{(x)}=K \frac{1-e^{-C \cdot M^{(x)}}}{1+e^{-C \cdot M^{(x)}}}$$

  其中x表示r或i,分别表示实部和虚部。在推理过程中,未压缩的掩码的估计值可按以下方式恢复。

$$公式13:\hat{M}^{(x)}=-\frac{1}{C} \log \left(\frac{K-\hat{O}^{(x)}}{K+\hat{O}^{(x)}}\right)$$

  其中O?(x)表示GCRN的输出。如[43]所述,我们设定K=10,C=0.1。第五,我们用cRM-SA作为训练目标,训练相同的GCRN。

??模型的训练使用AMSGrad优化器[27],学习率为0.001。我们使用平均平方误差(MSE)作为目标函数。在语料层面上,迷你批的大小被设定为4。在一个minibatch中,所有的训练样本都用零填充,使其具有与最长样本相同的时间步长。通过交叉验证选择最佳模型。

表2 STOI和PESQ在5db信噪比下不同方法的比较

表3在0 dB信噪比下STOI和PESQ方法的比较

表4STOI和PESQ在5db信噪比下不同方法的比较

5实验结果与分析

A实验结果比较

  表二、三和四分别显示了不同模型和训练目标之间在STOI和PESQ方面的综合比较,即-dB、0dB和5dB信噪比。 数字代表了每个测试条件下测试样本的平均数。每个测试条件下的最佳分数用黑体字突出。KS表示时间方向上的核大小,G表示分组LSTM层的组数。 注意,G=1意味着不进行分组。我们首先比较了我们提出的以TCS为训练目标的不同组数的GCRN结构,如表II、III和IV的最后四行所示。可以看出,G=1、G=2、G=4和G=8在两个指标方面都产生了类似的结果,这表明分组策略的有效性。

??此外,我们提出的GCRN模型大大超过了[6]中的CNN(KS = 1)。例如,在信噪比为-5dB的情况下,G=2的GCRN比CNN提高了13.14%的STOI,PESQ提高了0.47。在核大小为1×25的情况下,CNN只捕获了沿频率方向的上下文,没有学习时间上的依赖性。相比之下,我们提出的GCRN同时考虑了语音的频率和时间背景。我们通过在时间方向上使用不同的核大小来研究[6]中的CNN的时间背景的影响。具体来说,除了[6]中的原始版本(即1×25)之外,我们使用了四种不同的核大小,即2×25、3×25、4×25和5×25。请注意,这些核只对当前和过去的时间框架进行操作,这相当于因果卷积。通过四个卷积层,这些CNN分别对应于5、9、13和17帧的不同时间背景窗口大小。如表二、三和四所示,较大的上下文窗口尺寸产生较高的STOI,但在PESQ方面略有改善或没有改善。

??以cRM-SA作为训练目标,我们提出的GCRN产生的STOI和PESQ明显优于使用cIRM的相同GCRN。从cRM-SA到TCS进一步改善了这两个指标。以-5dB信噪比的情况为例。与估计的cIRM相比,采用cRM-SA的拟议GCRN(G=1)产生了3.68%的STOI改进和0.09的PESQ改进。估算的TCS还实现了2.28%的STOI改善和0.08的PESQ改善。

??我们现在比较幅度域和复数域的谱映射。如表二、三和四所示,"CRN + TMS "和 "CRN-RI + TMS "利用相同的模型和训练目标,但输入特征不同。使用噪声语音的实谱和虚谱作为特征,产生的STOI和PESQ比使用噪声幅度谱略好。我们提出的方法(表示为 “GCRN + TCS”),利用TCS作为训练目标,比 "CRN-RI + TMS "大大提高了STOI和PESQ。例如,"GCRN + TCS (G = 2) "在信噪比为-5 dB时,比 "CRN-RI + TMS "提高了4.21%的STOI,PESQ提高了0.1。

??为了进一步证明复数谱映射的有效性,我们另外用TMS和TCS分别训练两个LSTM模型。两个LSTM模型都有四个堆叠的LSTM隐藏层,每层有1024个单元,一个全连接层被用来估计TMS和TCS,分别有一个softplus激活函数[10]和一个线性激活函数。如表二、三和四所示,复数谱映射产生的STOI和PESQ一直比幅度频谱映射高。

??此外,图6显示了比未经处理的混合物的信噪比改进(ΔSNR)。可以看出,我们提出的方法比基线产生了更大的信噪比改善,在-5dB时,信噪比改善超过了12dB。图7(a)显示了不同模型中可训练参数的数量,图7(b)显示了为处理一个时间框架而进行的浮点融合乘法的数量。通过分组策略,我们提出的模型在计算成本和内存消耗方面都比[32]中的CRN效率更高。[6]中的CNN的可训练参数要少得多,但计算成本比[32]中的CRN要高。在G4中,我们提出的GCRN具有与CNN相当的参数数量,但在计算上要高效得多。此外,图8显示了GCRN以cIRM、cRM-SA和TCS为训练目标的纯净语音、噪声语音和增强语音的谱图实例。我们可以看到,在用估计的cIRM或cRM-SA增强的语音的频谱中,一些语音成分被丢失。相比之下,通过估计的TCS增强的语音表现出与纯净语音更相似的谱时调制模式,并且比通过估计的cIRM或cRM-SA增强的语音失真更少。

图65、0 和 5 dB 的未处理混合的 ΔSNR(以 dB 为单位)。

方法是 (i) CRN+TMS [32], (ii) CRN-RI+TMS, (iii) GCRN+cIRM (G = 1), (iv) GCRN + cRM-SA (G = 1), (v ) CNN + TCS [6], (vi) GCRN + TCS (G = 1), (vii) GCRN + TCS (G = 2), (viii) GCRN + TCS (G = 4) 和 (ix) GCRN + TCS (G = 8)。

图7不同模型中每个时间范围 (b) 的可训练参数 (a) 和浮点融合乘加的数量。 两部分的单位都是百万。

模型是 (i) CRN [32], (ii) CNN [6], (iii) GCRN (G = 1), (iv) GCRN (G = 2), (v) GCRN (G = 4) 和 ( vi) GCRN (G = 8),分别。

图8清晰语音、嘈杂语音、cRM 增强语音、估计 cRM-SA 增强语音和估计 TCS 增强语音的实部(顶部)和虚部(底部)频谱的图示。 实部和虚部频谱的绝对值绘制在对数刻度上。

表5建议的方法和时域方法的比较。 这里√表示因果模型,×表示非因果模型

  我们还将我们提出的方法与最近的两种时域语音增强方法进行比较。AECNN-SM(具有STFT幅度损失的自动编码器CNN)[24]和FCN(全卷积网络)[8]。此外,我们还训练了一个非因果版本的GCRN(表示为 “Bi-GCRN”),其中中间的LSTM层被相应的双向LSTM层所取代。比较结果见表五,其中的数字代表了两个测试噪声的平均值。我们可以看到,GCRN在-5dB时比AECNN-SM提高了1.19%的STOI,而GCRN和AECNN-SM在0dB和5dB时产生类似的STOI。在PESQ方面,AECNN-SM的表现一直优于GCRN。 应该注意的是,AECNN-SM方法使用的时间框架大小(即2048)比我们的方法(即320)大得多,这可能对AECNN-SM有益。还可以看到,我们的方法在STOI和PESQ方面都大大超过了FCN。此外,Bi-GCRN产生的STOI和PESQ明显高于GCRN。这并不令人惊讶,因为未来的帧显然包含了对语音增强有用的信息。

B相位估计的评估

  如果噪声具有不同的相位,语音信号的相

图9图示不同条件下的相位误差

表6不同信噪比下相位距离对杂波噪声的影响

表7相位距离对不同信噪比下自助食堂噪声的影响

复数谱映射提供了一个相位估计,即用两个未知数解出以下两个方程。

$$公式14:\hat{S}^{(r)}=|\hat{S}| \cos \left(\hat{\theta}_{S}\right)$$

$$公式15:\hat{S}^{(i)}=|\hat{S}| \sin \left(\hat{\theta}_{S}\right)$$

其中S?(r)和S?(i)是网络输出。为了评估估计的相位,我们采用两种相位测量方法。第一个是目标谱图S和估计的谱图S?之间的相位距离(PD),定义在[2]中。

$$公式16:P D(S, \hat{S})=\sum_{m, f} \frac{\left|S_{m, f}\right|}{\sum_{m,^{\prime} f^{\prime}}\left|S_{m,^{\prime} f^{\prime}}\right|} \angle\left(S_{m, f}, \hat{S}_{m, f}\right)$$

  其中∠(Sm,f, S?m,f) ∈ [0?, 180?] 表示Sm,f和S?m,f之间的角度。相位距离可以看作是相应的T-F单元之间角度的加权平均值,其中每个T-F单元由目标谱图的幅度加权,以强调该单元的相对重要性。第二个措施是通过比较使用三种相位重新合成的时域信号来量化估计相位的影响:噪声相位、估计相位和清洁相位。这些相位与三种不同的幅度相结合:噪声幅度、由[32]中的CRN估计器增强的幅度和清洁幅度。
??我们评估了两种估计相位,它们是由我们提出的方法(即 “GCRN + TCS (G = 1)”)所增强的频谱计算出来的。 “GCRN + TCS (G = 1)”)和 “GCRN + cIRM (G = 1)”。表六和表七分别列出了在咿咿呀呀的噪声和食堂噪声上,纯净频谱和噪声频谱之间的相位距离(PD(S,Y))以及纯净频谱和增强的频谱之间的相位距离(PD(S,S?))。数字代表每个测试条件下测试样本的平均值和标准偏差。我们可以看到,复数谱映射在每个条件下都能改善相位。例如,在-5dB的食堂噪声上,相位距离平均提高了8.246?。此外,就相位距离而言,"GCRN + TCS (G = 1) "产生的相位始终比 "GCRN + cIRM (G = 1) "好。
??表八、九和十分别列出了从噪声相位、估计相位和清洁相位重新合成的信号的比较。如表八所示,仅通过增强相位而保持噪声幅度不改变,客观可懂度和感知质量都得到了改善。例如,通过 "GCRN + TCS (G = 1) "估计的相位,在-5 dB信噪比下,比噪声相位提高了1.38%的STOI和0.12的PESQ。清洁阶段在-5分贝的情况下,STOI增加了2.05%,PESQ增加了0.1。从表九中,我们可以看到,增强相位可以进一步提高 STOI 和 PESQ,而不是仅仅增强幅度,特别是在低信噪比条件下(如 -5 dB),相位严重下降。 如表十所示,在幅度纯净情况下,估计的相位比噪声相位的STOI和PESQ都有所提高。 此外,用 "GCRN + TCS (G = 1) "估计的相位始终比用 "GCRN + cIRM (G = 1) "估计的相位高。
??上述评价还表明,使用噪声相位是不进行相位增强的传统方法的一个重要限制。我们的复数谱映射提供了一个有效的相位估计,避免了对噪声相位的使用。

6 结论

  在这项研究中,我们提出了一个使用卷积递归网络进行复数谱映射的新框架,该框架从嘈杂语音的实部和虚部频谱学习到纯净语音的频谱。它能同时增强噪声语音的幅值和相位响应。 受多任务学习的启发,所提出的方法扩展了一个新开发的CRN,并产生了一个因果关系,以及与噪音和扬声器无关的单声道语音增强算法。我们的实验结果表明,用我们提出的模型进行复数谱映射,比幅度频谱映射以及复杂比率掩码和基于复杂比率掩码的信号近似,明显改善了STOI和PESQ。此外,我们提出的模型在复数谱映射方面大大超过了现有的CNN。 此外,我们在递归层中加入了分组策略,在保持性能的同时大幅提高了模型效率。
??我们提出的方法还提供了一个相位估计,证明它比噪声相位更接近清洁相位。从另一个角度来看,我们发现,当与噪声幅度或增强幅度相结合时,估计相位产生的STOI和PESQ明显高于噪声相位。
??应该指出的是,纯净语音可以从目标复数谱图中完美地恢复出来。我们相信,基于GCRN的复数谱映射的方法代表了在不利的声学环境和实际应用中产生高质量增强语音的重要一步。在未来的研究中,我们计划将我们的方法扩展到多通道语音增强,其中准确的相位估计可能更加重要。

表8在stoi和pesq中,噪声相位、估计相位和纯净相位与噪声幅度的比较

表9比较stoi和pesq中结合增强幅度的噪声相位、估计相位和清洁相位

表10stoi和pesq中噪声相位、估计相位和纯净相位与纯净幅度的比较

致谢

  作者想要感谢A. Pandey提供他的AECNN-SM实现来进行比较。

参考文献

[1] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, J. Acoust. Soc. Am., vol. 141, no. 6, pp. 4705 4714, 2017.

[2] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee, Phase-aware speech enhancement with deep complex u-net, 2019, arXiv:1903.03107.

[3] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (ELUS), in Proc. Int. Conf. Learn. Represent., 2016.

[4] Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, Language modeling with gated convolutional networks, in Proc. 34th Int. Conf.Mach. Learn., 2017, vol. 70, pp. 933 941.

[5] H. Erdogan, J. R. Hershey, S.Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2015, pp. 708 712.

[6] S.-W. Fu, T.-Y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhancement by convolutional neural network with multi-metrics learning, in Proc. IEEE 27th Int. Workshop Mach. Learn. Signal Process., 2017.

[7] S.-W. Fu, Y. Tsao, and X. Lu, SNR-aware convolutional neural network modeling for speech enhancement, in Proc. 17th Annu. Conf. Int. Speech Commun. Assoc., 2016, pp. 3768 3772.

[8] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 26, no. 9, pp. 1570 1584, Sep. 2018.

[9] F. Gao, L. Wu, L. Zhao, T. Qin, X. Cheng, and T.-Y. Liu, Efficient sequence learning with group recurrent networks, in Proc. Conf. North Am. Chapter Assoc. Comput. Linguist.: Human Lang. Technol., Volume 1 (Long Papers), 2018, vol. 1, pp. 799 808.

[10] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proc. 14th Int. Conf. Artif. Intell. Statist., 2011, pp. 315 323.

[11] E. M. Grais andM. D. Plumbley, Single channel audio source separation using convolutional denoising autoencoders, in Proc. IEEE Global Conf. Signal Inf. Process., 2017, pp. 1265 1269.

[12] K. Han, Y.Wang, and D. L.Wang, Learning spectral mapping for speech dereverberation, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 4628 4632.

[13] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in Proc. IEEE Int. Conf. Comput. Vis., 2015, pp. 1026 1034.

[14] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Comput., vol. 9, no. 8, pp. 1735 1780, 1997.

[15] P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis, Deep learning formonaural speech separation, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 1562 1566.

[16] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in Proc. Int. Conf. Mach. Learn., 2015, pp. 448 456.

[17] M. Krawczyk and T. Gerkmann, STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1931 1940, Dec. 2014.

[18] J. Kulmer and P. Mowlaee, Phase estimation in single channel speech enhancement using phase decomposition, IEEE Signal Process. Lett., vol. 22, no. 5, pp. 598 602, May 2015.

[19] A.Kumar and H. Daumé III, Learning task grouping and overlap in multitask learning, in Proc. 29th Int.Conf.Mach. Learn., 2012, pp. 1383 1390.

[20] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, Speech enhancement based on deep denoising autoencoder, in Proc. Interspeech, 2013, pp. 436 440.

[21] P. Mowlaee, R. Saeidi, and R. Martin, Phase estimation for signal reconstruction in single-channel source separation, in Proc. 13th Annu. Conf. Int. Speech Commun. Assoc., 2012, pp. 1548 1551.

[22] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan, and T.Virtanen, Lowlatency sound source separation using convolutional recurrent neural networks, in Proc. IEEEWorkshop Appl. Signal Process. Audio Acoust., 2017, pp. 71 75.

[23] K. Paliwal, K. Wójcicki, and B. Shannon, The importance of phase in speech enhancement, Speech Commun., vol. 53, no. 4, pp. 465 494, 2011.

[24] A. Pandey and D. L. Wang, A new framework for supervised speech enhancement in the time domain, in Proc. Interspeech, 2018, pp. 1136 1140.

[25] S. R. Park and J.W. Lee, A fully convolutional neural network for speech enhancement, in Proc. 18th Annu. Conf. Int. Speech Commun. Assoc., 2017, pp. 1993 1997.

[26] D. B. Paul and J. M. Baker, The design for the wall street journal-based CSRcorpus, in Proc.Workshop SpeechNatural Lang., 1992, pp. 357 362.

[27] S. J. Reddi, S. Kale, and S. Kumar, On the convergence of adam and beyond, in Proc. Int. Conf. Learn. Represent., 2018.

[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ) A new method for speech quality assessment of telephone networks and codecs, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2001, vol. 2, pp. 749 752.

[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125 2136, Sep. 2011.

[30] N. Takahashi, N. Goswami, and Y.Mitsufuji, Mmdenselstm: An efficient combination of convolutional and recurrent neural networks for audio source separation, in Proc. 16th Int. Workshop Acoust. Signal Enhancement, 2018, pp. 106 110.

[31] K. Tan, J. Chen, and D. L. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 1, pp. 189 198, Jan. 2019.

[32] K. Tan and D. L. Wang, A convolutional recurrent neural network for real-time speech enhancement, in Proc. 19th Annu. Conf. Int. Speech Commun. Assoc., 2018, pp. 3229 3233.

[33] K. Tan and D. L.Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2019, pp. 6865 6869.

[34] A. Van Den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves, et al., Conditional image generation with pixelcnn decoders, in Proc. Adv. Neural Inf. Process. Syst., 2016, pp. 4790 4798.

[35] A. Varga and H. J. Steeneken, Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems, Speech Commun., vol. 12, no. 3, pp. 247 251, 1993.

[36] D. L.Wang andG. J.Brown, Eds, Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. Hoboken, NJ, USA: Wiley, 2006.

[37] D. L. Wang and J. Lim, The unimportance of phase in speech enhancement, IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-30, no. 4, pp. 679 681, Aug. 1982.

[38] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1849 1858, Dec. 2014.

[39] Y.Wang and D. L.Wang, A deep neural network for time-domain signal reconstruction, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2015, pp. 4390 4394.

[40] F. Weninger et al., Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR, in Proc. Int. Conf. Latent Variable Anal. Signal Sepa., 2015, pp. 91 99.

[41] F.Weninger, F. Eyben, and B. Schuller, Single-channel speech separation with memory-enhanced recurrent neural networks, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 3709 3713.

[42] F.Weninger, J. R. Hershey, J. Le Roux, and B. Schuller, Discriminatively trained recurrent neural networks for single-channel speech separation, in Proc. 2nd IEEE Global Conf. Signal Inf. Process. Symp. Mach. Learn. Appl. Speech Process., 2014, pp. 577 581.

[43] D. S. Williamson, Y. Wang, and D. L. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 3, pp. 483 492, 2016.

[44] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal Process. Lett., vol. 21, no. 1, pp. 65 68, Jan. 2014.

[45] Y. Zhang and Q. Yang, An overview of multi-task learning, Nat. Sci. Rev., vol. 5, no. 1, pp. 30 43, 2018. [46] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutional-recurrent neural networks for speech enhancement, in Proc. IEEEInt. Conf.Acoust., Speech Signal Process., 2018, pp. 2401 2405.

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/139151.html

(0)

相关推荐

  • iOS中NSPredicate谓词的使用方法是什么

    技术iOS中NSPredicate谓词的使用方法是什么本篇内容介绍了“iOS中NSPredicate谓词的使用方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处

    攻略 2021年11月4日
  • Java编程中最容易忽略的10个常见问题分别有哪些

    技术Java编程中最容易忽略的10个常见问题分别有哪些本篇文章给大家分享的是有关Java编程中最容易忽略的10个常见问题分别有哪些,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟

    攻略 2021年10月29日
  • C++面试易错语法特性有哪些

    技术C++面试易错语法特性有哪些这篇文章主要讲解了“C++面试易错语法特性有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“C++面试易错语法特性有哪些”吧!面试频率高

    攻略 2021年11月29日
  • PostgreSQL中make_rel_from_joinlist函数分析

    技术PostgreSQL中make_rel_from_joinlist函数分析这篇文章主要介绍“PostgreSQL中make_rel_from_joinlist函数分析”,在日常操作中,相信很多人在PostgreSQL

    攻略 2021年11月10日
  • django认证类配置实现方法是什么

    技术django认证类配置实现方法是什么这篇文章主要介绍“django认证类配置实现方法是什么”,在日常操作中,相信很多人在django认证类配置实现方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法

    攻略 2021年11月10日
  • PostgreSQL中什么是事务

    技术PostgreSQL中什么是事务这篇文章主要介绍PostgreSQL中什么是事务,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!  一、什么是事务?  事务可以看作是一个操作的有序集,这些操作应

    攻略 2021年11月26日