1. 摘要
在本文中,我们将声啸叫抑制(AHS)作为一个监督学习问题,并提出了一种称为deep AHS的深度学习方法来解决它。深度AHS采用教师强迫的方式进行训练,将反复的嚎叫抑制过程转化为瞬时的语音分离过程,简化问题,加快模型训练。该方法利用合理设计的特征,训练基于注意力的递归神经网络(RNN)从麦克风录音中提取目标信号,从而衰减可能导致嚎叫的重放信号。研究了不同的训练策略,并在循环模式下实现了一种流推理方法,用于评估所提出的方法对实时啸叫抑制的性能。深度AHS避免了嚎叫检测,并从本质上禁止嚎叫的发生,允许在音频系统的设计更灵活。实验结果表明了该方法在不同场景下抑制啸叫的有效性。1. 介绍
当存在正反馈时,由于麦克风和扬声器之间的耦合而产生啸叫[1,2]。具体来说,音频系统中的麦克风信号通过暴露在同一空间的扬声器播放,然后由同一麦克风再次拾取,形成封闭的声学回路。如果处理不当,这个重放信号将被反复回圈,并在具有统一或更大的环路增益的频率上产生刺耳的声音。这种现象被称为嚎叫。嚎叫是视频/音频会议和音响放大系统(如助听器和卡拉ok)的关键问题。它不仅对我们的听觉系统有害,而且对扩音设备也有破坏性。[3]为了解决这个问题,已经提出了许多声啸叫抑制(AHS)解决方案,包括增益控制[4,5]、陷波滤波器(NF)[6,7,8]和自适应反馈抵消(AFC)[9]。增益降低方法可以通过手动减小放大器的音量或改变音频设备的位置来实现。然而,这种方法的应用受到限制,不适用于需要高声放大的场景[10]。NF方法通过调整滤波器系数在出现啸叫的频率处形成零值来减弱啸叫。然而,NF方法需要准确检测嚎叫,并且固有地扭曲目标声音,甚至引入意想不到的嚎叫频率[6]。AFC通过使用自适应滤波器估计扬声器和麦克风之间的声路来衰减嚎叫。由于目标信号和重放信号高度相关,在AFC方法中通常需要使用去相关技术,但这通常会导致语音质量失真[11]。
抑制啸叫的最终目的是衰减重放信号,只将目标信号发送到扬声器,这与我们解决声学回声消除(AEC)的方法本质上是相同的。考虑到深度学习在复杂非线性关系建模方面的强大功能,并已成功地用于抑制声学回波[12,13,14,15,16],它也可以作为解决AHS问题的强大替代方案。Chen等人[17]提出了一种基于深度学习的嚎叫检测方法。Gan等[18]采用深度学习进行啸叫噪声抑制。然而,[18]中提出的方法将嚎叫视为语音增强的一种噪声,而不是以流和循环的方式抑制嚎叫。
在本文中,我们提出了一种称为deep AHS的深度学习方法来解决嚎叫抑制问题。我们的方法将AHS描述为一个监督学习问题,总体任务是仅保持目标信号,同时抑制麦克风录音中的回放信号和背景噪声。考虑到回放信号和目标信号高度相关,我们使用输入信号的时间相关性、频率相关性和信道协方差的叠加作为特征,训练基于注意力的递归神经网络(RNN)[19]来估计目标信号的复比率滤波器[20]。据我们所知,这是第一个使用深度学习来抑制声音嚎叫的研究。这项研究的贡献有四方面。首先,Deep AHS将嚎叫抑制这一自适应过程作为一个有监督的学习问题,借助教师强迫学习。它与传统的AHS方法有本质区别,不需要啸叫检测。其次,利用这种训练策略,实现了一种流推理方法,以循环的方式评估Deep AHS的性能。第三,Deep AHS对非线性失真具有鲁棒性,可以在不同场景下同时实现啸叫和噪声抑制,从而实现更高的环路增益,为音频系统的设计带来灵活性。最后,本研究对不同的训练策略进行了研究和系统的比较,以证明我们的方法对啸叫抑制的有效性。
本文的其余部分组织如下。第2节介绍了声啸。第3节描述了我们提出的方法。第4节和第5节分别介绍了实验设置和结果。第六部分对全文进行总结。
2. 声学啸叫的产生原理
为了不丧失一般性,让我们考虑一个典型的单通道声放大系统,其中麦克风和扬声器耦合在同一空间,如图1(a)所示。目标语音被麦克风拾取为s(t),然后被送到扬声器进行声学放大。扬声器信号x(t)被播放出来,作为放音信号d(t)到达麦克风:
\[d(t) = NL[x(t)] ∗ h(t) \]其中\(NL(·)\)表示扬声器引入的非线性失真,\(h(t)\)表示从扬声器到麦克风的声路,\(∗\)表示线性卷积。如果不做任何处理,扬声器信号\(x(t)\)将是\(y(t)\)的延迟放大版,这个重放信号\(d(t)\)将反复进入拾音器,则在时间指标\(t\)处对应的麦克风信号可表示为:
\[y(t) = s(t) + n(t) + NL [y(t − ∆t) · G] ∗ h(t) \]式中n(t)为背景噪声,\(∆t\)为传声器到扬声器的系统时延,\(G\)为放大器增益。\(y(t)\)与\(y(t -∆t)\)之间的递归关系使重放信号再次放大,并形成正反馈,在一定频率上产生循环放大,称为声啸叫。话虽如此,嚎叫是一种循环的方式,而不是瞬间产生的。一开始是多个重放信号,放大到一定程度后逐渐形成尖锐的声音。
值得注意的是,声啸叫不同于声回波,尽管处理不当的声回波(泄漏)也会导致声啸叫。它们之间的主要区别是:1。两者本质上都是重放信号,而嚎叫是逐渐产生的。2. 导致嚎叫的回放信号是由与目标信号相同的源产生的。而回声通常是由不同的来源(远端扬声器)产生的,这使得抑制嚎叫更具挑战性。
3. DEEP AHS
3.1. 啸叫抑制中的Teacher-forced learning
理想情况下,如果AHS方法始终能够完美地处理麦克风录音,并在将其发送到扬声器之前完全衰减其中的播放组件,则在任何情况下都不会出现啸叫问题。从语音分离的角度来看,AHS似乎可以看作是一个语音分离问题,其中目标信号s(t)是一个要从麦克风信号中分离出来的源,这与如何制定基于深度学习的AEC的思想类似。
然而,考虑到第2节中描述的声啸的特征,使用深度学习实现啸叫抑制并非易事。最关键的问题是嚎叫是自适应产生的,并且当前的输入依赖于先前的输出。具体而言,如图1(b)所示,电流处理信号\(\hat{s} (t)\)中存在失真/漏损,会影响下一回路\(d(t+∆t)\)麦克风接收到的重放信号。理想情况下,我们应该通过在样本水平上更新其参数,以自适应的方式训练深度学习模型。然而,这需要大量的计算量,在实际应用中很难实现。
我们提出Deep AHS来训练一个使用教师强迫学习来抑制嚎叫的模型[21,22]。假设一旦模型得到适当的训练,它应该衰减麦克风中的播放信号,只向扬声器发送目标语音。在模型训练过程中,我们将目标语音s(t)作为教师信号,在随后的网络计算中替换实际输出s(t),如图1(b)所示。
通过教师强迫学习,则播放信号\(d(t)\)是一个仅受\(s(t)\)影响的确定信号,并且可以将式(2)中多个播放信号的重复求和简化为一次播放。模型训练对应的麦克风信号可以写成:
\[y(t) = s(t) + n(t) + NL[s(t − ∆t) · G] ∗ h(t) \]在教师强迫学习过程中的麦克风信号是目标信号、背景噪声和确定的一次性播放信号的混合。因此,整个问题可以被表述为语音分离问题。以教师强制学习的方式训练深度AHS不仅简化了整个问题,而且可以减少AHS自适应过程中引入的不确定性,从而得到鲁棒的啸叫抑制方案。
3.2. 训练策略
本文探讨了不同的训练策略。最简单的方法是直接使用(3)中的麦克风信号作为输入,设置相应的\(s(t)\)作为训练目标。我们将这种训练策略命名为不使用参考信号(“w/o Ref”)训练的模型。
更合适的方法是从输入中提取更多的信息,作为模型训练时的参考信号。我们建议使用延迟的麦克风信号作为附加输入(参考信号),并在初始阶段估计延迟量。考虑到回放信号可以看作是\(s(t)\)的延迟、缩放、非线性版本,使用延迟的麦克风信号有助于模型更好地区分目标信号和回放信号。我们将这种训练策略称为“w Ref”。
此外,承认在离线训练和实时应用中,考虑到\(\hat{s}\)中存在的泄漏,总是存在不匹配。为了结合不匹配并更好地近似真实场景,我们提出了另一种策略,该策略通过使用预处理信号对模型进行微调,标记为“微调”。那么,用于离线训练的麦克风信号为(3)的修改版本:
\[y'(t) = s(t) + d'(t) + n(t) \]式中\(d'(t)\)为使用估计目标\(s'(t−∆t)\)产生的失真重放信号。具体来说,我们使用预训练模型对所有训练数据进行预处理,然后将增强后的输出通过音频系统馈送,得到相应的播放\(d'(t)\)。最后,我们使用\(y'(t)\)作为输入对模型进行微调。考虑到模型在训练过程中已经看到了失真,预计前面提到的不匹配会稍微减少。
3.3. 模型结构
该方法的示意图如图2所示。首先将麦克风信号\(y(t)\)和参考信号\(r(t)\)以16k Hz采样,分成32ms帧,移码为16ms。然后对每一帧应用512点短时傅里叶变换(STFT),得到频域输入\(Y\)和\(r\)。除了归一化对数功率谱(LPS)外,我们还分别计算了麦克风信号和参考信号在时间帧和频率盒之间的相关矩阵作为输入特征。这些特征用于捕获输入信号的时间和频率特征,有助于区分嚎叫和音调成分。输入信号的通道协方差被计算为另一个输入特征,以解释它们之间的相互关系。这些特征的串联用于模型训练,并使用线性层进行特征融合。
该网络由三部分组成,其中第一部分采用具有257个隐藏单元的门控循环单元(GRU)层和两个1D卷积层,分别估计用于回放抑制和回放估计的复值滤波器。然后通过深度滤波对输入信号进行估计[20],得到相应的中间输出,记为$\tilde{Y} \(和\)\tilde{R} $。
然后,这些中间输出用作额外的输入,它们的LPS与第一部分的融合特征一起被连接和融合,作为另一个GRU层的输入。我们将\(Y、\tilde{Y}和\tilde{R}\)视为三通道输入,并为每个输入通道使用两个1D卷积层来估计其中的播放/噪声和目标语音分量。计算回放/噪声\(\hat{Φ}_{NN}\)和目标语音\(\hat{Φ}_{SS}\)对应的协方差矩阵,并将其连接为第三部分的输入。
第三部分是基于多通道信号处理思想的增强滤波器估计。我们训练一个自关注RNN来估计一个三通道语音增强滤波器$\mathbf{W}\in \mathbb{C} ^{F\times T\times 3} $。然后将这些滤波器应用于输入通道 $Y、\tilde{Y}和\tilde{R} $ ,以获得增强的目标语音 \(\tilde{S}\)。最后,利用逆STFT (iSTFT)得到波形\(\hat{s}\)。详细的特征设计和网络结构可以在[19]中找到。
模型训练的损失函数定义为时域尺度不变信失真比(SI-SDR)[23]与频域频谱幅值的平均绝对误差(MAE)的组合:
\[Loss = −SISDR(\hat{s}, s) + λMAE(|\hat{S}|, |S|) \]其中\(λ\)设为10000,以平衡两个损耗的取值范围。
3.4. 循环模式下的流推理
由于Deep AHS的离线训练和推理阶段总是存在不匹配。因此,实现了一种流推理方法,该方法将处理器的输出循环回调并在接下来的时间步长中添加到输入中,以评估Deep AHS在现实和循环模式下的性能。这个流推理的细节在算法1中显示。
4. 实验设置
4.1. 数据准备
我们使用AISHELL-2[24]模拟带有回放和背景噪声的单通道数据集。使用图像方法[25],共生成10k个房间脉冲响应(RIRs),房间特性随机,混响时间(RT60)范围为0 ~ 0.6s。每个RIR是由近端扬声器、扬声器和背景噪声位置的RIR组成的一组。在数据生成过程中,利用随机选取的RIR集,利用在[0.1,0.5]秒范围内随机产生的系统时延∆t,生成目标语音s及其对应的一次性播放信号d。放大器和扬声器引入的非线性失真采用硬削波和s型函数模拟为饱和型非线性[12]。用于离线训练的麦克风信号被创建为信号与播放比(SPR)在[- 15,20]dB中随机选择的混合物,信噪比(SNR)在- 10 dB到40 dB之间。总共生成10k、0.3k和0.5k的话语,分别用于训练、验证和测试。测试数据使用不同于训练和验证数据的语音和rir生成。该模型训练了30个epoch,批大小为20。4.2. 方法评价
通过离线评估和流推理两种不同的方式来评估该方法的性能。离线评估使用(3)中产生的信号作为输入,评估重放衰减性能。SI-SDR和语音质量感知评价(PESQ)[26]用于评估目标语音的重放衰减程度和质量。值越高表示性能越好。
对于流推断,我们使用算法1中描述的流方法生成增强信号,其中麦克风信号以循环模式更新,并考虑了泄漏/失真。该推理方法模拟了实际应用中的啸叫产生方式,可用于显示实时的啸叫抑制性能。
5. 实验结果
5.1. Offline evaluation for playback attenuation
我们首先以离线方式评估所提出的方法。其中,用于测试的麦克风信号的产生方式与模型训练时相同,在不同SPR水平和30 dB信噪比下的测试结果如表1所示。结果表明,该方法仅以传声器信号作为输入,有效地衰减了重放信号。使用延迟麦克风信号作为参考信号有助于进一步提高整体性能。值得注意的是,表1所示的结果仅表明本文方法能够提取目标语音并衰减麦克风录音中的一次性重放。在第5.2节中,我们将展示使用流推断获得的结果,以展示其在实时实现期间抑制啸叫的性能。
此外,使用微调模型获得的结果显示在表1的最后两行中。由于微调模型是使用预处理信号进行测试的,因此不适合以这种评估方式直接将微调模型与其他两种模型进行比较。然而,在流推理期间进行这样的比较是公平的,因为在流推理期间,有微调和没有微调的模型以相同的方式处理。不需要对微调后的模型进行预处理。
5.2. Streaming inference for howling suppression
本部分评估了Deep AHS的实时啸叫抑制性能,并使用算法1中描述的流推理方法生成输出。我们在流式播放阶段通过逐渐增大放大增益G,生成了软、中、重放三种测试场景,结果如表2所示。为了更好地显示啸叫抑制性能,两个测试样本的频谱图如图3所示。利用陷波滤波器[6]和基于自适应反馈抵消的基于卡尔曼滤波器的AHS[27]进行比较。结果表明,该方法具有较好的抑制啸叫和带参考信号的Deep AHS模型的性能,优于传统的AHS方法。经过微调的模型实现了最佳的整体性能。
6. 总结
在本文中,我们首次提出了一种抑制声啸叫的深度学习方法。该方法利用基于注意的递归神经网络,通过适当设计特征,从麦克风录音中提取目标信号,从而解决AHS问题。基于教师强迫学习的思想,使用教师信号对Deep AHS模型进行离线训练,并以离线和流方式对其进行评估,以显示其抑制嚎叫的性能。研究了多种训练策略,不同场景下的评估结果表明了所提方法抑制啸叫的有效性。未来的工作包括深度AHS的设备实现,考虑声啸叫和声回波的声学场景,并将所提出的方法扩展到多通道系统。
6. 参考文献
[1] Richard V Waterhouse, “Theory of howlback in reverberant rooms,” The Journal of the Acoustical Society of America, vol. 37, no. 5, pp. 921–923, 1965.
[2] Toon Van Waterschoot and Marc Moonen, “Fifty years of acoustic feedback control: State of the art and future challenges,” Proceedings of the IEEE, vol. 99, no. 2, pp. 288–327, 2010.
[3] Jeremy Agnew, “Acoustic feedback and other audible artifacts in hearing aids,” Trends in Amplification, vol. 1, no. 2, pp. 45–82, 1996.
[4] Manfred R Schroeder, “Improvement of acoustic-feedback stability by frequency shifting,” The Journal of the Acoustical Society of America, vol. 36, no. 9, pp. 1718–1724, 1964.
[5] Edgar Berdahl and Dan Harris, “Frequency shifting for acoustic howling suppression,” in Proceedings of the 13th International Conference on Digital Audio Effects, Graz, Austria, 2010, vol. 610.
[6] W Loetwassana, R Punchalard, A Lorsawatsiri, J Koseeyaporn, and P Wardkein, “Adaptive howling suppressor in an audio amplifier system,” in 2007 Asia-Pacific Conference on Communications. IEEE, 2007, pp. 445–448.
[7] Pepe Gil-Cacho, Toon Van Waterschoot, Marc Moonen, and Søren Holdt Jensen, “Regularized adaptive notch filters for acoustic howling suppression,” in 2009 17th European Signal Processing Conference. IEEE, 2009, pp. 2574–2578.
[8] Toon van Waterschoot and Marc Moonen, “Comparative evaluation of howling detection criteria in notch-filter-based howling suppression,” Journal of the audio engineering society, vol. 58, no. 11, pp. 923–940, 2010.
[9] Harry Alfonso L Joson, Futoshi Asano, Yoiti Suzuki, and ¯ Toshio Sone, “Adaptive feedback cancellation with frequency compression for hearing aids,” The Journal of the Acoustical Society of America, vol. 94, no. 6, pp. 3248–3254, 1993.
[10] Jae-Won Lee and Seung Ho Choi, “Improvements in howling margin using phase dispersion,” in International Conference on Future Generation Communication and Networking. Springer, 2011, pp. 154–161.
[11] Guozheng Wang, Quanli Liu, and Wei Wang, “Adaptive feedback cancellation with prediction error method and howling suppression in train public address system,” Signal Processing, vol. 167, pp. 107279, 2020.
[12] Hao Zhang and De Liang Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” Training, vol. 161, no. 2, pp. 322, 2018.
[13] Hao Zhang, Ke Tan, and De Liang Wang, “Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions.,” in INTERSPEECH, 2019, pp. 4255–4259.
[14] Shimin Zhang, Yuxiang Kong, Shubo Lv, Yanxin Hu, and Lei Xie, “FT-LSTM based complex network for joint acoustic echo cancellation and speech enhancement,” arXiv preprint arXiv:2106.07577, 2021.
[15] Ross Cutler, Ando Saabas, Tanel Parnamaa, Marju Purin, Hannes Gamper, Sebastian Braun, Karsten Sørensen, and Robert Aichner, “ICASSP 2022 acoustic echo cancellation challenge,” in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 9107–9111.
[16] Hao Zhang and De Liang Wang, “Neural cascade architecture for multi-channel acoustic echo suppression,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 2326–2336, 2022.
[17] Zhipeng Chen, Yiya Hao, Yaobin Chen, Gong Chen, and Liang Ruan, “A neural network-based howling detection method for real-time communication applications,” in 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 206–210.
[18] Huaguo Gan, Gaoyong Luo, Yaqing Luo, and Wenbin Luo, “Howling noise cancellation in time–frequency domain by deep neural networks,” in Proceedings of Sixth International Congress on Information and Communication Technology. Springer, 2022, pp. 319–332.
[19] Meng Yu, Yong Xu, Chunlei Zhang, Shi-Xiong Zhang, and Dong Yu, “Neuralecho: A self-attentive recurrent neural network for unified acoustic echo suppression and speech enhancement,” arXiv preprint arXiv:2205.10401, 2022.
[20] Wolfgang Mack and Emanuel AP Habets, “Deep filter- ¨ ing: Signal extraction and reconstruction using complex timefrequency filters,” IEEE Signal Processing Letters, vol. 27, pp. 61–65, 2019.
[21] Ronald J Williams and David Zipser, “A learning algorithm for continually running fully recurrent neural networks,” Neural computation, vol. 1, no. 2, pp. 270–280, 1989.
[22] Alex M Lamb, Anirudh Goyal ALIAS PARTH GOYAL, Ying Zhang, Saizheng Zhang, Aaron C Courville, and Yoshua Bengio, “Professor forcing: A new algorithm for training recurrent networks,” Advances in neural information processing systems, vol. 29, 2016.
[23] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and John R Hershey, “SDR–half-baked or well done?,” in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626–630.
[24] Jiayu Du, Xingyu Na, Xuechen Liu, and Hui Bu, “Aishell- 2: Transforming mandarin asr research into industrial scale,” arXiv preprint arXiv:1808.10583, 2018.
[25] Jont B Allen and David A Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[26] Antony W Rix, John G Beerends, Michael P Hollier, and Andries P Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). IEEE, 2001, vol. 2, pp. 749–752.
[27] Felix Albu, Linh TT Tran, and Sven Nordholm, “The hybrid simplified kalman filter for adaptive feedback cancellation,” in 2018 International Conference on Communications (COMM). IEEE, 2018, pp. 45–50.
标签:啸叫,pp,SUPPRESSION,麦克风,AHS,DEEP,HOWLING,训练,信号 From: https://www.cnblogs.com/lulululuyan/p/18141262