NNbased AEC模型归纳

near-end signal：近端信号，最终需要的
far-end signal：远端信号，喇叭播放的，需要消除的

目前nnAEC大致包括以下方案：

端到端模型：一个模型承担所有功能；
传统线性部分+nn NLP（nn RES）；
传统线性部分+模型承担RES和NS功能，eg.NN3A；
nn AEC+nn NLP(post filtering)：分成两个模型来共同处理，可以联合训练；
沿用传统的处理框架，用NN去预测一些传统算法的关键量，eg.NKF；

方案2-1

Nonlinear Residual Echo Suppression using a Recurrent Neural Network

Lukas Pfeifenberger, Franz PernkopfSignal Processing and Speech Communication Laboratory，Graz University of Technology, Graz, Austria

该模型是基于一个小的RNN实现的，提出了一种低资源实现并具有实时处理能力的RES功能网络，对应下图中绿色框，属于方案二的一种实践。

方案2-2

Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network

Lu Ma, Hua Huang, Pei Zhao, Tengrong Su Haier Smart Home Co., Ltd

后续待补充

方案3-1

NN3A: NEURAL NETWORK SUPPORTED ACOUSTIC ECHO CANCELLATION, NOISE SUPPRESSION AND AUTOMATIC GAIN CONTROL FOR REAL-TIME COMMUNICATIONS

Ziteng Wang, Yueyue Na, Biao Tian, Qiang Fu Alibaba Group, China

摘要：声学回波消除(AEC)、噪声抑制(NS)和自动增益控制(AGC)是实时通信(RTC)中常用的三个模块。本文提出了一种神经网络支持的RTC算法NN3A，该算法结合了自适应滤波器(线性部分)和多任务模型，用于残余回波抑制(RES)、降噪(NS)和近端语音活动检测(VAD)。所提出的算法被证明优于使用单独模型的方法和端到端替代方法。结果表明，该模型中存在残差抑制和近端语音失真之间的平衡关系，可以通过一种新的损失加权函数进行平衡。本文还研究了训练关节模型的几个实际方面，以使其性能达到极限。

图2 NN3A算法流程图

信号模型--麦克风接收信号为$d(t)=x(t)*a(t)+s(t)+v(t)$，其中$x(t)，s(t)，v(t)$分别表示远端信号，近端信号，环境噪声；
线性滤波部分--在频域进行$E_{t,f}=D_{t,f}-\mathbf{w}_{L,f}^H\mathbf{x}_{L,f}$
神经网络--输入：$\mathbf{f}_t=\left \{ E_{t,f},Y_{t,f},D_{t,f},X_{t,f} \right \}$，输出：$M_{t,f}，P_{t}$分别为降噪的Mask和近端语音概率（VAD）
损失函数Loss--

$\left\{\begin{matrix}\mathcal{L} _{mask}=\sum_{t,f}^{}{\alpha _{t,f}\left | M_{t,f}-\bar{M}_{t,f} \right | ^2} \\\mathcal{L} _{vad}=\sum_{t}^{}-\bar{P_t}log(P_t)-(1-\bar{P}_t)log(1-P_t) \end{matrix}\right.$

其中$\bar{P}_t\in \left \{ 0,1 \right \}$是近端语音VAD。经验发现，在MSE损失下训练的模型不能完全去除残留回波，不能满足通常人类听觉零回波泄漏的要求。因此，引入加权函数$\alpha _{t,f}=\alpha -\bar{M}_{t,f},\alpha >1$，加权函数将更多的权重放在回声主导TFbin上。

后处理Post-processing--AGC

$\hat{s} (t)=g(P_t)IFFT(\hat{S}_{t,f})$

$g(·)$为自定义函数，由计算增益的峰值电平检测器和调节增益的增益控制器组成。

方案5-1

LOW-COMPLEXITY ACOUSTIC ECHO CANCELLATION WITH NEURAL KALMAN FILTERING

Dong Yang∗, Fei Jiang∗, Wei Wu, Xuefei Fang, Muyong Cao Tencent GVoice

摘要：卡尔曼滤波器因其对双话的鲁棒性、收敛速度快、稳态性能好等优点被广泛应用于声学回波消除中。卡尔曼滤波器的性能与状态噪声协方差和观测噪声协方差的估计精度密切相关。估计误差可能会导致不可接受的结果，特别是当回波路径发生突变时，卡尔曼滤波器的跟踪性能会显著降低。在本文中，我们提出了神经卡尔曼滤波(NKF)，该方法利用神经网络隐式地对状态噪声和观测噪声的协方差进行建模，并实时输出卡尔曼增益。在合成测试集和真实记录测试集上的实验结果表明，与目前最先进的基于模型的方法相比，所提出的NKF具有更好的收敛和再收敛性能，同时保证了较低的近端语音退化。此外，本文提出的NKF模型规模仅为5.3 K, RTF低至0.09，可以部署在低资源平台上。

图1 算法步骤

卡尔曼滤波的收敛性和跟踪能力由状态噪声和观测噪声的协方差控制，可以根据一些假设动态估计协方差。然而，噪声协方差估计误差可能导致不可接受的结果。如Yang et al.[4]指出，当回波路径发生突变时，观测噪声协方差的高估会降低再收敛速度。为了解决这一问题，我们提出将MB方法与数据驱动(DD)方法相结合。更具体地说，我们建议使用可训练的RNN隐式建模状态噪声和观测噪声的协方差，并实时输出自适应卡尔曼增益。这比卡尔曼滤波具有更好的收敛性和跟踪能力[5,6]。与其他神经网络辅助的自适应滤波方法不同，例如深度神经网络控制的频域自适应滤波器(DNN-FDAF)[7]和深度变步长NLMS (DVSS-NLMS)[8]分别在频域和时域进行滤波，我们在时频域进行神经卡尔曼滤波操作，从而获得了更小的模型尺寸(仅5.3 K，而2.4 M和1 M参数)。在合成测试集和真实记录测试集上的实验结果表明，所提出的NKF比传统的自适应滤波器和最先进的MB/DD混合方法Meta-AF[9]具有更好的AEC性能。

标签：回波,归纳,模型,噪声,协方差,AEC,NNbased,卡尔曼滤波,近端
From： https://www.cnblogs.com/lulululuyan/p/17158910.html

方案2-1

方案2-2

方案3-1

方案5-1

相关文章

赞助商

阅读排行