论文翻译：TEA-PSE 3.0

标签：训练 TEA PSE TCN 3.0 我们

<TEA-PSE 3.0: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECHENHANCEMENT SYSTEM FOR ICASSP 2023 DNS-CHALLENGE>

摘要

　　文介绍了我们团队提交的ICASSP 2023深度噪声抑制(DNS)挑战赛。我们将之前的工作TEA-PSE扩展到其升级版本：TEA-PSE 3.0。具体来说，TEA-PSE 3.0在压缩时间卷积网络(S-TCN)后加入了残差LSTM，以增强序列建模能力。此外，引入局部全局表示(LGR)结构来增强说话人信息提取，并利用多stft分辨率损失来有效捕获语音信号的时频特征。此外，采用基于冻结训练策略的再训练方法对系统进行微调。根据官方结果，TEA-PSE 3.0在ICASSP 2023 dnchallenge track 1和track 2中均排名第一。

前言

　　我们之前的工作，腾讯以太音频实验室个性化语音增强(TEA-PSE)[1]，在ICASSP 2022深度噪声抑制(DNS)挑战赛中排名第一。在这次成功的基础上，我们改进了以前的模型，并提出了我们的升级系统TEA-PSE 3.0，以参加今年的DNS挑战赛。首先，受TaylorEnhancer[2]中的导数算子模块的启发，我们在每一层压缩时间卷积网络(S-TCN)后引入残差LSTM来增强序列建模能力。其次，我们利用局部全局表示(LGR)[3]结构来更好地提取说话人信息。第三，我们采用多stft分辨率损失函数[4]来有效地捕捉语音信号的时频特性。最后，我们利用更有效的三步训练策略。具体来说，我们首先训练第一阶段的模型，然后冻结这个模型来训练第二阶段的模型。然后我们加载这个预训练的两阶段模型，并用第二阶段的损失函数微调所有可训练的参数。根据最终结果，我们的模型在头戴式和非头戴式音轨中都获得了第一名[5]。

提出的方法

2.1. TEA-PSE 3.0 network

　　所提出的模型保持了TEAPSE[1]的两阶段框架，即由Mag-Net和Com-Net组成，分别处理幅值和复值特征。图1(a)详细描述了MAG-Net，其中E表示从预训练的ECAPA-TDNN网络中获得的说话人嵌入。

2.1.1 Encoder and decoder

　　编码器由多个频率下采样层组成，而解码器由多个频率上采样层堆叠而成。每个FD层从一个门控卷积层(GConv)开始，对输入频谱进行下采样，然后是一个累积层范数(cumulaive Layer Norm, cLN)和PReLU。FU层与FD层几乎相同，而不是用转置门控卷积层(TrGConv)代替GConv进行上采样。

2.1.2 Sequence modeling structure

　　S-TCN由多个压缩时间卷积模块(S-TCM)组成，如图1(c)所示。为了进一步增强模型的序列建模能力，我们在每个S-TCN模块(称为S-TCN&L)后添加残差LSTM，灵感来自[2]。图1(b)为修改后的S-TCN&L结构。说话人嵌入仅在S-TCN模块的第一个S-TCM层使用乘法运算与潜在特征相结合。

2.1.3 Local-global representation

　　由于说话人注册语音的局部和全局特征(即锚点)对于目标说话人提取都是必不可少的，因此我们特别将LGR结构[3]纳入我们的模型，如图1(a)所示。该编码器由一个双向LSTM (BLSTM)和几个FD层组成，以注册语音的幅度为输入。请注意，在BLSTM之后还有一个额外的密集层，以保持其维度与输入一致，并且沿着时间维度应用平均池化操作。扬声器编码器的输出与编码器中前面FD层的输出相连接，对应扬声器信息的进一步融合。

2.2. Loss function

　　我们使用几个损失函数来训练我们的模型。具体来说，使用了标度不变信噪比(SI-SNR)损耗Lsisnr和power-law相感损耗(幅度损耗Lmag和相位损耗Lpha)。此外，我们使用非对称损耗Lasym来约束估计的频谱，以避免过度抑制。这些损失函数的定义方式与我们之前的工作[6]相同。首先，我们只训练L1的Mag-Net。之后，冻结预训练的Mag-Net参数，仅对Com-Net进行L2优化。

　　此外，对于所有频域损失函数，我们探索了多STFT分辨率[4]，其中m表示不同STFT配置对应的尺度。我们按上述顺序训练Mag-Net和Com-Net，然后加载这些预训练模型，使用L2重新训练整个系统。

实验

3.1 Dataset

　　我们使用ICASSP 2022 dns挑战全波段数据集[7]进行实验。噪声数据来源于DEMAND、Freesound和AudioSet。我们基于RT60∈[0.1,1.0]s的图像方法[8]生成100,000个房间脉冲响应(RIRs)。

3.2. Training setup

　　窗长和移码分别为20ms和10ms。对于多stft分辨率损失，我们使用3个不同的group,FFT∈{512,1024,2048}，窗长∈{480,960,1920}，帧移∈{240,480,960}。对于单stft分辨率损失，我们使用FFT长度1024，窗口长度960和帧移480。使用Adam优化器对模型进行优化，初始学习率为1e−3。如果验证损失连续2次没有减少，学习率将减半。我们使用实时数据生成来增加生成数据的多样性并节省存储空间，这与TEA-PSE保持相同的设置。　　编码器和解码器分别由6个FD层和6个FU层组成。编码器和解码器中的GConv和TrGConv在时间轴和频率轴上的核大小和步长分别为(2,3)和(1,2)。所有GConv和TrGConv层的通道设置为64。S-TCN&L模块有4个S-TCM层，其中扩展Conv (DConv)的核大小为5，扩展率为{1,2,5,9}，LSTM的隐藏大小为512。S-TCN&L中的所有卷积通道都设置为64，除了最后一个点卷积(PConv)层。我们堆叠4个S-TCN&L组来建立连续帧之间的长时间依赖关系，并组合扬声器嵌入。对于扬声器编码器，我们使用隐藏大小为512和5个FD层的BLSTM，并且扬声器编码器中所有GConv层的通道设置为1

3.3. Results and analysis

　　根据表1的盲源检验集结果，可以得出几点观察结果。首先，在每个S-TCN模块后添加残余LSTM可以提高性能。其次，LGR结构在增强说话人信息提取方面具有较好的效果。第三，通过使用多stft分辨率损失函数，该方法对Track 1和Track 2的OVRL分别提高了0.015和0.042。最后，用预训练的模型对双阶段网络进行再训练，可以获得额外的性能增益。

　　表2显示了在DNS 2023盲源测试集上的平均意见得分(MOS)和单词准确性(WAcc)结果。TEA-PSE 3.0的BAK和OVRL最高。此外，与未经处理的语音相比，提交模型的SIG和WAcc都有所降低，这是合理的，因为该模型对提取的语音引入了轻微的失真。　　TEA-PSE 3.0共有2224万个可训练参数。TEA-PSE 3.0的乘法累加操作(MAC)次数为19.66G / s。ONNX导出的提交方法每帧的平均实时因子(RTF)在Intel(R) Xeon(R) CPU E5-2678 v3主频为2.4 GHz时为0.46。

结论

　　提出的TEA-PSE 3.0利用S-TCN&L模块，提供增强的序列建模功能。利用LGR结构，我们的方法可以更好地利用说话人的信息。此外，我们还研究了多stft分辨率损失函数的有效性，并将其与单stft分辨率进行了比较。在冻结训练策略的基础上，探讨模型再训练的效果。根据官方挑战赛结果，TEA-PSE 3.0在两项中均排名第一。

标签：训练,TEA,PSE,TCN,3.0,我们
From： https://www.cnblogs.com/151302017lyx/p/17596138.html

摘要

前言