首页 > 编程语言 >实时的语音降噪神经网络算法

实时的语音降噪神经网络算法

时间:2024-06-03 11:24:02浏览次数:29  
标签:卷积 模型 算法 降噪 神经网络 1D Net 我们 混响

概要
现代基于深度学习的模型在语音增强任务方面取得了显著的性能改进。然而,最先进模型的参数数量往往太大,无法部署在现实世界应用的设备上。为此,我们提出了微小递归U-Net(TRU-Net),这是一种轻量级的在线推理模型,与当前最先进的模型的性能相匹配。TRU-Net的量化版本的大小为362千字节,足够小,可以部署在边缘设备上。此外,我们将小型模型与一种称为相位感知β-sigmoid掩模的新掩模方法相结合,该方法能够同时去噪和去混响。客观和主观评估的结果都表明,我们的模型可以在基准数据集上使用更少数量级的参数,实现与当前最先进模型的竞争性能。

在本文中,我们专注于为现实世界的应用开发一个基于深度学习的语音增强模型,该模型符合以下标准:1。一个小而快速的模型,可以尽可能减少单帧实时因子(RTF),同时保持与最先进的深度学习网络的竞争性能,2。一个可以同时执行去噪和去混响的模型。为了解决第一个问题,我们的目标是改进一种流行的神经架构U-Net[1],该架构已被证明在语音增强任务上具有优越的性能[2,3,4]。先前在源分离应用中使用U-Net的方法不仅在频率轴上而且在时间轴上应用卷积核。U-Net的这种非因果性质增加了计算复杂性,因为需要对过去和未来的帧进行额外的计算来推断当前帧。因此,它不适合于需要实时处理当前帧的在线推理场景。此外,时间轴核使网络计算效率低下,因为在U-Net的编码和解码路径中,相邻帧之间存在冗余计算。为了解决这个问题,我们提出了一种新的神经结构,即微小递归U-Net(TRU-Net),它适用于在线语音增强。该架构旨在实现频率轴和时间轴计算的有效解耦,这使得网络足够快,可以实时处理单个帧。所提出的网络的参数数量仅为0.38(M),足够小,不仅可以在笔记本电脑上,还可以在移动设备上,甚至可以在结合量化技术的嵌入式设备上部署模型[5]。TRU-Net的详细信息将在第2节中详细介绍。接下来,为了同时抑制噪声和混响,我们提出了一种相位感知的β-S形掩模(PHM)。所提出的PHM在没有先前poi的情况下使用标准卷积运算,其灵感来自[6],其中作者提出通过从三角角度重用估计的幅度掩码值来估计相位。PHM与[6]中的方法之间的主要区别在于,PHM被设计为尊重混合物、目标源和剩余部分之间的三角关系,因此估计的目标源和其余部分的总和总是等于混合物。我们通过同时产生两个不同的PHM,将这一性质扩展到四边形,这使我们能够有效地处理去噪和去混响。我们将在第3节中进一步详细讨论PHM。

声谱图可能是许多语音增强模型中最流行的输入特征。每通道能量归一化(PCEN)[7]将动态范围压缩和自动增益控制结合在一起,当应用于频谱图时,这降低了前景响度的变化并抑制了背景噪声[8]。PCEN也适用于在线推理场景,因为它包括时间积分步骤,该步骤本质上是一个仅依赖于先前输入帧的一阶无限脉冲响应滤波器。在这项工作中,我们使用了PCEN的可训练版本。

神经网络架构

TRU-Net基于U-Net架构,只是卷积内核不跨越时间轴。因此,它可以被认为是一个在瓶颈层具有1D卷积神经网络(CNNs)和递归神经网络的频率轴U-Net。编码器由1D卷积神经网络(1DCNN)块和频率轴门控递归单元(FGRU)块组成。每个1D-CNN块是类似于[9]的逐点卷积和深度卷积的序列,除了第一层使用标准卷积运算,而不使用前面的逐点卷积。为了节省网络大小,我们使用了六个1D-CNN块,这些块使用跨步卷积将频率轴大小从256降采样到16。这导致小的感受野(1750Hz),这可能对网络性能不利。为了增加感受野,我们沿着频率轴使用双向GRU层[10],而不是堆叠更多的1D-CNN块。也就是说,来自1D-CNN块的16个矢量的序列被传递到双向GRU中,以增加感受野并沿着频率轴共享信息。我们将这个频率轴双向GRU层称为FGRU层。在FGRU层之后使用逐点卷积、批处理归一化(BN)和校正线性单元(ReLU),构成FGRU块。我们为每个前向和后向FGRU小区使用了64个隐藏维度。

解码器由时间轴门控递归单元(TGRU)块和1D转置卷积神经网络(1D TrCNN)块组成。编码器的输出被传递到单向GRU层,以沿着时间轴聚合信息。我们将这个GRU层称为TGRU层。虽然可以将不同的GRU单元应用于编码器输出的每个频率轴索引,但我们在每个频率轴索引来共享相同的单元,以节省参数的数量。逐点卷积、BN和ReLU遵循TGRU层,构成TGRU块。我们为TGRU单元使用了128个隐藏维度。最后,1D TrCNN块用于将TGRU块的输出上采样到原始谱图大小。1D TrCNN块接受两个输入-1。前一层输出2。来自相同层次结构的编码器的跳过张量,并按如下方式对其进行上采样。首先,将两个输入连接并投影到较小的通道大小(256→ 64)。然后,使用1D转置卷积来对压缩信息进行上采样。与通常的U-Net实现相比,该过程节省了参数数量和计算量,在U-Net实现中,两个输入被级联并立即使用转置卷积运算进行上采样。注意,我们没有对1D TrCNN块使用深度卷积,因为我们根据经验观察到,当在解码阶段使用时,它会显著降低性能。编码器和解码器中使用的每个卷积运算之后都是BN和ReLU。

相位感知β-S形掩模

所提出的相位感知β-S形掩模(PHM)是一种复值掩模,能够系统地将估计复数值的总和限制为混合物的值,Xt,f=Y(k)t,f+Y(-k)t,f。PHM将STFT域中的混合物Xt,f分为两部分,作为一对一的方法,即信号Y(k)t,f和信号Y(-k)t的其余部分之和,f=Xt,f-Y(k,t,f,其中indexk可以是直接路径源(d)、混响(r)和噪声(n)之一,在我们的设置中,k∈{d,r,n}。复值maskM(k)t,f∈C估计感兴趣的源k的幅度和相位值。

计算PHM需要两个步骤。首先,网络输出两个掩码|M(k)t,f|和|M(-kφ是最后一层之前的网络层组成的函数|M(k)t,f|用作估计源k的幅度掩码,其值范围从0到βt,f。βt,f的作用是设计一个接近最优值的掩码,该掩码具有灵活的幅度范围,从而使值不受0和1之间的限制,这与常用的S形掩码不同。此外,由于复值掩码M(k)t,f和M(-k)t,fms的和必须组成一个三角形,因此设计一个满足三角形不等式的掩码是合理的,即|M(k,t,f|+|M(-k)t,f|≥1和|||M(k-t,f |−|M(.k)t、f||||||≤1。为了解决第一个不等式,我们设计了从最后一层输出βt,f的网络,具有如下的softplus激活函数,βt,f=1+softplus((ψβ(φ))t,f),其中ψβ表示输出βt、f的额外网络层。第二个不等式可以通过将βt,f的上界裁剪1/|σ(k)(zt,f)−σ(-k)(zt,f)|来满足。

一旦确定了幅度掩模,我们就可以构造相位掩模ejθ(k)t,f。给定三角形三边的大小,我们可以计算混合物和源k之间的绝对相位差∆θ(k)t,f的余弦,如下所示,cos(∆θ。然后,相位掩模的相位校正旋转方向ξt,f∈{1,−1}(顺时针或逆时针)估计如下,ejθ(k)t,f=cos(∆θ(k)t,f)+jξt、f sin(∆。使用两类直通Gumbel softmax估计量来估计ξt,f[11]。M(k)t,f定义如下,M(k。最后,M(k)t,f与Xt,f相乘,以如下估计源k。

执行的细节

由于我们的目标是执行去噪和去混响,我们使用热声学[20]来模拟具有随机采样吸收、房间大小、源位置和麦克风距离的人工混响。我们使用了2秒的语音和噪声片段,并将它们与范围从-5 dB到25 dB的均匀分布的源噪声比(SNR)混合。输入特征被用作对数幅度谱图、PCEN谱图和解调相位的实部/虚部的信道级联。我们使用了AdamW优化器[21],当验证分数连续三个时期没有提高时,学习率减半。初始学习率设置为0.0004。窗口大小和跳变大小分别设置为512(32毫秒)和128(8毫秒)。我们还将所提出的模型量化为INT8格式,并将模型大小与先前的工作进行了比较。我们的量化模型实验的目的是减少嵌入式环境的模型大小和计算成本。我们采用了[5]中提出的使用量化数的计算流程来量化神经网络。此外,为了高效的硬件实现,我们采用了均匀对称量化方案[22],该方案使用均匀量化并将零点限制为0。在实验中,使用量化的权重、激活和输入来处理神经网络中的所有层;只有偏置值以全精度表示。以全精度计算诸如特征提取和掩蔽之类的其他处理步骤。对于编码器和解码器层,我们在训练期间观察中间张量的尺度统计。然后,在推理过程中,我们使用观察到的最小值和最大值的平均值来固定激活的尺度。由于每个时间步长的内部激活的大动态范围,在推理时间期间只有GRU层被动态量化。

我们通过在大规模DNS挑战数据集[25]和内部收集的数据集上训练模型,进一步检查了模型的去噪性能。它在两个非盲DNS开发集上进行了测试,1)无混响的合成剪辑(合成无混响)和2)有混响的合成片段(合成有混响)。我们将我们的模型与最近提交给2020年Interspeech DNS挑战的模型[3,4,17,18,19]进行了比较。6个评估指标,PESQ、CBAK、COVL、CSIG、SI-SDR和STOI[26,27,28,29]。注意,尽管建议使用ITU-T P862.2宽带版本的PESQ(PESQ2),但一些研究报告了使用ITU-T P762.1(PESQ1)的得分。因此,我们使用了两个PESQ版本来将我们的模型与其他模型进行比较。结果如表1所示。我们可以看到,TRU-Net在Synthetic without Reverb集合中显示出最佳性能,同时具有最小数量的参数。在Synthetic with Reverb集合中,TRU-Net使用的参数比其他模型少几个数量级,显示出有竞争力的性能。

在包含3000个音频文件的WHAMR数据集的最小子集上测试了同时去噪和去混响的性能。WHAMR数据集由噪声混响混合物和作为地面实况的直接源组成。表1中的TRU-Net模型(FP32和INT8)用于测试。我们在表3中展示了我们的模型的去噪和去混响性能,以及在同一WHAMR数据集上测试的另外两个模型。与其他基线模型相比,我们的模型获得了最好的结果,这表明了TRU-Net在同时去噪和去混响任务上的参数效率。

标签:卷积,模型,算法,降噪,神经网络,1D,Net,我们,混响
From: https://www.cnblogs.com/mcu-ai-QH/p/18228408

相关文章

  • 【代码+详解】算法题 : 菲波那契数列
    ❗❗❗必看:下列题我全部都使用Java语言写的,并且均可以提交成功,获得Accepted结果的.如果代码和详解看了之后,对答案有任何疑问,都可以在评论区提出来,我都会一个一个回答.❗❗❗感谢大家的支持,如果喜欢我的博客,关注点赞收藏评论一波,非常感谢!!!文章目录......
  • 【反悔贪心】算法讲解
    目录cf865D 环形喂猪建筑抢修                cf865D思路:我们贪心的原则是尽可能的多卖,而且尽可能的卖的多。整体的贪心思路就是能卖就卖,卖完后放入堆中(以便反悔),先不考虑能卖多少,因为堆是按照价格从小到大排序,把最优的选择放在最前面。在遍历到......
  • 程序分享--常见算法/编程面试题:删除有序数组中的重复项 II
    关注我,持续分享逻辑思维&管理思维&面试题;可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》, 《做好面试准备,迎接2024金三银四》。或关注博主免费专栏【程序......
  • KMP算法
    KMP算法KMP算法是一个解决模式串在文本串是否出现过,如果出现过,最早出现的位置的经典算法。重点是找到字符串的最长公共前后缀。用最长公共前后缀在匹配的同时,实现快速跳转。#include<bits/stdc++.h>usingnamespacestd;typedeflonglongll;constintINF=0x3f3f3f3f;......
  • 代码随想录算法训练营第二十一天 | 530.二叉搜索树的最小绝对差 501.二叉搜索树中的众
    530.二叉搜索树的最小绝对差题目链接文章讲解视频讲解关键词:二叉搜索树-->中序遍历关于递归的返回值  由于需要遍历整棵二叉树,所以返回值为void,如果不是遍历整棵二叉树,需要在得到结果时立即返回结果,此时返回值才不为空怎样使用两个指针pre和cur使得pre始终指向cur的前......
  • 常见的排序算法——快速排序
    本文记述了快速排序的基本思想和一份参考实现代码,并在说明了算法的性能后用随机数据进行了验证。◆思想基于分治思想的快速排序,使用切分函数找到一个切分位置,保证其左侧子范围内的所有元素都不大于切分位置的元素,右侧子范围内的所有元素都不小于切分位置的元素。然后用递归调用......
  • MD5加密算法中的加盐值(SALT)简单理解
    MD5是一种广泛使用的加密散列函数,它可以产生一个128位(16字节)的哈希值,通常用一个32位的十六进制字符串表示。MD5的主要目的是确保数据的完整性,而不是用于安全加密。加盐(Salting)是一种安全措施,用于增强密码存储的安全性。在密码学中,加盐值是一个随机生成的数据片段,它与密码结......
  • sift算法实现指纹验证
     本代码将使用SIFT特征检测和FLANN匹配器来比较两枚指纹是否与模板指纹匹配。模板指纹需要匹配的指纹1.定义显示图像的函数importcv2defcv_show(name,img):cv2.imshow(name,img)cv2.waitKey(0)2.定义计算匹配点个数的函数defverification(src,mode......
  • 代码随想录算法训练营第二十天 | 654.最大二叉树 617.合并二叉树 二叉搜索树
    654.最大二叉树题目链接文章讲解视频讲解classSolution{public:TreeNode*constructMaximumBinaryTree(vector<int>&nums){returninorderTraversal(nums,0,nums.size()-1);}TreeNode*inorderTraversal(vector<int>&nums,intbegi......
  • python自然语言处理实战:核心技术与算法 (涂铭,刘祥,刘树春)高清电子版pdf下载百度云
    书:pan.baidu.com/s/1rOoEvizAhkQyF8xScVh51w?pwd=8onw提取码:8onw我的阅读笔记:Python基础:为了进行NLP任务,首先需要掌握Python编程语言的基础知识。文本预处理:这包括文本清洗(如去除标点、停用词、特殊字符等)、文本分词(如中文分词)、文本向量化(如词袋模型、TF-IDF、Word2Vec等)。......