首页 > 其他分享 >论文翻译:SSI-Net: A MULTI-STAGE SPEECH SIGNAL IMPROVEMENT SYSTEM FOR ICASSP 2023

论文翻译:SSI-Net: A MULTI-STAGE SPEECH SIGNAL IMPROVEMENT SYSTEM FOR ICASSP 2023

时间:2023-08-01 16:35:23浏览次数:83  
标签:MULTI SIGNAL SYSTEM MTFAA SSI 语音 ICASSP Net 增强

摘要

  ICASSP 2023语音信号改善(SSI)挑战赛的重点是提高实时通信(RTC)系统的语音信号质量。本文介绍了提交ICASSP 2023 SSI挑战赛的语音信号改进网络(SSI-Net),该网络满足实时条件。提出的SSI-Net具有多阶段体系结构。在语音恢复的第一阶段,我们提出了时域恢复生成对抗网络(TRGAN)。在第二个增强阶段,我们采用了一种轻量级的多尺度时间频率卷积网络(MTFAA-Net),称为MTFAA-Lite来增强全频段语音。在SSI挑战盲测试集的主观测试中,我们提出的SSI-Net产生了0.835的总体平均意见得分(MOS)为3.190,0.804的总体MOS为3.178,最终在轨道1和2中排名第三。

前言

  最近,RTC系统在广泛的远程通信和协作中越来越受欢迎。尽管高质量的语音信号对RTC系统至关重要,但当前的RTC系统仍然存在严重限制其语音质量的问题,包括环境噪声/混响、数据包丢失、带宽限制和衰减,仅举几例。ICASSP 2023 SSI挑战[1]集中解决语音中的噪声、着色、不连续、响度和混响问题,以提高RTC系统的语音信号质量。   针对上述复杂的任务,本文提出了多阶段框架SSI-Net。增强方法对损坏语音信号的过度抑制可能导致语音信号不可恢复。为了避免这个问题,我们在语音恢复和初步去噪/去噪的第一恢复阶段提出了TRGAN。此外,恢复阶段的输出仍然可能包含残余噪声和伪影。因此,为了进一步提高语音信号的质量,在第二阶段使用全频带语音增强模型MTFAA-Net来去除这些残余噪声和伪影。最终,我们提交的实时系统SSI-Net在轨道1和2中排名第三。

方法

  图1显示了我们的多级框架SSI-Net由恢复阶段增强阶段组成。TRGAN负责语音恢复和恢复阶段的初步去噪/混响。在这一阶段对原始输入波形进行处理后,我们将首先得到一个相对高质量的波形。通过短时傅立叶变换(STFT)将恢复的波形转换为复谱图,然后将复谱图馈送到MTFAA-Lite。之后,以MTFAA-Lite为主要组成的增强阶段将去除噪声和伪影,进一步提高语音质量。最终,MTFAA-Net的输出通过逆STFT (iSTFT)来产生最终的预测。下面将对这些部分进行详细的描述。

2.1. TRGAN

  先前的工作[2]针对的是Mel域生成模型对语音信号的改进。然而,梅尔域模型忽略了相位信息的利用,限制了其性能的上界。时域模型是语音生成模型的另一种常见范式,它直接使用波形作为输入,隐式地考虑了相位信息,在语音恢复的某些领域取得了优异的效果[3,4]。因此,我们提出TRGAN在时域内实现语音信号的恢复。 TRGAN的生成器采用编码器-解码器架构。编码器由一维卷积层和残差卷积层[4]组成,具有残差结构,负责对语音波形进行下采样。相应地,解码器通过残差卷积层和一维转置卷积层对编码器输出的特征进行上采样。   我们利用伪正交镜像滤波器组(PQMF)[5]对生成器的输入波形进行子带分解,并对其输出进行信号重构,从而减少了参数的数量和计算量。在鉴别器方面,我们提出了多波段鉴别器,并将其与之前提出的多分辨率频域鉴别器[6]相结合,可以很好地生成不同的频率分量。

2.2. MTFAA-Lite

  随着近年来语音增强技术的飞速发展,语音增强方法逐渐从宽带语音增强扩展到全频段语音增强。MTFAA-Net[7]是目前最先进的全频带语音增强方法,具有多尺度时频处理和流轴向注意力,在ICASSP 2022深度噪声抑制(DNS)挑战赛中取得了令人印象深刻的成果[8]。为了平衡性能和计算复杂度,我们对MTFAA-Net进行了简化,得到了用于增强阶段的MTFAA-Lite。具体来说,我们保留了MTFAA-Net中的频率下采样、频率上采样和T-F卷积模块,同时去掉了轴向自注意中具有高时间复杂度的T-attention

实验

3.1 训练设置

  我们从DNS Challenge数据集[8]中选择部分48kHz音频作为clean集和noise集。我们基于RT60的图像方法生成了100,000个房间脉冲响应(RIRs)[9]。在分析了来自SSI挑战开发集的音频后,我们以统计比例制作了具有诸如颜色,不连续,响度,噪音和混响等问题的音频,总共1500小时。训练集和验证集从这个1500小时的数据集中分开。   我们最终使用了总参数量为5.23M的SSI-Net,它的实时因子(RTF)在2.4 GHz的Intel Core i5四核CPU上为0.36。

3.2 结果与分析

  表1显示了基于ITU-T P.835在SSI Challenge盲测集上的主观测试结果。可以看出,我们的SSINet在有效抑制噪声的同时,也提高了语音质量。   我们在表2中进一步探讨了我们的方法对语音质量的几个具体方面的影响。可见,SSI-Net确实有效地解决了影响语音质量的问题,包括着色、不连续、响度和混响。

结论

  本文介绍了我们参加ICASSP 2023 SSI挑战赛的情况。所提交的实时系统SSI-Net具有多阶段结构,其中首先进行语音恢复,然后进行语音增强。我们提出的SSI-Net最终以令人印象深刻的基于P .835和P .804的主观测试结果获得了第三名。

标签:MULTI,SIGNAL,SYSTEM,MTFAA,SSI,语音,ICASSP,Net,增强
From: https://www.cnblogs.com/151302017lyx/p/17596880.html

相关文章

  • Android systemupdater
    1.systemupdater 位于packages\apps\Car\SystemUpdater\下,入口Activity为packages\apps\Car\SystemUpdater\src\com\android\car\systemupdater\SystemUpdaterActivity.java在onActivityCreated方法中执行升级包校验功能@OverridepublicvoidonActivityCreated(Bund......
  • Linux systemd配置
    介绍:systemd是Linux系统工具,用来启动守护进程,已成为大多数发行版的标准配置。它是一个初始化程序(init)和SystemV初始化脚本的现代替代者。Systemd可以接管后台服务、结束、状态查询,以及日志归档、设备管理、电源管理、定时任务等许多职责。Systemd是所有进程之母,负责将Linux主......
  • Boost.Signals 教程
    Tutorial教程HowtoReadthisTutorialCompatibilityNoteHello,World!(Beginner)CallingmultipleslotsPassingvaluestoandfromslotsConnectionManagementExample:Document-ViewLinkingagainsttheSignalslibrary术语表如何阅读本教程对兼容性的注......
  • Systemd教程
    title:"Systemd教程"date:2023-07-31T16:05:25+08:00tags:["Linux运维"]categories:[]draft:falseSystemd入门教程:实战篇-阮一峰的网络日志配置文件$systemctlcatsshd.service[Unit]Description=OpenSSHserverdaemonDocumentation=man:sshd(8)man:ssh......
  • 【Jmeter问题分享】jmeter 中 Content-Type为multipart/form-data的接口的测试
    问题背景:测试项目中需要对前端提交的表单接口进行压力测试,通过fiddler抓包发现Content-Type为multipart/form-data,fiddler重放能正常提交。但是导入到jmeter上却无法成功一直是错误的结果。解决方案刚开始一直在查jmeter如何给Content-Type为multipart/form-data做接口测试,网上......
  • boost multi index多索引容器
    复制源:https://www.cnblogs.com/sssblog/p/11004572.html(纯英文)注意:本文是机翻Boost.MultiIndexmakesitpossibletodefinecontainersthatsupportanarbitrarynumberofinterfaces.Whilestd::vectorprovidesaninterfacethatsupportsdirectaccesstoelemen......
  • SAP System Security & Authorizations 1
    SAPSystemSecurity&Authorizations1IntroductiontoSAPandimportantconceptsrelatedtoSAPSecuritySAP&itscomponentsintroductionSAP-SystemapplicationsandproductsindataprocessingERP-EnterpriseresourceplanningManufacturing......
  • MIT 6.S081 Lec14: File system
    Overview文件系统的设计目标就是组织和存储数据,文件系统一个比较重要功能是持久化,即重启之后,数据不会丢失。xv6通过把数据存储在virtiodisk上来实现持久化。文件系统设计的几大挑战:Thefilesystemneedson-diskdatastructurestorepresentthetreeofnameddirecto......
  • Mit6.s081 Lec15: xv6 的 logging system
    Logginglayerfilesystem设计的一大重要问题就是crashrecovery。这是因为文件系统操作往往涉及向磁盘多次写入,而几次写入之后的crash可能导致磁盘上的文件系统处于一个不一致的状态。Forexample,supposeacrashoccursduringfiletruncation(settingthelengthof......
  • C# system.Threading.Timer和system.Timers中的定时器
    它们都可以用于在指定时间间隔后执行代码。然而,它们在实现和用法上有一些差异。System.Threading.Timer:System.Threading.Timer是基于线程的定时器,它属于System.Threading命名空间。它使用ThreadPool线程来执行定时操作。以下是关于System.Threading.Timer的一些重要特......