ZEGO 即构音乐场景降噪技术解析

时间：2023-06-21 15:03:28浏览次数：36

随着线上泛娱乐的兴起，语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的地位，用户对于音质的要求也越来越高，因此超越传统语音降噪算法的 AI 降噪算法应运而生，所以目前各大 RTC 厂商普遍使用 AI 技术进行降噪处理，使用 AI 降噪技术消除除人声外的一切声音。

但对于一些特殊场景，如在线 KTV、线上直播等声卡场景，或者弹唱、伴奏、乐器等使用场景中，我们可以明显的感受到，一般降噪处理或 AI 降噪处理的过程中会将音乐/伴奏误识别为噪音，并进行降噪处理，给用户带来很不好的线上体验。因此，在此类使用场景中用户越来越不满足于背景降噪，而是提出更高要求，那就是深度降噪的同时保留音乐的音质。为了满足用户消噪与音乐音质高保真的需求，ZEGO 即构科技自研了一套自适应降噪方案，能在音乐与非音乐场景中智能切换，既保证了无音乐场景下的语音的质量，又保留了音乐的高保真音质。

音乐场景降噪方案简介

首先简单了解一下即构音乐场景降噪的方案流程：

ZEGO 即构音乐场景降噪技术解析_音视频

从图中可以看到，经过前处理后的音频数据会被送入 AI 音乐检测模块，接着根据检测结果将场景分为音乐和非音乐场景。若检测出音乐场景则会使用传统降噪对音频数据进行处理，以减少对音乐的损伤，非音乐场景则继续使用 AI 降噪进行更深度的噪声消除。最后数据会经过自动增益模块完成最终的语音增强。

关于 AI 音乐检测算法

由上文描述中可以看到，完成音乐场景降噪功能最重要的一环就是 AI 音乐检测算法。为了满足音乐场景的实时切换与极高检测率的需求，我们自研了基于AI的音乐检测算法 ZegoAIMusicDetecion。算法流程如下：

ZEGO 即构音乐场景降噪技术解析_音视频_02

我们对数据进行帧长为 20ms，帧移为 10ms 的 STFT 处理后，使用 Bark 频带尺度将数据分为8 个子带，再分别求取一阶差分，二阶差分和谱平坦度最终得到 25 维特征。将计算得到的特征送入到我们设计的轻量型网络模型 CRNN，模型结构如下：

ZEGO 即构音乐场景降噪技术解析_音视频_03

这里使用多层 Conv1d 卷积层能进一步的对特征进行提取。训练时，我们搜集了大量的开源音乐、语音与噪声数据进行训练，同时使用不同信噪比进行数据混合增强，确保模型有足够的泛化性。在训练优化器上，我们选择了 AdamW 以更好地对模型进行正则化处理，学习率为 0.001，批大小是 64，损失函数我们使用了交叉熵函数，公式如下：

ZEGO 即构音乐场景降噪技术解析_音视频_04

算法效果与性能开销

有了 AI 音乐检测算法的帮助，我们最终可以实现针对音乐场景的降噪方案，方案最终的效果如下：

ZEGO 即构音乐场景降噪技术解析_音视频_05

从上面的频谱图以及实际的听感来看，都可以直观的感受到即构音乐场景降噪方案对音乐音质的保护。在提供良好效果的同时，ZegoAIMusicDetecion 秉承着极轻量级模型的设计理念，整体计算量大约为 1.2M FLOPS，RTF 指标在各个平台和终端上均控制在 0.2% 以内。在此基础上，我们采用多帧平滑的后处理技术使音乐检测误检率低于 1%，音乐检测率达到 95% 以上。

技术展望

音乐场景在泛娱乐社交和互动中十分常见，需要注重用户和听众的使用感觉，做好音乐场景降噪处理。综上所述，ZEGO 即构科技为了同时兼顾降噪与音乐音质体验，自研了基于 AI 的音乐检测算法（点这里），设计出一套音乐场景降噪方案，充分体现即构对于用户良好体验的高度重视。

未来，我们会结合具体行业和场景，引入更多的可行性方案，提升产品的场景适应能力，给用户提供更好的音频体验！了解更多ZEGO即构IM即时通讯服务。

标签：场景,AI,音乐,降噪,算法,ZEGO,即构
From： https://blog.51cto.com/u_14794264/6528542

ZEGO 即构音乐场景降噪技术解析
随着线上泛娱乐的兴起，语聊房、在线KTV以及直播等场景在人们的日常生活中占据越来越重要的地位，用户对于音质的要求也越来越高，因此超越传统语音降噪算法的AI降噪算法应运而生，所以目前各大RTC厂商普遍使用AI技术进行降噪处理，使用AI降噪技术消除除人声外的一切声音。但对于......
正态分布降噪（c语言实现）
一、原理：正态分布降噪的原理为正态分布图，当一个数出现的概率小于0.3%时，便认为其是异常值，并将其去除。二、思路：1.从txt文件中读入数据并将其的值赋值给a数组，并赋值a数组的值给b数组；2.再新建一个d数组其中存放每个值出现的频率，若重复出现，则其后重复的值全部赋值为0；3.输出时用d数......
6月有奖征文挑战，ZEGO开发者社区首季活动报名入口！
前言哈喽开发者们：ZEGO即构科技作为一家20年技术积累的音视频云服务商，已经为全球200+个国家的企业服务，单日通话时长突破30亿+分钟，现下即构开发者社区举办首期征文活动！本次征文活动围绕音视频开发系列，从采集到播放每个环节的内容均可投稿，期待大家发挥创造力与想象力~我......
深度学习降噪专题课：总结
大家好，本课是本次专题课的最后一节课，给出了未来的研究改进方向，谢谢！加QQ群，获得相关资料，与群主交流讨论：106047770本系列文章为线上课程的复盘，每上完一节课就会同步发布对应的文章本课程系列文章可进入合集查看：深度学习降噪专题课系列文章合集未来的研究改进方向1.等待WebNNPo......
深度学习降噪专题课：实现WSPK实时蒙特卡洛降噪算法
大家好~本课程基于全连接和卷积神经网络，学习LBF等深度学习降噪算法，实现实时路径追踪渲染的降噪本课程偏向于应用实现，主要介绍深度学习降噪算法的实现思路，演示实现的效果，给出实现的相关代码线上课程资料：本节课录像回放加QQ群，获得相关资料，与群主交流讨论：106047770本系列文章为......
即构科技入选「2022年中国元宇宙产业生态图谱」
2022年是全球元宇宙产业高速发展且动荡的一年，在经历了初期的挫折和弯路后，布局元宇宙的企业逐渐找到了在产业链中所扮演的角色。 2022年末，36氪发布《2022年元宇宙产业生态图谱》，该图谱面向XR生态、大内容生态、区块链与数字衍生经济、虚拟人、元宇宙虚拟空间、元宇宙数字孪生六......
玩转Zabbix智能告警：降噪、排班、认领、升级、IM协同
Zabbix作为一款流行的企业级监控工具，可以监控各种网络设备和服务的状态，并提供强大的告警功能，能够在出现异常情况时及时通知管理员。以下是Zabbix的一些特点：支持多种监控方式，包括SNMP、JMX、IPMI等，可以监控各种网络设备、服务器、虚拟化平台等；提供了丰富的监控项和模板，可以轻松......
PS磨皮滤镜降噪插件套装Imagenomic Professional Plugin Suite
ImagenomicProfessionalPluginSuite插件下载ImagenomicProfessionalPluginSuiteforMac是一款适用于苹果操作系统的专业级插件套装，包括了Noiseware、Portraiture和Realgrain三个插件。Noiseware可以快速去除图像中的噪点，提高图像的清晰度和质量。Portraiture是一款人像修......
图像智能降噪工具：Topaz Photo AI for Mac v1.3.1
TopazPhotoAI是一款适用于Mac的图像处理软件，它使用人工智能技术对照片进行编辑和优化。该软件提供了多种强大的功能，帮助用户轻松地改善图像质量，并实现自定义的效果。TopazPhotoAI支持多种文件格式，包括JPEG、TIFF、PNG、RAW等，并且能够自动检测并修复许多常见的问题，例如模糊、噪......
高性能双麦阵列拾音束语音降噪消回音处理芯片 nr2048
NR2048芯片采用先进的语音处理技术,芯片拥有8k-16k频率采样,旨在嘈杂环境中改进语音通话的清晰度，以及有助于改善语音识别命令输入 NR2048芯片拥有先进的双麦克风阵列拾音束成型技术可以追踪通话者的声音,过滤掉不需要的背景噪音，提供自然的声音为任何环境中的用户提供清......

ZEGO 即构音乐场景降噪技术解析

音乐场景降噪方案简介

关于 AI 音乐检测算法

算法效果与性能开销

技术展望

相关文章

赞助商

阅读排行