回顾今年的2月份,可以说是音频编解码器最为热闹的一个月。先是微软宣布推出最新款由AI支持的音频编解码器——Satin。仅一周后,谷歌推出了用于语音压缩的新型超低比特率音频编解码器——Lyra,并且Android版本已开源。在此,也非常感谢来自国内音频领域的知名业内人士对本文发表评论及审校。
整理 / LiveVideoStack
不难发现,硅谷大佬们对音频编解码器的深度研发进度已提上日程,对未来可应用的场景让人们充满期待。值得注意的是这两款音频编解码器都是基于AI的语音编码,但它们又有各自不同的特点。
Satin:用于实时通信的AI音频编解码器
作为一款由人工智能驱动的音频编解码器,Satin可以在网速6kbps时提供超宽频段的语音,17kbps时提供全频段的立体声音乐,网速越高,质量越高。Satin旨在高丢包率下也提供良好的音频质量。此外,在冗余算法的改进下,可以应对突发丢包情况,提供更好的保护。以下是经过改进的弹性算法和Satin编解码器的最终效果:
SILK@6kbps,突发数据包丢失(附加6kbps的冗余)
Satin@6kbps,突发数据包丢失,改进的冗余算法(附加6kbps的冗余)
相对于Silk推出的超宽带语音,12kHz的频率,以24kHz的采样率(在人类声音超过12kHz的频率时,能量会迅速下降);Satin重新定义了超宽带,以覆盖16kHz的频率,采样率在32kHz,以提供更高的清晰度和稳定性,而其高效的压缩功能则可以实现6 kbps的超宽带语音。
/ t /一词在“ suit”一词中的频率分量。除了4 kHz的窄带截止甚至8 kHz的宽带截止以外,还有大量的能量。将能量保留在较高的频谱分量中会导致声音听起来更加自然。
以下分别为在6kbps下,Silk窄带和Satin超宽带的音频示例(建议使用耳机试听):
为了保证在6kbps超宽带下的语音质量,Satin使用对语音产生、建模和心理声学的深度理解来提取和编码信号的稀疏表达。为了进一步降低所需的比特率,Satin只在较低的频带中编码和传输某些参数。在解码器上,Satin使用深层神经网络从接收到的低频带参数以及通过导线发送的最少量辅助信息中估计高频带参数。
虽然这种方法解决了在超低比特率下对使用超宽带语音的最大挑战,但也带来了计算复杂度的新挑战。对此,微软将重心放在对算法优化和循环向量化等技术上,使计算复杂度降低40%,并保障能够在所有用户的设备上运行。
除此之外,微软还关注到了关于Satin的丢包数据恢复能力。对此,Satin对每个数据包进行独立编码,因此丢失一个数据包的效果不会影响后续数据包的质量。编解码器还被设计为有助于在内部参数域中隐藏高质量的丢包。这些功能可帮助Satin无缝处理随机丢失,一次丢失一个或两个数据包。
目前,Satin已被用于所有Teams和Skype两方通话,并将很快用于Teams会议。目前,它以6-36 kbps的比特率范围在宽带语音模式下运行,并且在不久的将来将扩展为以48 kHz的最大采样率支持全频带立体声音乐。
Lyra:一款用于语音压缩的新型超低比特率编解码器
Lyra是由谷歌团队研发并已开源了Android版本。它所拥有的能力在于能在3kbps网络带宽下为用户提供自然清晰的语音聊天,以及仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。(有关Lyra的详细介绍请浏览:在3kbps的带宽下还能清晰地语音聊天?)
对比Satin & Lyra:虽然这两个音频编解码器都能够在低比特率下进行操作,并通过AI提供动力,但它们有很大的不同。Lyra仅专注于窄带,而Satin则致力于超宽带。
另外,国内音频领域的知名业内人士指出:“在AI Codec领域中,有两种方式。一种是 end to end 也就是全AI,所以Lyra属于全AI结构。而另一种是hybird结构,就是只有部分模块才使用AI,因此Satin是hybird结构。那么之所以现在才使用AI与音频编解码器结合,是因为在相同码率下,使用AI能够大幅提升音频质量。”
编辑:Teresa Li