首页 > 其他分享 >新的Google Lyra音频编解码器对实时视频流意味着什么?

新的Google Lyra音频编解码器对实时视频流意味着什么?

时间:2023-06-13 16:35:07浏览次数:55  
标签:Google Lyra 视频流 Opus 语音 kbps 编解码器 音频


新的Google Lyra音频编解码器对实时视频流意味着什么?_python

正文字数:2602  阅读时长:4分钟

通过语言编码中的码率缩减趋势,Lyra与Opus中的区别比较,Lyra的作用,XDN平台上的高效语音编码技术几个方面探讨新的Google Lyra音频编解码器对实时视频流的意义。

文 / RED5PRO

 https://www.red5pro.com/blog/what-does-the-new-google-lyra-audio-codec-mean-for-real-time-video-streaming/

对于那些对实时视频通信感兴趣的人来说,Google Duo工程团队最近开发了一种音频编解码器,能够以3kbps的速度传输合理的人类语音传真,这可能会让你大吃一惊。

但至少现在,这个被称为Lyra的编解码器看起来并没有什么值得兴奋的地方。它的发展远比它在竞争激烈的社交会议应用领域,包括Duo、Facetime、WhatsApp和许多其他应用中可能很快产生的影响更有趣,更不用说Google Meet、Zoom和Skype等视频会议环境了。 

Duo和大多数视频通信应用一样,依赖于WebRTC流媒体协议,Red5 Pro的体验交付网络(XDN)平台上运行的多向、实时用例也是如此。Lyra是否有一天会对XDN应用有用,这取决于Google在此后的发展方向,以及这些努力与其他编码技术的进步相比如何。

 语音编码中的码率缩减趋势 

就目前尖端语音压缩这个晦涩难懂的世界而言,3 kbps并不是那么稀奇。通过将算法处理限制在300hz到18khz之间的全部或部分声波频率,新旧语音编解码器都比支持人类可听到的全范围声音的音频编解码器具有更高的带宽效率。例如,视频流中使用最广泛的音频编解码器——高级音频编码(AAC),通常覆盖0至96 kHz的频率范围,通过使用低频增强(LFE)、用于环绕声和其他高级声学中使用的低音箱馈源,可将频率范围扩展至120khz。

AAC被纳入H.264/AVC标准,在使用48 kHz编码采样率的典型立体声设置时消耗带宽为96 kbps,尽管纯音乐应用程序通常以更高的采样率使用AAC,码率一直延伸到512 kbps。相比之下,在WebRTC流媒体通信(包括Duo的)中使用最广泛的下一代语音编解码器Opus,仅以32 kbps的速度就能近乎完美地复制语音,并以低至6 kbps的码率提供可行的语音通信。

对Opus以及G.722和G.711的支持是由WebRTC规范要求的,这意味着它们被主流浏览器支持。像Lyra这样的编解码器可以与WebRTC一起使用,只要它们有应用程序插件支持,例如Duo。

包括 Lyra 和 Opus 在内的许多语音编解码器在带宽受到严重限制下,可以通过将声音复制限制在300hz到8khz甚至500hz到3khz的低频范围内。即使是听起来很糟糕的语音,也足以传达可理解的内容。这些频率范围可以将可理解语音使用的最小码率降低到3 kbps以下水平。

能够做到这一点的编码器包括国防部的增强型混合激励线性预测(eMELP)、3GPP的自适应多速率(AMR)以及Opus的开源前身Speex,这两种编码器都是由Xiph.Org开发的。此外,MPEG-4第3部分为语音编码指定的编码激发线性预测(CELP)和谐波矢量激发编码(HVXC)算法,旨在支持分别以低至3.65 kbps和2 kbps的码率传输可行的语音。

 比较Lyra与Opus 

在最近的一篇博客文章中,Lyra背后的团队开始对Lyra的特别之处进行评估,他们声称,在3kbps的情况下,该编解码器的性能优于其他所有在该码率下运行的编解码器,其质量也优于Opus在6kbps下运行的编解码器。Google的软件工程师Alejandro Luebs和Chrome产品经理Jamieson Brettle表示:“其他编解码器的码率与Lyra不相上下(Speex、MELP、AMR),但每一种编解码器都会产生更多的干扰,并产生机器人般的声音。”

但博客中提供的测试样本只包括一个简短的语音片段,由Lyra编码为3 kbps,Opus编码为6 kbps,Speex编码为3 kbps。这些是在这里提到的编解码器中的免版税选项,这可能解释了为什么这些测试样本是唯一包含的。

这些测试报告的质量水平差异似乎很有意义。中立的观众以1-5分的标准产生的平均意见分(MOS)的平均值显示,Lyra为3.5分,Opus为2.5分,Speex为1.7分。不过,如果如作者所坚持的那样,额外的测试表明,8 kbps的Opus相当于3 kbps的Lyra,那么人们就会怀疑,这种码率的节省是否足以让Lyra发挥作用。

 Lyra的作用 

显然,Duo的人认为Lyra值得他们花时间。他们指出,Lyra 3 kbps与Opus 8 kbps的等效值相当于减少了60%的消耗带宽,他们断言:"新兴市场的数十亿用户可以使用一种高效的低码率编解码器,从而获得比以往更高质量的音频。" 

有道理。更好的音频质量是一件好事; 如果一个新的编解码器能够以低得多的码率提供另一个编解码器的质量,那么所有的用户,而不仅仅是那些在带宽有限的市场的用户,都会受益。

不过就目前而言,Lyra的真正影响很可能是对那些没有带宽支持视频通信,但能够拥有像样的音频聊天连接的人。事实上据报道,Google正在加速Lyra的实施,以满足人们仍在使用2G连接或有线拨号连接的地区的需求。

对于使用3G连接的用户来说,用Duo取代Opus不可能带来更多的消费者,因为3G对240p视频的支持完全在该标准的吞吐量范围内,无论是使用H.264时的350 kbps,还是使用Duo使用的开源视频编解码器VP9时的200 kbps。通过使用Lyra以3 kbps的最低音频质量与Opus以8 kbps的质量提供同样的音频质量来节省5 kbps,这对于3G用户是否可以参与视频聊天并不具有决定性意义。

Google团队提出,Lyra与AV1结合使用,与VP9相比,编码效率提高了约40%,可以让 "让用户通过56kbps的拨号调制解调器连接到互联网 "实现视频聊天。但AV1/Lyra组合对于使用2G手机的人来说是行不通的,因为这类手机无法支持AV1所需的处理。 

事实上,Google去年表示实施的AV1的使用将仅限于电脑和有足够处理能力处理AV1的5G智能手机。在那些高带宽环境下,Lyra是否会起作用还有待观察。 

 XDN平台上的高效语音编码技术 

这些考虑对于那些希望通过XDN基础设施提供的应用程序来提高音频质量的提供商来说是无关紧要的。他们可以通过简单地使用Opus作为浏览器支持的WebRTC编解码器来实现这一点,并显著节省带宽。 

Lyra是否会对在XDN基础架构上运行的应用程序产生影响,取决于Google如何利用它提出的创新使Lyra成为可能。Duo开发者表示,他们正在开始研究如何利用这些技术实现低码率的通用音频编解码器(例如,音乐和其他非语音应用)。

这些努力以及其他类似的努力都很值得关注。Lyra是一种新的参数编解码器,也就是说,这种编解码器从原始语音中提取几个关键参数,在解码过程中重新生成信号,而不是像Opus那样直接编码波形。Lyra和其他新的参数编解码器使用了所谓的生成建模,通过在解码过程中产生更多的信号来创造更丰富的参数调色板。

如何做到这一点,同时减少而不是增加码数,这就涉及到一系列令人眼花缭乱的技术,涉及到创建所谓的log mel谱图,这些谱图是对数的数字分配,从数以万计的录制的语音采样中的声波,借助机器学习(ML)进行解析,以复制特定的语音轨道。

Google的团队想出了一种方法来改善通过这些方法重新创建的语音的真实性。关于这些新方法如何工作的细节,以及它们对机器学习和人工智能在信号处理和其他流媒体相关功能的其他方面的影响的说明,将在即将发布的博客中进行更深入的探讨。


标签:Google,Lyra,视频流,Opus,语音,kbps,编解码器,音频
From: https://blog.51cto.com/u_13530535/6471335

相关文章

  • 最新jQuery引用google地址外部文件(jquery 1.2.6至jquery1.7.2)
    评:1.很多网站都是使用这种方式引入,客户的浏览器可能已经缓存过了jquery。可以直接调用本地的,速度更快…2.Googlecode使用了cdn技术在很多地方有节点服务器,加载jquery时绝对不会比在你服务器上加载慢,本地服务器除外:)3.可以节省服务器流量,降低服务器带宽压力可以使用......
  • SoundStream VS Lyra: 谷歌今年新推出的两款AI音频编解码器有何不同?
    作者 |Teresa、王晶技术审校 |王晶、王立众SoundStream 影音探索#001#近日,谷歌又推出了一款基于人工智能的音频编解码器——SoundStream,它是一款端到端的神经音频编解码器,可以提供更高质量的音频,同时编码不同的声音类型,包括干净的语音、嘈杂和混响的语音、音乐和环境声音。......
  • 从Satin到Lyra 为何微软、谷歌都盯向音频编解码器?
    回顾今年的2月份,可以说是音频编解码器最为热闹的一个月。先是微软宣布推出最新款由AI支持的音频编解码器——Satin。仅一周后,谷歌推出了用于语音压缩的新型超低比特率音频编解码器——Lyra,并且Android版本已开源。在此,也非常感谢来自国内音频领域的知名业内人士对本文发表评论及审......
  • Google 开源 RPC 框架 gRPC
    gRPC是Google开源的一款高性能RPC框架,前两天发布了1.0版本。RPC(RemoteProcedureCall)即远程过程调用,通过RPC,客户端的应用程序可以方便地调用另外一台机器上的服务端程序,因而常被应用于分布式系统中。RPC框架通常使用IDL(InterfaceDescriptionLanguage)定义客户......
  • 玩转Google开源C++单元测试框架Google Test系列(gtest)(总)
    前段时间学习和了解了下Google的开源C++单元测试框架GoogleTest,简称gtest,非常的不错。我们原来使用的是自己实现的一套单元测试框架,在使用过程中,发现越来越多使用不便之处,而这样不便之处,gtest恰恰很好的解决了。其实gtest本身的实现并不复杂,我们完全可以模仿gtest,不断的完善我们......
  • Google Earth Engine(GEE)——美国干旱监测数据集
    美国干旱监测美国干旱监测是每周四发布的地图,显示美国部分地区处于干旱状态。该地图使用五个分类:异常干燥(D0),显示可能进入或正在走出干旱的地区,以及四个级别的干旱:中度(D1),严重(D2),极端(D3)和特殊(D4)。自1999年成立以来,干旱监测一直是一个团队的努力,由内布拉斯加大学林肯分校的国家干旱缓......
  • Google Earth Engine(GEE)——全球干旱指数(Global-Aridity_ET0)和全球参考蒸发量(Global-E
    全球干旱度指数全球干旱指数(Global-Aridity_ET0)和全球参考蒸发量(Global-ET0)第三版数据集提供了1970-2000年期间高分辨率(30角秒)的全球栅格气候数据,与潜在植物生长的蒸发过程和降雨量不足有关,基于参考作物的PenmanMonteith蒸发量方程式的实施。该数据集是根据WorldClim2.1在30角秒......
  • Google Earth Engine(GEE)——全球栖息地异质性(数据集包含14个指标)
    全球栖息地异质性这些数据集包含14个指标,根据中分辨率成像分光仪(MODIS)获取的增强植被指数(EVI)图像的纹理特征,以多种分辨率量化全球生境的空间异质性。关于这些指标的更多信息以及对其在生物多样性建模中的效用的评价。该数据集以1公里、5公里和25公里的分辨率生成,这里只列出了1公里......
  • tink google 加密安全实践的框架
    tink是google多年加密实践的框架,提供了安全的加密处理方法,可以简化不少我们的加密处理参考使用publicstaticvoidmain(String[]args)throwsGeneralSecurityException,IOException{AeadConfig.register();//1.Generatethekeymaterial.KeysetHandlekeysetHandle=Key......
  • google c++ 风格指南
    这是google给c++开源项目提出的规范。不得不说,里面有很多知识点,能让c++编写者避开某些坑位。但同时它非常的学术,看的有点恶心。翻译后网址:https://www.bookstack.cn/read/google-cpp-style/1.md原文网址:https://google.github.io/styleguide/cppguide.html#Use_of_constexpr......