三年时间,从“懵懂少年”到能从容应对客户需求,拥有更加成熟和成体系的业务线,覆盖更多场景的产品线,不仅有音视频的传输,还有实时消息的通讯,以及视频内容的制作。这背后是腾讯云各个团队之间完美配合的结果。在迈向全真互联网的过程中,有一位朋友感受到了其中一些“小小”变化:追求越来越低的传输延时;对虚实结合的运用越来越普遍,以及VR 技术有可能会走出“花瓶”阶段进入稳定的发展期。这位朋友就是来自腾讯云的专家工程师,腾讯云音视频终端研发总经理——常青。
常青
技术访谈
#003#
腾讯云专家工程师 , 腾讯云音视频终端研发总经理。2008年加入腾讯,在客户端技术研发领域有着深厚的积累,先后参与过 PC版QQ、手机 QQ和智能硬件等项目,目前在腾讯云负责音视频相关产品的终端技术的研发和团队管理工作。
三年来的个人变化
LiveVideoStack:常青老师,您好,作为LiveVideoStack的老朋友了,您在2018年就来参加过我们的活动,和大家聊聊您这三年来的变化吧。
常青:您好,时间过得真快,一转眼三年都快过去了,如果拿上大学来打比方的话,现在应该是刚升级到大四的时候了。我感觉过去的三年也确实像在大学一样,学到了很多很多的东西。
首先是业务上,相比于三年前“刚入学”时的懵懵懂懂,我们现在已经有更加成熟和成体系的业务线,产品线覆盖了更多的场景,不仅仅有音视频的传输,还有实时消息的通讯,以及视频内容的制作。我们的团队也从原来的纯研发小 team 变成了各角色都比较完备的大军团,有经验丰富的售前团队,还有蓄积深厚的产品团队以及兢兢业业的售后团队。
其次是方法上,我们在产品的研发、测试、迭代以及售后方面,都从“大一”时的新生,变成了“大三”阶段的师兄和师姐。在研发思路方面,团队更多地贯彻了持续交付的研发理念;在质量控制方面,团队也采用了更多先进的自动化和场景化测试方案;在需求探索方面,我们优秀的产品团队也通过不断地跟客户学习和交流,让产品的发展方向始终坚持“从客户中来,到客户中去”。
再次是心态上,“大一”的时候,团队里的兄弟姐妹们每天都在“救火”,今天客户A出问题,明天客户B要支持,每天都要解决一个个新问题。但随着三年的不断积累,现在的我们更多了一份从容,少了一份稚嫩,在面对业务压力时,也能更好地平衡项目交付和产品发展之间的平衡。
“全真互联网”的变化
LiveVideoStack:在LiveVideoStackCon 2021 音视频技术大会 上海站中,大家也了解到了“全真互联网”的概念以及基础网络相关的音视频通信技术。在迈向全真互联网的过程中,目前可以看到哪些落地的场景或创新应用的呈现?
常青:我谈谈个人的一些想法,近年来观察到的一个小变化:
一是追求越来越低的传输延时:最近半年最大的感受就是客户对延时的要求越来越苛刻,比如近期我们推出的在线合唱解决方案,已经将两个用户的声音传输延时压缩到了 70ms 以下,这已经接近了两点之间的网络传输延时。在以往的应用当中,虽然大家对 RTC 的传输延时要求也是比较低的,但没有低到这么苛刻。也正是因为对低延时的诉求,使在线 K 歌这样一个非常依赖歌手声音同步的功能变成了可能。
二是对虚实结合的运用越来越普遍:比如腾讯会议很早就支持了虚拟背景技术,让自己的影像可以跟漂亮的背景图片实现完美的融合。而近期这类技术的运用已经开始变得越来越普遍,伴随着 web assembly技术的普及,相关的推理库以及模型也开始在浏览器上完成了落地,这让只使用 WebRTC 的网页用户,也开始能够享受到这一功能。
三是 VR 技术有可能会走出“花瓶”阶段进入稳定的发展期。前几年 VR 这个话题也曾备受瞩目,但当时几乎没有公司真正的成功。最近,随着技术的成熟,比如 WiFi6 的无线串流方式,以及内置芯片的能力越来越强大,使得 VR 设备的舒适度和可玩性都比之前有了大幅提升,相关的生态也越来越成熟,未来很可能会进入一个用户稳定增长的健康发展阶段。相信 VR 跟音视频的结合可能会成为明年或者后年的一个重要的发展方向。
“腾讯云音视频”品牌背后的意义
LiveVideoStack:我们也了解到今年五月份腾讯正式推出了“腾讯云音视频”品牌,整合后的“腾讯云音视频”未来的发展方向是什么?
常青:《圣经-旧约》的创世纪中曾经讲过一个故事,说是人类为了能够触及上帝,要建造一座通天塔,他们拿砖当做石头,拿石漆当做灰泥。年复一年,塔慢慢地地变高,人们也越来越有信心。上帝看到这一切,他担心到“如果人类能做成这件事情,那便没有事情是难得住他们的”。上帝想了一个办法,让人类说着不同的语言,后来人类之间不能相互沟通,塔的建造也就停工了。
放到我们的产品上也是如此,腾讯内部有很多的团队都在做跟音视频相关的项目,但之前相互之间还没有形成合力,无法在战略战术上形成“上下一盘棋”的局面。比如接口的风格、文档的思路、如何相互打通,如何组合出复杂的产品等等。
在整合之前,团队间的合作便会遭遇类似通天塔里的语言不通的问题;而经过整合之后,各产品线之间的融合、各团队之间的协作,也就变得越来越容易和简单,大家开始说同一种语言,能够齐心协力去完成我们心中的那个大目标。
比如 RTC 后台和 CDN 后台的融合,这让我们在很多方案决策和研发方向上都能协同一致,避免出现能力上的重复和接入流程上的冲突,更好的达到协同,更利于服务好客户。
比如最典型的就是 SDK 的融合,如果每个 SDK 内部都有一套自己的编解码库,有自己的一套加解密方案,那么当客户需要多个功能同时使用的时候,就会遭遇体积膨胀和符号冲突的问题。再比如接口定义,不同团队定义的接口风格可能也不一样,导致客户在接入 SDK 的过程中也会感觉好像在跟几家不同公司的产品做对接。这都是我们希望通过整合来彻底解决的问题。
“三合一”的RT-ONE™的变化&优势
LiveVideoStack:腾讯云音视频在基础网络层面推出“三合一”的RT-ONE™音视频通信基础网络,相较于之前做了哪些优化,有哪些具体特性的变化及优势所在?
常青: 变化和优势主要集中在两个方面:
一是技术的融合更加彻底:比如传统的 CDN 网络在完成融合以后,就吸收了 RTC 的很多技术,推出了“快直播”这样一个兼顾 RTC 低延时和 CDN 高并发两个特点于一身的特色产品。用户即可以享受到更低的延时和卡顿率,又能实现上百万人的高并发观看。再比如 RTC 网络也复用了很多 CDN 网络的高并发组件,吸收了很多先进的分布式设计理念,让腾讯云的 RTC 网络获得了更高的并发能力和更强的稳定性。
二是产品的互通更加自然:比如以往要使用腾讯云的 RTMP 直播就需要开通直播服务,要使用 RTC 连麦就要开通 TRTC 服务,而且两套服务之间的依赖关系又特别别扭。已经在使用直播服务的客户要使用 TRTC 连麦就得重新开始一套新方案的对接,而使用 TRTC 做在线教育的客户要完成视频录制,则必须开启直播的录制服务。伴随着“RT-ONE™”网络的到来,这些令人困扰的问题正在逐步得到解决。比如客户现在可以使用移动直播的 V2 接口,实现 TRTC 和直播服务的无缝切换,TRTC 的录制服务也通过升级工作的完成,实现了更好的用户体验和更加灵活的定制能力。
腾讯云音视频的终端SDK
LiveVideoStack:能否为我们简单介绍一下腾讯云音视频的终端SDK,它的优点是什么?
常青:好的,我们团队一直在腾讯云做音视频相关的 SDK 的研发工作,目标是给我们的客户提供音视频相关的技术组件和云端服务。这其中包括很多维度的能力:
比如视频直播能力,这包括标准协议的直播推流、直播播放等,能力上我们侧重服务的稳定性以及推拉流的质量,卡顿率、秒开时间以及音质、画质都是我们的重点努力方向。
还有实时传输能力,也就是 TRTC 实时音视频,这部分能力主要测试中低延时的互通和多人的线上互动,客户可以使用 TRTC 构建在线课堂、语音通话、视频通话、互动直播等互动性要求很高的音视频功能。
最后还有视频编辑的能力,主要用于做多特效的视频录制和视频编辑,并将处理好的视频发布到腾讯云的点播平台,用于积累和沉淀客户的 UGC 内容。
SDK 目前覆盖iOS、Android、Windows、Mac等客户端平台,以及 Linux 系统的服务端平台。在接口上,都采用了各平台最常用的编程语言,并且还提供了 Web、Flutter 以及 Electron 框架的 SDK,让不同技术栈的开发者都能很容易的使用。
AI技术对终端的赋能方向
LiveVideoStack:现在,已经有越来越多的AI技术逐渐从云端转移到终端设备上,您觉得未来的AI技术会为终端引擎、终端设备带来哪些帮助?
常青:未来端侧的音频编解码(如Google的Lyra/SoundStream),视频编解码, 还有即时互动游戏,比如体态识别,都是基于AI技术很有想象空间的应用方向; 端侧的AI天生具备低延时特性,也为低延时场景带来了更多可能;但从当前实际情况来说,端侧加速底层设施的分裂,依然需要花费大量的时间去弥补(Android与iOS生态之争,不同Chip厂商的自有加速方案等等);另外多说一点,我们也关注云端一体的方案,这是基于当前务实的考虑,类似LCEVC这样方向,应该也会占有一席之地。
“后疫情时代” - 音视频领域的下一个风口在哪里
LiveVideoStack: 您认为目前我们所处的“后疫情时代”,音视频领域的下一个风口在哪里?
常青:这个问题仁者见仁,很难给出一个标准的答案,我抛出一个粗浅的看法:
当前社会的发展依然面临着很多的挑战,比如碳中和问题、人口的增长放缓,以及在后疫情时代的经济发展和远程协同问题。相信国家在未来很长一段时间的注意力也会聚焦在这些问题上。
腾讯的技术人一直朝着“科技向善”的方向在努力,如果音视频技术在以上某个方向上的应用落地,能够对这些方向形成助力,那么会更容易地成为下一个阶段的风口。
比如:音视频通话对于留守儿童的关怀问题;低延时视频传输在新能源汽车上的远程操控能力;或者更加无缝嵌入到现有协同体系中的办公协同应用等等;以及新能源发电的远程监控和远程排障方向等等。
总之,做有利于社会发展的方向,一定也是最有机会的方向。