本次分享将聚焦在进行中的视频会议,针对视频会议新技术做探讨。视频会议不是单纯的编解码和网络传输应用,它背后的数据支撑以及新能力引入都会带来新的可能和机遇。本次演讲邀请到腾讯会议产品部网络技术组许景禧分享腾讯会议最近在网络质量分析方面的工作(本文略过),以及探讨近期热门的光场会议,与大家交流视频会议潜在的进化方向。
内容源自腾讯会议产品部高级研究员 许景禧在视频会议下半场圆桌上的分享。
我是来自腾讯会议产品部网络技术组许景禧。本次想与大家讨论视频会议方面最近有哪些新的技术有可能落地。
我们今天会聊一下最近比较感兴趣的视频会议新形式——光场会议,希望可以抛砖引玉与大家做讨论。光场会议主要会讨论其核心模块,目前使用相关技术有哪些种类?
1
腾讯会议关注行业前沿
1.1 先进视频技术
事实上,腾讯会议一直关注业界和学术界的新进展,落地了大量前沿技术,例如提高共享屏幕高保真度的特殊YUV4:4:4编码,“Tencent Screen Encoder” TSE技术,还有喜闻乐见的虚拟背景、美颜方面技术。
1.2 优秀音频体验
值得一提的是腾讯会议在音频方面花了很大力气,设立了专门的天籁实验室,投入大量研发,推出超宽带语言的编解码器、智能降噪、回音检测消除技术。我们最近还推出腾讯会议天籁模组给合作伙伴,让他们结合自己的硬件实现,提供与腾讯会议一样高质量拾音能力。
2
依托腾讯云 腾讯会议助力企业协作转型
目前腾讯会议在全球超过一百多个地区上架海外版,让企业与全世界各地的人做实时音视频会议交流。
3
更多客户选择
大量政府企业、教育企业已经使用了我们的产品,同时我们也保证了很多重要会议的召开。我们致力于持续增加腾讯会议的稳定性以及极端网络抗性。
4
企业运营管理平台
腾讯会议有大量企业用户,对内部会议有较高要求,需要为它提供完整的管理工具和问题定位系统,让企业IT方便了解整体资源消耗,查看目前会议进行状态,或让企业会服在不参与会议情况下配置会议相关细节阐述。
5
新一代的视频会议探讨——光场会议
腾讯会议一直关注着最新技术进展,因为我们知道新技术都有为客户提供更好会议体验的潜力。最新关注的光场会议是比较热门方向,这里我们分享一些观察和看法。
说到光场会议,大家首先想到的是Google Starline项目,系统比较大的卖点是做到让参会者有共处一室的体验,最关键的一点是,让多个参会者能在多个不同角度看到远程会人的不同侧面。
5.1 显示
此技术最让人关注的点是,远端参会者是通过什么方式在本地展示出三维效果的,所以我们优先讨论这点。事实上,有很多技术可以实现这一点。例如我们可以通过佩戴VR/AR设备,如Valve Index,或者是微软的Hololens,看到参会者虚拟形象。又或者,如果不想佩戴此种设备就直接看到三维的效果,SONY有硬件可以通过追踪人眼观察角度让用户看到画面多个角度:从这边看,就显示这边的视角;从另一边看,就显示另一边的视角,进而感受到三维效果。如果想要像Google Starline一样,能让多个人同时观看到三维效果,那就需要用到光场显示器。比较有代表性的是Looking Glass 8K这个设备。
5.2 多人同时观看多角度显示器
LookingGlass厂商设备具体怎么做的呢?事实上这个技术看起来很高深,但本质很简单:每个像素提供45个观看角度,当用户从相应角度观看就可以看到相应画面。45个角度其实是45个不同的画面,将这些画面按一定顺序输入至设备上,就可以如右下角那样,摇摆显示器就能看到不同的侧面。事实上,这里有45个不同角度的视频在同时显示。不同厂商有不同实践形式,LookingGlass应该是使用棱镜的形式,还有一些会采用纳米膜。不同厂商的设备提供的可视角度会有一定区别。Looking Glass 8K这个产品只能从水平50度角的范围内,平分成45个角度观看,上下移动时是不能看到对方的头顶的,这点和Google的演示还有点类似。我们觉得Google有可能会用类似技术的硬件做展示,但也留意到Looking Glass暂时没有这么大尺寸的显示器,这里推测他们用的是定制设备。
5.3 采集
那我们怎么提供这45个视角的视频呢?最简单的方式,就是用扇形排布的45个摄像头拍摄人物,并将得到的45个角度视频实时传到硬件上,这样就可以完成最粗暴的光场会议。这里可能会存在一些问题,如摄像头要怎样做标定和同步。同时,传输45个视频虽然不是不能做到,但还是比较浪费带宽。Google有篇论文(上图左下角)讲到它如何通过摄像头阵列做到类似事情,感兴趣的同学可以看一下如何减少摄像头的数目做到同样效果。
看回Google Project Starline的宣传图片,它的上下方看起来都有摄像头阵列。我们猜测它的本质还是用这种多摄像头整列做重建。
5.4 重建
事实上,有三种不同的方式做重建。
一是采用虚拟人或者是Avatar的形式(如左上腾讯虚拟人)。用虚拟人可以事先采集人的整体特征,建立模型,再在实时会议上把人的动作表情映射到虚拟人上。缺点是要做大量前处理工作,用起来不方便。
二是零几年到一几年一直流行的“点云”以及面重建技术(右上)。微软对这一技术有很多研究,也有消息说微软的Holoportation团队出来创业后被Google收购了,所以Google也是可能用到类似技术的。
三是最近比较新的基于深度学习的多视角合成技术。多视角合成(左下)技术认为我们采集和传输45个视角太多了。事实上只需要用少量的,例如12个视角,通过一些方式生成剩下视角,就可以重建出这45个视角。这个技术的好处是泛用性较好,比较有代表性的是一个叫NeRF的工作,相关论文讲到如何能通过神经辐射场做到这点。然而,采用该论文的方案,在我们的测试环境上,每次更换场景和人员的时候都需要进行7-8小时的训练,渲染一帧图像也要用超过1分钟的时间,很难在实时会议中落地。在新一点的论文上,会有增加泛用性的一些方案,可以做到场景更普适,渲染时间更短,各位可以留意一下相关的进展。
以上是三套不同的方式来做的重建方案。这边目前不确定Starline用的是哪种方案,也许是三者兼有,欢迎各位讨论。目前比较明确的只有光场显示器是必需品。
以上就是我的全部分享,谢谢大家。