未来5G低延迟、高带宽、广连接的网络环境,为音视频内容在各行业的应用带来了新的变革,也为虚拟现实产业发展提供新的契机。金山云在VR领域持续投入资源,实现了VR+8K的直播端到端全链路解决方案。
文 / 蔡媛(金山云 高级技术总监)
整理 / LiveVideoStack
直播回放:http://mudu.tv/watch/5448453
1. VR背景和市场分析
VR的概念出现于20世纪,但由于技术限制,真正开始是在2014年-2016年,技术初步成熟,引入巨头入场,推动很多应用出现。2016年市场出现小高峰,但由于某些过度炒作或者资本的盲目涌入,导致行业产出水平低于预期,因此在2017年遇到产业低谷。但是从2018年开始,VR全行业的反思后,开始重点投入核心技术的开发和热门应用中,尤其突出表现在游戏、教育领域,使得VR领域的企业和投融资规模都趋于理性发展,自此VR和AR进入全面发展的阶段。
全球VR市场方面,2019年全球资本投入规模超过60亿美元,预计2020年会达到188亿美元。显然,全球对于AR/VR的发展趋于理性化,资本看好游戏、教育等热门应用,AR投融资规模提升较快,资本回流现象普遍,随着苹果、Facebook、谷歌等巨头企业在资本方面的投入进一步引领市场。
国内VR市场方面,2019年前10个月的市场投入规模已经超过2018年全年水平,同时2020年仍在持续升温。中国2019年的投融资规模只占全球16%,预计在2020年将占到全球30%,成为支出规模最大的国家。另外,中国VR/AR融投资增长率达到70%以上。由此可见,国内市场重点在游戏、教育、娱乐直播等行业的发展及落地前景明朗。
2. VR基本概念与原理
VR基本思想:把一个显示器罩在人的眼睛上,人向哪里看,就在显示器里显示对应方向的景物,从而让人感觉自己身处一个无限大的虚拟空间中。
目前市场上的头显主要有两类:头戴式、一体机。
头显主要由四部分组成:
- 处理器:进行计算,画面刷新,图像渲染,姿态定位等的计算核心,至关重要。
- 显示器:画面效果,屏幕分辨率越高对应的图像清晰度就越好,对应的处理器要求就越高。
- 凸透镜:VR眼镜距离人眼很近,需要利用凸透镜将光线折射到视网膜位置,以看清画面。
- 陀螺仪:检测人头部的姿态转动朝向,配合处理器使图像随运动实时变化。
VR自由度(Dof, Degree of freedom):主要分3Dof和6Dof。
- 3Dof:检测头部回转动作,即上下、左右、前后回转动作。
- 6Dof:在3Dof的基础上添加了身体的上下、左右、前后动作。
乔布斯曾提出Retina Display(视网膜分辨率)即为300 PPI的概念。普通设备例如平板或手机等,则利用每英寸像素点(Pixel Per Inch,PPI)评价,当像素达到300 PPI时,则到达人眼识别的最高分辨率。
VR头显的清晰度则以PPD(Pixel Per Degree)每角度像素点来衡量,当每一个角度的像素点达到30 PPD时,人眼则观测不到像素颗粒,若达到60 PPD,则呈现极致观看体验。
视场角(Field of view, FOV):VR眼镜中双目的可视角度。
普通VR眼镜的视场角为90-110度。如果在双目4K分辨率,视场角100度的VR眼镜中观看4K 360度的视频内容,其屏幕PPD为20,则视频内容PPD为11。因此,4K的VR眼镜需要适配8K 360度内容,若要达到完全舒适体验则需要6K眼镜适配12K内容。
3. VR行业痛点与诉求
当4K的眼镜想要达到20PPD则需要8K的视频内容,以达到良好的观看体验,但8K内容的内存非常大,其码率是相同视频质量1080P的16倍,其带宽会达到100Mbps,远超目前下行网络状态的支持。
因此,VR视频行业的痛点:
- 码率大,带宽成本高:VR视频大码率现象造成网络下行带宽成本高。
- 视频卡顿:网络不稳定和带宽不够都会引发视频卡顿。
- 延迟大,诱发晕动症:用户头部转动时数据传输延时大,出现视觉效果与大脑感知不一致,容易诱发晕动症。
- 优质内容匮乏,盗链严重
因此VR视频行业诉求集中于以下几点:
- 高流畅、不卡顿
- 4K/8K超清体验
- 低延迟、高可靠
- 解决晕动症
- 降低带宽、减少成本
- 优质内容、防盗链
4. 金山云VR解决方案
针对前面提及的各种问题,金山云推出VR解决方案,以解决VR全行业的痛点及诉求。
金山云VR解决方案是基于CDN分发平台,提供从VR视频采集到播放的端到端一体化的完整VR点/直播解决方案。该方案融合了金山云的流媒体处理技术,分布式存储和大规模CDN分发能力以及移动端SDK的VR播放能力,同时引入第三方编码和切片技术,从而协助整个方案可以实现端到端全流程。
金山云VR分块传输采用全景视频按照空间划分为若干个子视频块,每个视场角都有对应的高分辨率和低分辨率视频块,再进行编码,分配不同的码率。
利用FOV传输方案:用户视野范围内传输高分辨率,视野范围外传输低分辨率切片,头部转动切换新视角时,新视角的分辨率从低到高转换,旧视角的分辨率从高到低转换,同时保证在转动新旧视角切换时延迟保持在30-60毫秒以内,以消除晕动现象。
金山云VR的SDK支持多平台、多终端适配,同时支持HLS形式直/点播业务,另外接受SDK多种接口开放定制开发。
在流媒体处理过程中,加入了极致高清AI助力VR视频处理和编码技术,通过智能识别场景,自动选择最优编码参数以及适配最佳用户体验,降低码率以达到最大限度节省VR传输带宽,通过智能识别场景再进行智能处理,基于超分技术能力实现AI增强、视频差分以及时空去噪以追求更完美的主观体验效果。同时利用智能码控感知编码实现更好的压缩来降低整体传输带宽。
金山云经过五年的自主研发出符合HEVC标准的KSC265,将KSC265编码技术应用到VR视频中得到了非常好的效果,其极限压缩率可以达到70%,而且压缩的效率和速度的提升都非常明显。
金山云提供了多种防盗方案,可以有效地帮助客户解决优质的AI内容被盗的问题。
5. 金山云VR方案场景与优势
目前,金山云VR直播场景主要应用在娱乐、体育赛事以及会议方面,VR方案技术优势具体如图所示。
在VR视频的全链路中有几项较为关键的核心技术,全链路包括采集、拼接、投影、压缩编码、封装。首先采集方面,由于有比较好的合作伙伴,目前较为紧密的合作伙伴是看到科技,他们提供180度和360度的VR设备以服务于不同的场景,根据不同需求响应选择。
在多目摄像采集之后,需要进行拼接才可以输出画面,拼接的效果会直接影响到用户的观看体验。
拼接的过程首先经过畸变校正,再进行特征匹配,最后进行图像融合,以完成整个图像的拼接,通过金山云方案拼接出的视频整体的效果比较自然和流畅。
编码标准主要是进行2D图像编码,因此需要将采集到的360度视频投影为2D图像以进行编码。例如:将一个球形的世界地图投影为平面世界地图,利用等柱状投影通过三维坐标映射到经纬度坐标,再映射到平面坐标,等柱状投影法虽然简单便捷,但是其缺点是在所有纬线上采用同样的采样点,两极的实际采样点本应只有一个,在等柱状投影中却跟赤道用了同样多的采样点,这样就导致视频出现冗余空间,编码文件过大,还会出现像素点不均匀导致的图像拉伸造成画面失真。
金山云VR视频解决方案将球面投影到立方体中,再将立方体的六个面平铺,再进行编码。
由于展开之后画面可能产生不连续情况,这样就导致编码时需要额外信息以增加编码量,因此做了一些优化工作,例如将Cube-3×2转换成Cube-4×3,增加冗余信息或者调整图像顺序等,保证其连续性。
Cubemap投影的编码在投影时将视频的角度处理为等长,但是投影到正方形过程中,实际上赤道附近的投影小,边缘地方更大。为了均衡,提出等角立方体投影EAC,即投影到正方体之后再进行二次映射,利用反正切函数进行二次映射之后就能均匀像素,确保平面域的像素采样的长度保持一致。经过这些像素处理可以实现更好的编码压缩率,解决了图像失真的问题。
VR全视角传输如果采用全传输的方式势必会造成非常大的网络消耗和浪费,而且在终端解码上需要更多的计算资源。
因此,金山云与和合作伙伴共同提出FOV传输方案,视角范围内传输高质量切片,非视觉区域传输低质量视频切片。对于4K视角FOV是960×960的分辨率,其码率就会降低很多,极大的节省了传输和解码的消耗。
KSC265编码技术,是在行业中声望较高的编码技术,应用在VR视频领域中节省码率和编码速度的优势较为突出。
金山云VR视频的Web端播放是全网独家的能力支持,Web端KSC265解码的播放,并且支持到4K VR FOV视频解码播放能力。
通过EAC投影、KSC265编码、集智高清以及FOV传输能够极大地降低整个传输带宽,理论上最高可以节省98%的带宽,虽然数据很夸张,但是从实验室数据表明该码率节省能力是可达的,这也是整个金山云VR视频解决方案中的一大亮点。
VR视频的评价方式与其它视频的评价方式是有差异的,目前VR视频的评价指标主要是WS-PSNR等,根据视频片所处位置进行一定权重选择,再进行PSNR的比较。
同时金山云VR视频解决方案提供KQoE评测平台(https://kqoe.ksyun.com/),主要进行图像、视频质量评测,目前已开放给客户提供免费服务。另外即将支持VR视频的画质评价,以支持整体VR视频解决方案的落地。
金山云提供的8K VR解决方案的优势主要是:
- 8K下行码率可以压缩到12Mbps
- 4K下行码率可以压缩到3Mbps
- 在现行网络下即可实现,端到端的延迟在25s以内
- 视角切换延时在40ms以内,避免出现晕动问题
- 兼容500+的设备
questions and answers
Q&A环节
Q1:用户在使用VR时还会出现头晕的现象吗?
现在已经不会了,因为我们通过FOV方式将切换视角的延时控制在30-50毫秒以内,因此不会产生晕动现象。
Q2:在直播室中每祯的图像传输如何确定哪个FOV需要高清?
在视全角范围内,人眼可观范围在90度到100度左右需要呈现高清分辨率,则其它范围就不在FOV传输的切片范围。因此主要关注点是人眼可观的角度范围即为传输高清角度范围,对4K视频来讲是960×960的分辨率。
Q3:请问演讲中提到的视频VR直播方案在码率节省这块具体用到了哪些技术?
高清VR直播通常需要很高的码率支持,这极大地提高了传输带宽成本,金山云自主研发的核心技术“集智高清“可以在VR直播中配合使用,通过智能识别直播画面场景,自动选择最优编码参数,以用户最佳视觉体验为前提,智能降低码率,最大限度节省VR视频的传输带宽。
- 智能视频分析:识别直播画面场景;智能分析直播画面内容质量,对人眼敏感部分进行较大程度增强,而对人眼不感知部分进行适当抑制,在降低带宽的同时不影响甚至提升人眼主观体验。
- 智能处理:基于AI的视频超分辨率技术(可以将低清晰低分辨率视频转换为高清晰高分辨率视频);基于AI的画质增强;视频插帧;视频时空去噪等;
- 智能码控:金山云自主开发的智能码率控制算法;Per-title;感知编码等技术
Q4:在拉数据时,视角预测是如何做的?
行业中已经有一些比较成熟的视角预测方案,当用户头部旋转时,可以根据旋转加速度进行预测未来旋转的角度位置,甚至可以根据用户的动作预测转动角度和方向,再根据预测进行拉取相应数据,可以达到很好的预判以及降低延时效果。
Q5:VR直播对网络的需求?
相比传统直播,VR直播内容码率更大,需要高品质网络来确保内容回传和分发过程中视频的高效传输,保障业务体验。当前VR直播主要内容规格的建议码率和带宽如下表所示:
8K VR采用全视角传输时,对VR终端解码能力要求较高;当前具备8K解码能力的终端较少,受限于终端的解码能力,可考虑采用FOV传输方案。以8K 2D VR为例,若采用TWS方案进行FOV传输,低清背景流码率约 6~15Mbps,高清Tile流总和约80Mbps,网络传输的是背景流和FOV视角范围内的高清Tile流,如此一来,终端不再需要解码全部视角的高清视频流,可有效降低终端解码压力。