
看着“街头舞3”时我找不到我的偶像? Youku:没有大问题,请使用“自由视角”。
说到经典电影“ The Matrix”,您仍然还记得男性主角Neo躲过子弹的场景吗?
也许是因为这张照片是如此令人印象深刻,即使基努·里夫斯(Keanu Reeves)经常“在街上缠扰”,他仍然是许多人心中的男性神。
因此,通过摄影技术实现的模拟速度变化效果被称为“子弹时间”。
在上个世纪,此类场景的生产方法相对复杂,它需要一排摄像机拍摄,然后将每个相机拍摄的照片叠加在一起以生成视频。本质上,“子弹时间”意味着时间接近静态时间,从而形成了强烈的视觉影响。
当然,已经过去了很多年了,生产技术和“子弹时间”的水平也经历了许多迭代,并从“固定框架观看”到“视频观看”取得了飞跃。随着5G技术的普及和实施,一种称为“自由视角”的视频交互技术逐渐进入了公众的愿景。
什么是“自由视角”?
首先,我们可以从6DOF(6个自由度)的VR领域中的共同概念开始。当一个物体在太空中移动时,有六个不同的自由度,包括从正面到后,从左到右,向下,向下,以及三个自由度的自由度,以及对应于点头,摇动和倾斜的三个自由度。
严格来说,子弹时间是2D视频,更多地关注后期制作。至于6DOF视频,用户可以在观看过程中通过手指拖动选择视角和位置。尽管相机是线性的,但可以在不依赖原始相机位置的情况下上下调整它,包括特写镜头中字符的特写镜头和长距离视图中的全景图像。
2019年,Youku将6DOF视频技术应用于国内体育赛事(例如CBA揭幕战),冻结射击屏幕,并通过多个观点展示运动员的相对位置关系和动作,从而带来更多的现场观看体验。
与传统的视频互动方法相比,6DOF视频的优点很明显:首先,“脚可以移动”,用户可以实际上可以移动观看位置。其次,“可以移动”会通过某些手势影响视频内容屏幕本身。
让我们看一下玩家拍摄的那一刻:触摸屏幕将使整体场景保持不变,从而获得更精致的观看体验。
在今年的综艺节目“ This!在“故事舞”的第三季中,Youku应用程序还启动了一种新的互动功能,称为“ FVV”,用户可以用手指在屏幕上自由滑动,以查看参赛者的表演的更多细节。
“自由透视技术”和6DOF视频之间有什么概念区别?简而言之,6DOF视频是一种“内部”观看方法,它以用户为中心,显示了转化自由和旋转自由。免费的观看技术可以理解为“外部”查看方法,乍一看更像是3D游戏的操作方法。因此,自由观点的技术也非常适合综艺节目,体育,电影和电视以及其他场景,带来了免费,身临其境的三维互动体验。
在启动了如此高度的互动功能之后,阿里巴巴娱乐Moku实验室还首次引入了自由关注技术的幕后整个解决方案。据报道,自由关注技术互动的生产包括软件和硬件,云三维重建,视频压缩和传输,客户视图重建,视频标准构造和其他链接。
“ Street Dance 3”是中国第一个为C-End用户开放免费的技术互动体验的综艺节目。从现场照片的录制来看,在舞台周围安装了40多个专用摄像头,以形成阵列采集屏幕,在各个方向上记录每个激动人心的动作,并实现毫秒同步。自由观点的技术可以完全证明街头舞蹈中跳舞的魅力,与此同时,它需要对参赛者的高要求,每个人的面部表情和动作都必须到位。
值得一提的是,这项技术也将在明年年初的北京冬季奥运会的测试比赛中使用。
技术链接
根据Alibaba Entertainment Moku实验室的说法,免费技术的布局主要分为以下主要部分,涵盖了内容拍摄,生产以及用户终端交互的完整链接。
系统体系结构图。
现场拍摄:软件和硬件解决方案
实际上,对于自由观看技术,拍摄和获取是标准化的最困难的部分。作为整体技术链接的第一个链接,拍摄和获取在内容的呈现效果和随后的算法效果中起着至关重要的作用。与独立射击相比,相机阵列的现场控制将有更高的要求。
为此,阿里巴巴娱乐公司Moku实验室设计了一套现场软件和硬件解决方案,考虑了高稳定性和易用性。该技术与传统的密集相机阵列动态流动方法不同。在稀疏相机的条件下,它可以对用户的应用产生非常好的多观看效果,目前是行业中最具成本效益的解决方案。同时,在传输级别上,它还可以解决由密集相机阵列过多的数据量引起的相互作用范围有限的问题。
目前,相机阵列射击系统可以支持50+相机视频录制的毫秒同步,并且可以通过统一的遥控器设置和验证相机阵列中的所有相机,从而大大加快了现场部署和调试时间。
除硬件外,阿里巴巴娱乐公司Moku实验室还开发了一个软件系统,具有完全图形的界面来管理现场解决方案。该系统的稳定性已达到商业应用水平。在CBA场景和Youku的自制综艺节目场景中,已经稳定运行了70多个场景,允许非专业技术人员在现场控制和调试复杂的相机阵列系统。
软件和硬件解决方案还包括现场软件和云计算之间的通信协议。在现场软件执行相机视频和图像的实时流中,可以将其直接上传到云中以生产和验证三维视频效果。现场人员可以立即看到效果并及时进行调整,从而使现场解决方案成为高度可用的质量管理闭环。
云三维重建系统
为了生成高质量的交互式立体视频,可以满足业务及时需求的高质量重建算法和大规模生产系统至关重要。
在娱乐应用程序中,实施和商业化三维重建技术的困难在于,需要全面考虑算法选择和端到端实施路径。例如,在选择三维表达形式时,点云和深度解决方案都是解决方案。由于目前Point Cloud具有大量数据,因此它没有成熟的编解码器标准和硬件解码支持。此外,点云无法为场景集和诸如综艺节目之类的光线现实主义恢复实现良好的建模。因此,就技术路径而言,阿里巴巴娱乐Moku实验室采用了基于深度的三维表达。
但是,基于深度的路线本身也有自己的困难。综艺节目的场景非常复杂。每个节目都有不同的设计,用于舞台设计,照明,舞蹈动作等。如果算法对不同的场景具有强大的功能,则需要端到端的系统考虑。
从算法处理中,三维重建取决于现场摄像机阵列收集的图像。因此,要满足重建的质量要求,必须考虑许多问题:部署现场摄像头阵列的形状是什么?如何设计相机密度?如何考虑相机和射击场景之间的距离?相机的射击高度,角度和舞台之间有什么关系?如何减少浓度的光干扰?这些预先考虑将影响重建算法的质量,并且有必要在实践中找到最佳解决方案。
获得获得的图像后,算法本身也需要在各个方面进行调整。小物体,复杂的闭塞区域,照明变化,快速运动模糊,时域稳定性和其他问题都是三维重建的困难问题。该解决方案中的重建算法通过整合传统的匹配算法,图像细分,多视图三维信息,重建稳定区域分析以及多分辨率重建融合,深度学习,深度学习和其他策略来大大改善上述问题。
如果将来查看重建算法,我们还必须考虑压缩传输的带宽和客户端渲染的性能。通过大量的实验分析,阿里巴巴娱乐Moku实验室采用了深入信息采样策略,并采用了定制的编码策略来进行深度地图以压缩信息,以至于用户带宽当前可以承受,以便对用户终端实现良好的演示效果。目前,所有这些技术均已获得专利。
通过持续的业务实践,目前在商业层面上,系统重建算法的有效性和生产及时性和稳定性。 Alibaba Entertainment Moku Lab结合了不同的业务场景,以连续抛光和自定义各种算法策略,以适用于CBA和Youku自制综艺节目(例如“这是街头舞蹈”和“这就是Slam slam Dunk”),以便算法效应可以在不同场景中达到理想的状态。同时,为了控制复杂系统的端到端算法效应,用户终端交互链接在云中完全模拟,并构建了全链接算法模拟验证平台。通过此平台,可以通过算法模拟在云中100%验证用户终端所看到的实际效果,从而确保终端用户看到的实际图像质量。
由于三维重建算法需要大量的计算能力,因此阿里巴巴娱乐Moku实验室在云中部署了超过30 GPU的计算集群,以重建和制作高分子的综艺节目和体育场景的射击材料。例如,在典型的高级应用程序(例如CBA篮球场景)中,进球后需要立即播放三维视频的特殊效果。当前的云并发处理系统可以实现准真实的时间(延迟10s)的生产,这可以满足运动现场导演的要求。相关效果已在CCTV CCTV5的CBA实时广播中多次应用。
此外,对于在时空和空间中交互式立体声视频的重建稳定性,为了在算法方面追求最终体验,阿里巴巴娱乐Moku实验室还整合了一些更复杂的时空和时空稳定性增强策略。当前,正在应用和尝试的方法包括学习,通过深度学习模型和传统算法的融合,在时空和空间中获得更稳定的重建结果;同时,团队还在探索具有更好的时空稳定性限制的算法。
视频压缩和传输
对于自由视图视频的压缩传输,主要困难是确保终端可以重建高质量的图像,同时还考虑了当前终端的解码功能和传输带宽。这也是一个需要深入优化的技术问题。阿里巴巴娱乐公司Moku实验室根据纹理和深度拼接采用3D场景表达式,适应现有的视频压缩标准,并为深度图压缩的特殊性提供了相对深入的定制优化。
深度图的压缩有两个困难:第一个是深度图表示数据大,重建深度图分辨率与纹理图分辨率完全相同,因此有必要考虑如何减少深度图分辨率,并且在同一时间,它不会对终端的视点重新构造造成重大损失。第二个是深度图对压缩损失敏感,尤其是对象的边缘部分。深度图通常变化很大。由于量化,一般压缩参数很容易导致深度图的边缘部分丢失,这严重影响了终端视图重建的图像质量。
In response to the first problem, Alibaba Entertainment Moku Laboratory proposed an algorithm for cloud downsampling + terminal upsampling, which can reduce the resolution of the depth map to up to 1/16 of the texture map before the cloud compression, and then reconstruct the viewpoint after the terminal is upsampled to the same resolution as the texture map, and continuously optimizes the algorithm so that there is no significant丧失重建质量;为了应对第二个问题,阿里巴巴娱乐Moku实验室提出了一种基于深度图区域ROI编码的方法,因此可以有效地控制编码深度图的量化损失,并且代码速率将无法得到很大改善。
在视频传输方面,阿里巴巴娱乐公司Moku实验室已经开发了一组云和结束的集成视频传输协议,以应对实际业务所需的灵活性和普遍性。该协议可以支持不同的现场采集摄像头计数和布局,不同的终端交互范围设计以及通过云和最终协议协议具有不同分辨率的交互式三维视频。这组自开发的传输标准可以确保任何终端在解析协议后都可以交互和播放。
实现“自由视角”:生于5G
目前,Youku为高端和中低端手机用户提供两种不同的体验。 “ Street Dance 3”的一些观众可能会发现Youku推出的“自由视角”功能仅支持70度互动范围。这是因为该技术仍然对手机性能和网络条件有某些要求。
以客户视点重建为例,由于需要在终端完成用户交互的任何观点重建,因此算法的及时性和低功耗也是非常重要的影响因素。用外行的话来说,即使是中和低端手机的观看体验也必须平稳,并最大程度地减少体内的热量。
从当前的工作来看,在对移动视图重建算法进行深入优化之后,当前版本可以涵盖市场上的主流模型。但是要体验150度的互动,您可能需要5G手机。
150度相互作用范围。
随着5G的广泛应用,自由观看技术还将输入更多的视频程序并发挥更大的作用。财务自由可能很困难,但是实现“透视自由”的即将到来。也许在不久的将来,每个观众都可以“不离开家”,而是“沉浸式”。