Facebook超采样技术公布:16倍稳定输出,无软硬件约束
VR实时渲染提出了一系列独特的挑战,其中最主要的是支持图片级真实感效果,实现更高的分辨率,并达到比以往任何时候都更高的刷新率。为了应对这一问题,Facebook Reality Labs(FRL)的研究人员开发了DeepFocus。这个于2018年12月首次亮相的渲染系统主要是利用人工智能在变焦头显中创建超逼真的视觉效果。团队将在今年的SIGGRAPH大会介绍研究的下一篇章,并表示它将开启为虚拟现实创造未来高保真显示器的全新里程碑。
将在SIGGRAPH大会介绍的论文名为“Neural Supersampling for Real-time Rendering(用于实时渲染的神经超采样)”介绍一种可以将低分辨率输入图像转换为高分辨率输出的机器学习方法。这种upsampling(上采样)过程利用了神经网络并以场景统计进行训练,从而能够恢复清晰的细节,同时节省在实时应用程序中直接渲染所述细节的计算开销。
上面的GIF动图比较了低分辨率颜色输出和神经超采样方法实现的16x超采样输出。
1. 研究的是什么?
为了降低高分辨率显示器的渲染成本,FRL使用的输入图像的像素比期望输出少16倍。例如,如果目标显示器的分辨率为3840×2160,FRL的神经网络将以游戏引擎渲染的960×540分辨率输入图像着手,并作为一种实时后处理过程将其upsample(上采样)至目标显示分辨率。
尽管社区已经存在大量关于摄影图像的机器学习upsampling(上采样)研究,但没有一个直接谈及渲染内容(如游戏引擎生成的图像)的独特需求。这是由于渲染图像和摄影图像在图像形成方面的根本区别。在实时渲染中,每个采样点在空间和时间上都是一个点。所以渲染内容通常是高度锯齿,会产生锯齿状的线条和其他采样伪影。对于这一点,你可以参阅本文的低分辨率输入示例。这使得渲染内容的upsampling上采样既是一个抗锯齿问题,同时又是一个内插问题,不同于已得到计算机视觉领域充分研究的去噪和去模糊问题。对于输入图像高度锯齿,以及需要插值的像素完全丢失信息这一事实,这为渲染内容生成高保真和时间相干重建提出了重大挑战。
用作神经超采样方法输入的示例渲染属性以低分辨率渲染,包括颜色、深度和密集运动矢量。
另一方面,在实时渲染中,我们可以拥有的不仅只是摄像头生成的彩色图像。正如DeepFocus所示,现代渲染引擎中可以同时提供深度值等附加信息。FRL研究人员发现,对于神经超采样,由运动矢量提供的附加辅助信息特别有效。运动矢量定义了序列帧中像素之间的几何对应关系。换言之,每个运动矢量指向一个亚像素位置,其中在一帧中可见的曲面点可能已经出现在上一帧中。所述值通常是利用计算机视觉方法进行估计,但这种光流估计算法容易出错。相比之下,渲染引擎可以直接生成密集运动矢量,从而为应用于渲染内容的神经超采样提供可靠的、丰富的输入。
FRL的方法是以上述观察作为基础,同时结合额外的附加信息,以及一个旨在最大限度提高图像和视频质量并提供实时性能的全新时空神经网络设计。
腾讯文档下载:Neural Supersampling for Real-time Rendering
在推理时,神经网络以低分辨率渲染当前帧和多个先前帧的渲染属性作为输入,如每帧的颜色、深度贴图和密集运动矢量。网络的输出是与当前帧相对应的高分辨率彩色图像。网络采用监督学习的方法进行训练。在训练时,提供采用抗锯齿函数并以高分辨率渲染,同时与每个低分辨率输入帧配对的参考图像,将其作为训练优化的目标图像。
示例结果:从上到下是低分辨率颜色输入;所介绍方法的16x超采样结果;以及离线渲染的目标高分辨率图像。
示例结果:从上到下是低分辨率颜色输入;所介绍方法的16x超采样结果;以及离线渲染的目标高分辨率图像。
示例结果:从左到右是低分辨率颜色输入;所介绍方法的16x超采样结果;以及离线渲染的目标高分辨率图像。
2. 下一步计划
FRL团队表示:“神经渲染在AR/VR中有着巨大的潜力。尽管这一问题具有挑战性,但我们希望鼓励更多的研究人员在这方面开展研究。随着AR/VR显示器向着更高分辨率、更快帧速率和更高真实感的方向发展,神经超采样方法可能是从场景数据中推断出清晰细节而非直接渲染的关键。这项研究为未来的高分辨率VR指明了方向,不仅仅是关于显示器,同时包括实际驱动所需的算法。”
来源:映维网