逼真面部搞怪表情！Facebook升级VR化身技术Modular Codec Avatars

Facebook的研究机构Facebook Reality Labs（FRL）一直在引领虚拟化身的研发工作，并致力于实现足以超越“恐怖谷效应”的效果。FRL的一项全新研究探索了新颖的面部表情支持，从而允许朋友在虚拟现实中准确地看到你的搞怪鬼脸。

如今，VR中的大多数虚拟化身都是卡通风格而非类人风格。这主要是为了避免“恐怖谷”问题：拟人程度达到一定程度的时候，人类的反映会突然变得负面。

1. 前任项目：Codec Avatars

Facebook Reality Labs的“Codec Avatar”项目旨在结合机器学习和计算机视觉，创建用户的超逼真复刻呈现，从而跨越恐怖谷效应。研究人员主要是训练系统理解一张人脸，然后再根据头显摄像头的输入来重现表情。这个项目已经展示过令人印象非常深刻的结果。

精确再现典型的面部姿态已经是一个巨大挑战，然后你又要需要处理无数的边缘情况，而任何一个都可能会令整个系统崩溃，并令虚拟化身回到恐怖谷效应。

Facebook的研究人员指出，最大的挑战是“对所有潜在（面部）表情制定一个统一的样本是不切实际的事情”，因为人脸变化有太多不同的方式。最终，这意味着系统的样本数据将存在一个缺口，这样它在看到新的面容时就会感到困惑。

2. 继任项目：Modular Codec Avatars

来自多伦多大学、Vector Institute和Facebook Reality Labs的研究人员Hang Chu, Shugao Ma, Fernando De la Torre, Sanja Fidler和Yaser Sheikh在名为“Expressive Telepresence via Modular Codec Avatars（通过Modular Codec Avatars实现表情临场感）”的新发表论文中提出了一个解决方案。

最初的Codec Avatar系统是将数据集中的整个面部表情与所看到的输入相匹配，而Modular Codec Avatar系统则是根据诸如眼睛和嘴巴等单个面部特征来划分任务，从而使其能够通过融合数个不同姿态的最佳匹配来合成最精确的面容姿态。

在Modular Codec Avatars中，模块化编码器首先在每个头显摄像头视图内提取信息。接着是一个模块合成器，它会根据从同一模块分支提取的信息来估计一个完整的面部表情及其混合权重。最后，聚合不同模块的多个估计三维人脸并形成最终的人脸输出。

团队的目标是优化表情范围，不需要向系统提供更多的训练数据即可精确地将其呈现。可以说，Modular Codec Avatar系统的目的是为了更好地推断出一张面容应该是什么样子，而原来的Codec Avatar系统则更多地依赖于直接比较。

3. 扮鬼脸的挑战

所述方法的一个主要优势是，其提高了系统重现新面部表情的能力，而这一点并没有针对相关表情进行训练，比如当人们故意以有趣的方式摆弄脸庞时。研究人员在论文中指出了这种特殊的优势：“做出有趣表情是社交活动的一部分。由于表现力更强，Modular Codec Avatar模型可以自然地，更好地促进这项任务。”

他们在测试中随机改变完全不同姿势的面部特征，如左眼{pose A}，右眼{pose B}，嘴巴{pose C}，并观察系统是否能在给定不同的特征输入下产生逼真的结果。