这是两会上最高科技的主播!不会累、不会失误,逼真得不像AI ... ...

什么样的主播水平,可以担当新华社「两会」新闻播报重任?

这个AI合成主播就可以——坐姿、站姿零失误播报是基操,而且还是3D,360度取景也hold得住。

她叫“新小微”,是全球第一个 3D+AI 合成主播,在两会召开之际上线,为全国观众带来了最新的两会新闻资讯报道。

话不多说,先来看下她的业务能力。

举止端庄,神情自然,近距离镜头前大方得体。

360°多角度取景,无死角完美呈现。

走路进场,站姿报道轻松拿下。

这就是搜狗分身最新的技术进展——基于AI算法实现实时驱动,打造高逼真、高灵活、高可控的3D AI合成主播。


“新小微”的诞生过程

我们先近距离观察一下新小微的细节。

可以看到,在超近镜头下,新小微的发丝、睫毛,甚至是毛孔都是清晰可见。

如此“高清”效果,又是如何打造的呢?

首先,是基于真人原型采集海量数据

新小微的真人原型,是新华社记者赵琬微。

赵琬微戴着数据采集头盔,几百个摄像头对其身体各个部位,360度全方位“打点”扫描。

这样做的目的,是采集每一处细节信息,并对其多种形态的表情和动作,进行细致入微地捕捉记录。

采集完数据过后,便是生成高逼真度的3D 数字人模型。

这个过程中,采用了行业领先的扫描还原算法,以及面部肌肉驱动表情肢体捕捉等技术。

最后,通过搜狗分身端到端多模态生成算法,对3D数字人模型进行实时文本驱动,也就是说,只要给到一个文本,就能输出一个视频或者视频流。

并确保在此基础之上,渲染后的面部表情唇动、肢体动作和语言表达能力,能够实现高度契合。


和游戏、影视中的3D数字人的区别

“新小微”的诞生,或许会让你联想到我们在游戏、影视中经常看到的3D数字人。


然而,“新小微”和这些3D数字人存在两大方面的区别。

首先,3D模型的制作技术不同,带来的逼真效果不同。

很多做写实类型的3D模型,都是采用blendshapp或骨骼动画去完成,做出来的面部表情和身体动作就不是特别逼真。

而搜狗采用的是全球最领先的肌肉模型来完成3D建模,所以每一个肌肉点的运动都会连带着很多面部脸谱协同运动。

从面部表情到肢体动作的细节程度,达到了不亚于,甚至会高于一些影视作品及游戏NPC的写实度。

在高清特写镜头下,3D AI合成主播的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发达到高逼真程度。

并且在AI合成主播讲话的过程中,语音和她的唇动细节之间的配合度,以及她的面部肌肉运动,整体看起来实现了很高的自然度。

同时,在讲话过程中,3D AI合成主播的头动、肩膀、眼神、眨眼等等都非常自然。

其次,是3D数字人驱动方式、成本、效率不同,这一点格外重要。

3D AI合成主播靠AI算法实时驱动,输入一个文本就能输出一个视频或者视频流。

并且其效率极高——若是要生成一个1分钟的视频,输入文本后,生成只需要1分钟,可以说,几乎达到了实时生成的效果。

反观游戏行业及电影行业,大多是靠人工做驱动,才能实现一个高写实的3D模型。这就导致需要投入大量的人力、财力成本。

例如,扫描一个人物,再投入大量的人工采集他讲的每一个字、每一个发音、每一个动作。而后靠美术师自己勾画出来,一点一点地提升写实度。

以这种制作过程,来完成一个小时的3D写实度视频,大约需要花费几千万人民币。

再者,如现在市面上一些比较火的卡通效果,如洛天依,大多都是通过真人采集,没有做到真正意义上的AI驱动

业内类似的3D数字人,还有像今年CES中,三星的NEON.Life项目。

虽然三星的这项技术在面部细节还原方面达到了高逼真度,但是其在整体面部、肢体的协调性等方面还是具有一定的缺陷。

可以看到,三星NEON.Life项目中的数字人,在说话的过程中,只有面部肌肉在动,而身体是一直保持一个动作不变。

而在刚才的展示中,“新小微”从进场到站姿播报,表情、唇动、语言、肢体动作,都是一气呵成、自然协调。

再来看一个细节。

这个3D人在完成扭头动作时,由于脖子、肩膀不能完成“联动”,所以效果上会比较“诡异”。

而在游戏、影视,甚至是同行3D数字人中存在的缺陷,搜狗通过开创性的AI技术,将其逐一攻克。


不是迭代,而是两条赛道并行走

说搜狗是AI合成主播的开创者,一点也不足为过。

其实,早在2018年开始,便采用搜狗分身技术,联合新华社发布全球首个AI合成主播

真人?AI?傻傻分不清。

但需要强调的一点是,搜狗的3D AI合成主播,并不是基于此前2D合成主播的升级、迭代。

而是两条赛道并行走

2D的AI合成主播技术已经在许多场景中落地,例如新闻主播“雅妮”、“AI虚拟法官”,以及虚拟审核客服等等。

而随着数字人这一概念的兴起,搜狗基于已有的AI技术,与3D技术相结合,便推出了此次的3D AI合成主播。

二者是处于“搜狗分身”体系下的并行发展路线,正如在量子位采访过程中,搜狗AI交互技术部总经理陈伟表示:

2D的写实度比3D略高一些,但是3D的灵活性更高一点。

基于路线探讨,我们还是区分了2D和3D,同时在底层算法上也做了充分的打通。


搜狗分身的下一步

从2D的AI分身,到现在3D的进化,背后不仅是技术、产品在场景落地上的不断探索和精益求精。

也是搜狗在其AI战略执行线上的不断推进。

众所周知,自2016年以来,搜狗就确定了以语言为核心的自然交互+知识计算路线,而AI分身类产品,核心发展目标就是打造像人一样的自然交互,并且拥有强大的知识计算能力。

2D和3D的AI合成主播,正在从“表达式”向“交互式”发展,这背后要基于强大的知识理解和计算能力。

这也是全球目前及下一阶段最前沿的“数字人”的核心技术竞争力所在。

相比三星在CES上的Demo展出,搜狗已将AI合成主播实现了重要场合、重要岗位和重要任务场景上的商用。

这既是产品成熟度的自信,也是背后的技术自信。

或许要不了多久,真正的“数字人”,将不再局限于数字世界。


发布时间:2020年05 月26日

服务 SERVICE

全平台互联网解决方案

  • 全平台应用
  • 响应式网站
了解更多

微信

微信二维码

合作伙伴 PARTNERS

华三科技 重庆移通学院 影创科技 昌辉集团 雷科电气 中睿政和 国际文化艺术交流中心 海娜国 猪八戒网 阿里云 腾讯云 七牛云 又拍云 新网 华三科技 重庆移通学院 影创科技 昌辉集团 雷科电气 中睿政和 国际文化艺术交流中心 海娜国 猪八戒网 阿里云 腾讯云 七牛云 又拍云 新网

Loading