搜狗发布全球首位 3D AI 主播，背后分身技术有玄机

作者 | 陈利鑫

头图 | CSDN 下载自东方 IC

又是一年两会时间，平时关注新闻的朋友们可能会发现，新华社关于两会的报道，进行消息播送的主持人队伍加入了一位漂亮小姐姐，而这位小姐姐竟然不是真人，而是一个 3D 数字人！

眼前这个神奇的虚拟人，完全可以满足人们对于新闻消息的接收需求了。这不禁让人好奇，这个 3D 虚拟人是什么来头？

原来这位 3D 数字人名叫“新小微”，是搜狗联合新华社推出的全球首位 3D AI 合成主播。以新华社记者赵琬微为原型，由人工智能“克隆”而成。

看这细致入微的表情，丰富的动作，细致的肌肤纹理和瞬间变化的服装，堪比大制作电影中的特效人物。

3D AI 合成主播有哪些特性？

事实上，这已经不是搜狗推出的第一位合成主播了，早在 2018 年 11 月的互联网大会上，搜狗发布全球首个 2D AI 合成主播时就曾引起过巨大的轰动。不到两年，搜狗再次推出 3D AI 合成主播，使其AI合成主播品牌下形成2D和3D两条技术线来并行发展，各显所长。

那3D “新小微”究竟有哪些特点呢？

1) 超写实的高度逼真：

高度还原真人发肤，在特写镜头下，连头发丝和皮肤毛孔都清晰可见；

2) 更高可塑性，更强交互能力、可适用更多空间：

高立体感和层次感：支持多机位景深、支持多样化精微表情播报，播报形态可通过360°全方位呈现；
高灵活性：可走动、转身、可摆出各种复杂动作和姿态；
基于“微模块化”特性，其表情、发型、服饰均能根据不同新闻和场景变换。

3）基于 AI 算法实时驱动：只需输入文本内容，“新小微”就能根据语义实时播报新闻，其表情唇动、肢体动作和语音表达高度契合、自然逼真。

这也是搜狗 3D 合成 AI 区别于电影和游戏特效 CG 技术的主要区别，电影合成技术背后要耗费巨大的人力、财力和时间成本，而搜狗 3D AI合成主播根据输入的文本几乎做到了实时生成视频或视频流。

开创 3D AI 合成主播，背后实现技术有玄机

推出3D 版 AI 合成主播，靠的是搜狗分身技术的不断突破和创新。下面，我们来看一下 3D AI 合成主播的技术实现细节与步骤。

1) 首先，是基于真人原型采集海量数据：

搜狗搜狗 AI 交互技术部总经理陈伟解释，要想实现对模型更加逼真的驱动，主要通过两部分来实现，第一部分在于在采集过程中使用的设备是否能捕捉到更精细的数据，第二部分是做到采集数据后的精准标注，这相当于在整个采集端把数据生产出来。

为了打造“新小微”，真人赵琬微戴着数据采集头盔，几百个摄像头对其身体各个部位进行 360 度全方位“打点”扫描，采集每一处细节，并对其多种形态的表情和动作进行细致入微地捕捉记录，这才有了逼真的既视感。

2) 其次，采用了行业领先的扫描还原算法，以及面部肌肉驱动、表情肢体捕捉等技术，生成高逼真度的 3D 数字人模型。

实现逼真的 3D 效果，关键还在于搜狗在采集过程中设计的一套完整的人体和面部参数。之前的卡通模型多基于 Blend shape（融合变形）方式，但是“新小微”的模型创建更多地用到了肌肉模型，因为肌肉模型更加符合人的生理结构，不同参数之间可以更好地协同，因此，对建模参数进行优化之后，最后的运动效果会更加真实。

“新小微”的 3D 模型具体是如何构建的呢？搜狗技术专家解释到，原来这需要先把静态模型建起来，然后再绑定一下。“新小微”最逼真的部分就是她的脸，搜狗采用了业界最领先的笼式采集装置，里面分布 100 多个摄像头同时拍照，相当于全方位捕捉人脸信息，再通过经验丰富的动画师对结果进行细化，对着写实的图片，把成品模型建出来。这是建模人头的部分。

另外，搜狗对“新小微”的人头、身体采用了肌肉模型绑定，这种方法下需要先构建骨骼模型，然后在骨骼上附着肌肉，再在肌肉上附着表皮，是一个联动的过程。肌肉模型更符合动力学的特征，比如人在跑的时候，肌肉运动时，会带着皮肤做一些微小的动作，之前动画中常用的 Blend shape 方案可以实现整体的动作，但难以把细微的动作表现出来。这是骨骼绑定模型的优势。

对于“新小微”，不管是面部表情还是身体动作的采集，搜狗都采用了业界最领先的技术，并对数据进行专业质检及精修，耗费了很多人力，最终获得优质的的学习数据，直接驱动与真人相比差异变小。

3) 然后，通过搜狗分身的多模态生成算法对 3D 数字人模型进行实时驱动、渲染，使其面部表情唇动、肢体动作和语言表达能力实现了高度契合。

当前，大部分“能动”的 3D 数字人主要是靠真人驱动，而”新小微”播报新闻，却是文本输入，实时“翻译”成语音，也就是说输入文本，经过搜狗的度学习多模态建模方法，可以实时将文本转化为语音，并且实时匹配面部表情和动作。

这背后的方法，是搜狗自研的联合建模方式，但实现这一点并不容易。陈伟介绍到，在这个过程中搜狗遇到过几个问题，第一是如何保证实时、快速地响应，因为“新小微”这个数字人是实时驱动的，需要保证模型本身运算复杂度和延迟要低；

第二是要考虑如何定量用单一模型替代多个模型，因为只有在单一模型下才能有效地确保语音和 3D 数据之间的一致性，如果完全区分开，对齐和匹配需要花费时间，因此，搜狗就做了端到端的多模态合成模型，在端到端的模型下，内部的语音和 3D 之间不是完全割裂的两个输出，把语音合的中间信息。

比如时长等信息同步到 3D 肌肉运动的预测中，共享一部分参数，使得最后生成的语音效果和最后 3D 肌肉运动的效果达成一致，实现高品质效果。接下来，就是如何保证数字人做到实时、低延时的驱动，渲染出来的效果还要超写实，这就涉及到实时渲染驱动的工作，只有把这些动作都做到了，最后才能实现一个逼真的数字人的效果。

相比于靠真人驱动，AI 算法实时驱动具有灵活可控、高效率低成本等优势，比如在 3D 游戏行业，制作一个一分钟的视频，需要花费一个专业的美术师一个月的时间，而基于 AI 驱动的 3D AI 合成主播，却只需要一分钟，几乎可以实时生产，而写实度并不出现下降。这意味着，它未来可能代替游戏产业中关于 3D 制作的工作，大幅降低 3D 人物制作成本。

分身技术突破升级，意义在于推动 AI 落地

搜狗分身”技术让我们切实地看到，机器可以以更逼真自然的形象呈现在用户面前，而不是冷冰冰的“机器人”。

毫无疑问，搜狗是分身技术和AI合成主播的开创者，在这一领域也一直保持着技术上的创新，引领着分身技术的发展方向。

自从搜狗 2018 年推出 2D AI 合成主播“邱小浩”以来，业界迅速掀起一股合成 AI 主播的风潮，比如日本 NHK 电视台 AI 主播“新闻报导子”等等。

随着图像生成引擎的优化，搜狗又带头让 AI 合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”，实现具备多语言能力的多语种播报、能同用户沟通交流的自然交互等能力，让 AI 合成的主播更智能、更自然。

“让 AI 赋能于人”是搜狗的理念，促进 AI落地，推动解放各个产业生产力，更是实现 AI 技术价值的最终落点。

当前，搜狗分身技术在新闻场景中的价值与意义越发凸显，但传媒新闻播报仅是分身技术的应用场景之一。未来，分身技术“大施拳脚”的前景仍非常广阔，将涵盖众多内容表达场景，例如虚拟教师、虚拟医生、虚拟客服、虚拟导游，等等。在解放行业生产力的同时，“搜狗分身”技术还会给用户更好的个性化音视频效果，用 AI 提高生活体验指日可待。

【END】

更多精彩推荐☞雷军：4G 手机已清仓，全力转 5G；QQ音乐播放中途插语音广告引热议；Wine 5.9 发布 | 极客头条☞中国 AI 应用元年来了！
☞新基建东风下，开发者这样抓住工业互联网风口！
☞15 岁黑进系统，发挑衅邮件意外获 Offer，不惑之年捐出全部财产，Twitter CEO 太牛了！
☞避坑！使用 Kubernetes 最易犯的 10 个错误
☞必读！53个Python经典面试题详解
☞赠书 | 1月以来 Tether 增发47亿 USDT，美元都去哪儿了？
你点的每个“在看”，我都认真当成了喜欢

搜狗发布全球首位 3D AI 主播，背后分身技术有玄机相关推荐

【前沿技术】浅析搜狗AI主播背后的核心技术
文章首发于微信公众号<有三AI> [前沿技术]浅析搜狗AI主播背后的核心技术今天是新专栏<前沿技术>,技术的更新迭代实在是太快了,我将在这个专栏给大家解读学术界/工业界最新的 ...
【历史上的今天】11 月 7 日：图灵奖女性得主诞生；Twitter 告别 140 字符时代；首位中国 AI 主播
整理 | 王启隆透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2021 年 11 月 7 日,在 1867 年的今天,居里夫人诞生:居里夫人是法国的著名科学家,研究放射性现象, ...
微信“欲封”百度；AI 主播入职新华社；今日头条遭狠罚 | 极客头条
「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知腾 ...
央视315让AI主播预热，人类主播会失业吗？
今年315晚会多家科技公司被点名过堂,骚扰电话.网络贷款.电子烟--搜狗也在315晚会成功登陆央视,不过却有不同角色. 315晚会开播前,搜狗与央视财经频道联合推出的AI主播"姚小松&quo ...
搜狗发布全球首个手语AI合成主播，用技术造福听障人群
晓查发自凹非寺量子位报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...
百度APP“看听模式”：“AI主播”借道信息流全面落地？
文|曾响铃来源|科技向令说(xiangling0815) "听新闻"的势头正在崛起,除了传统以"有声"为特色的APP,一个内容量级颇高的玩家加入进来--信息流 ...
基于Wav2Lip的AI主播
现在市面上的各种AI主播产品,基本都是基于现有的人物造型,其中包括3D动漫,真人,二次元等等,然后通过对口型的方式进行的,但是这个会有一个问题,对于这种AI主播有个名词叫虚拟数字人,虽然虚拟数字人没有 ...
每日新闻丨英伟达发布全球最小边缘AI超级计算机；IBM开发出全球首个金融服务就绪公有云...
趋势洞察百度CTO王海峰:人工智能已经进入到工业大生产阶段百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...
首位中国AI主播出现但不稀奇，天猫精灵每天都能给你读新闻
世界互联网大会上,AI合成真人主播出现了,这个AI真人主播据说可以24小播报不休息.目前看,AI合成真人主播还没进入普及,只是发了两个概念篇,但其实AI主播为你读新闻已经付了至少500w个家庭,这就是 ...

搜狗发布全球首位 3D AI 主播，背后分身技术有玄机

搜狗发布全球首位 3D AI 主播，背后分身技术有玄机相关推荐

最新文章

热门文章