作者 | 陈利鑫

头图 | CSDN 下载自东方 IC

又是一年两会时间,平时关注新闻的朋友们可能会发现,新华社关于两会的报道,进行消息播送的主持人队伍加入了一位漂亮小姐姐,而这位小姐姐竟然不是真人,而是一个 3D 数字人!

眼前这个神奇的虚拟人,完全可以满足人们对于新闻消息的接收需求了。这不禁让人好奇,这个 3D 虚拟人是什么来头?

原来这位 3D 数字人名叫“新小微”,是搜狗联合新华社推出的全球首位 3D  AI 合成主播。以新华社记者赵琬微为原型,由人工智能“克隆”而成。

看这细致入微的表情,丰富的动作,细致的肌肤纹理和瞬间变化的服装,堪比大制作电影中的特效人物。


3D AI 合成主播有哪些特性?

事实上,这已经不是搜狗推出的第一位合成主播了,早在 2018 年 11 月的互联网大会上,搜狗发布全球首个 2D AI 合成主播时就曾引起过巨大的轰动。不到两年,搜狗再次推出 3D   AI 合成主播,使其AI合成主播品牌下形成2D和3D两条技术线来并行发展,各显所长。

那3D “新小微”究竟有哪些特点呢?

1) 超写实的高度逼真:

高度还原真人发肤,在特写镜头下,连头发丝和皮肤毛孔都清晰可见;

2) 更高可塑性,更强交互能力、可适用更多空间:

  • 高立体感和层次感:支持多机位景深、支持多样化精微表情播报,播报形态可通过360°全方位呈现;

  • 高灵活性:可走动、转身、可摆出各种复杂动作和姿态;

  • 基于“微模块化”特性,其表情、发型、服饰均能根据不同新闻和场景变换。

3)基于 AI 算法实时驱动:只需输入文本内容,“新小微”就能根据语义实时播报新闻,其表情唇动、肢体动作和语音表达高度契合、自然逼真。

这也是搜狗 3D 合成 AI 区别于电影和游戏特效 CG 技术的主要区别,电影合成技术背后要耗费巨大的人力、财力和时间成本,而搜狗 3D AI合成主播根据输入的文本几乎做到了实时生成视频或视频流。

开创 3D AI 合成主播,背后实现技术有玄机

推出3D 版 AI 合成主播,靠的是搜狗分身技术的不断突破和创新。下面,我们来看一下 3D AI 合成主播的技术实现细节与步骤。

1) 首先,是基于真人原型采集海量数据:

搜狗搜狗 AI 交互技术部总经理陈伟解释,要想实现对模型更加逼真的驱动,主要通过两部分来实现,第一部分在于在采集过程中使用的设备是否能捕捉到更精细的数据,第二部分是做到采集数据后的精准标注,这相当于在整个采集端把数据生产出来。

为了打造“新小微”,真人赵琬微戴着数据采集头盔,几百个摄像头对其身体各个部位进行 360 度全方位“打点”扫描,采集每一处细节,并对其多种形态的表情和动作进行细致入微地捕捉记录,这才有了逼真的既视感。

2) 其次,采用了行业领先的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术,生成高逼真度的 3D 数字人模型。

实现逼真的 3D 效果,关键还在于搜狗在采集过程中设计的一套完整的人体和面部参数。之前的卡通模型多基于 Blend shape(融合变形)方式,但是“新小微”的模型创建更多地用到了肌肉模型,因为肌肉模型更加符合人的生理结构,不同参数之间可以更好地协同,因此,对建模参数进行优化之后,最后的运动效果会更加真实。

“新小微”的 3D 模型具体是如何构建的呢?搜狗技术专家解释到,原来这需要先把静态模型建起来,然后再绑定一下。“新小微”最逼真的部分就是她的脸,搜狗采用了业界最领先的笼式采集装置,里面分布 100 多个摄像头同时拍照,相当于全方位捕捉人脸信息,再通过经验丰富的动画师对结果进行细化,对着写实的图片,把成品模型建出来。这是建模人头的部分。

另外,搜狗对“新小微”的人头、身体采用了肌肉模型绑定,这种方法下需要先构建骨骼模型,然后在骨骼上附着肌肉,再在肌肉上附着表皮,是一个联动的过程。肌肉模型更符合动力学的特征,比如人在跑的时候,肌肉运动时,会带着皮肤做一些微小的动作,之前动画中常用的  Blend shape 方案可以实现整体的动作,但难以把细微的动作表现出来。这是骨骼绑定模型的优势。

对于“新小微”,不管是面部表情还是身体动作的采集,搜狗都采用了业界最领先的技术,并对数据进行专业质检及精修,耗费了很多人力,最终获得优质的的学习数据,直接驱动与真人相比差异变小。

3) 然后,通过搜狗分身的多模态生成算法对 3D 数字人模型进行实时驱动、渲染,使其面部表情唇动、肢体动作和语言表达能力实现了高度契合。

当前,大部分“能动”的 3D 数字人主要是靠真人驱动,而”新小微”播报新闻,却是文本输入,实时“翻译”成语音,也就是说输入文本,经过搜狗的度学习多模态建模方法,可以实时将文本转化为语音,并且实时匹配面部表情和动作。

这背后的方法,是搜狗自研的联合建模方式,但实现这一点并不容易。陈伟介绍到,在这个过程中搜狗遇到过几个问题,第一是如何保证实时、快速地响应,因为“新小微”这个数字人是实时驱动的,需要保证模型本身运算复杂度和延迟要低;

第二是要考虑如何定量用单一模型替代多个模型,因为只有在单一模型下才能有效地确保语音和 3D 数据之间的一致性,如果完全区分开,对齐和匹配需要花费时间,因此,搜狗就做了端到端的多模态合成模型,在端到端的模型下,内部的语音和 3D 之间不是完全割裂的两个输出,把语音合的中间信息。

比如时长等信息同步到 3D 肌肉运动的预测中,共享一部分参数,使得最后生成的语音效果和最后 3D 肌肉运动的效果达成一致,实现高品质效果。接下来,就是如何保证数字人做到实时、低延时的驱动,渲染出来的效果还要超写实,这就涉及到实时渲染驱动的工作,只有把这些动作都做到了,最后才能实现一个逼真的数字人的效果。

相比于靠真人驱动,AI 算法实时驱动具有灵活可控、高效率低成本等优势,比如在 3D 游戏行业,制作一个一分钟的视频,需要花费一个专业的美术师一个月的时间,而基于 AI 驱动的 3D AI 合成主播,却只需要一分钟,几乎可以实时生产,而写实度并不出现下降。这意味着,它未来可能代替游戏产业中关于 3D 制作的工作,大幅降低 3D 人物制作成本。

分身技术突破升级,意义在于推动 AI 落地

搜狗分身”技术让我们切实地看到,机器可以以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。

毫无疑问,搜狗是分身技术和AI合成主播的开创者,在这一领域也一直保持着技术上的创新,引领着分身技术的发展方向。

自从搜狗 2018 年推出 2D AI 合成主播“邱小浩”以来,业界迅速掀起一股合成 AI 主播的风潮,比如日本 NHK 电视台 AI 主播“新闻报导子”等等。

随着图像生成引擎的优化,搜狗又带头让 AI 合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,实现具备多语言能力的多语种播报、能同用户沟通交流的自然交互等能力,让 AI 合成的主播更智能、更自然。

“让 AI 赋能于人”是搜狗的理念,促进 AI落地,推动解放各个产业生产力,更是实现 AI 技术价值的最终落点。

当前,搜狗分身技术在新闻场景中的价值与意义越发凸显,但 传媒新闻播报仅是分身技术的应用场景之一。未来,分身技术“大施拳脚”的前景仍非常广阔,将涵盖众多内容表达场景,例如虚拟教师、虚拟医生、虚拟客服、虚拟导游,等等。在解放行业生产力的同时,“搜狗分身”技术还会给用户更好的个性化音视频效果,用 AI 提高生活体验指日可待。

【END】

更多精彩推荐☞雷军:4G 手机已清仓,全力转 5G;QQ音乐播放中途插语音广告引热议;Wine 5.9 发布 | 极客头条☞中国 AI 应用元年来了!
☞新基建东风下,开发者这样抓住工业互联网风口!
☞15 岁黑进系统,发挑衅邮件意外获 Offer,不惑之年捐出全部财产,Twitter CEO 太牛了!
☞避坑!使用 Kubernetes 最易犯的 10 个错误
☞必读!53个Python经典面试题详解
☞赠书 | 1月以来 Tether 增发47亿 USDT,美元都去哪儿了?
你点的每个“在看”,我都认真当成了喜欢

搜狗发布全球首位 3D AI 主播,背后分身技术有玄机相关推荐

  1. 【前沿技术】浅析搜狗AI主播背后的核心技术

    文章首发于微信公众号<有三AI> [前沿技术]浅析搜狗AI主播背后的核心技术 今天是新专栏<前沿技术>,技术的更新迭代实在是太快了,我将在这个专栏给大家解读学术界/工业界最新的 ...

  2. 【历史上的今天】11 月 7 日:图灵奖女性得主诞生;Twitter 告别 140 字符时代;首位中国 AI 主播

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2021 年 11 月 7 日,在 1867 年的今天,居里夫人诞生:居里夫人是法国的著名科学家,研究放射性现象, ...

  3. 微信“欲封”百度;AI 主播入职新华社;今日头条遭狠罚 | 极客头条

    「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 腾 ...

  4. 央视315让AI主播预热,人类主播会失业吗?

    今年315晚会多家科技公司被点名过堂,骚扰电话.网络贷款.电子烟--搜狗也在315晚会成功登陆央视,不过却有不同角色. 315晚会开播前,搜狗与央视财经频道联合推出的AI主播"姚小松&quo ...

  5. 搜狗发布全球首个手语AI合成主播,用技术造福听障人群

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看央视新闻,你一定对"段子手"朱广权逼疯手语老师的画面印象深刻吧. 手语新闻帮助听障人群更好地了解这个世界. 可是你有没 ...

  6. 百度APP“看听模式”:“AI主播”借道信息流全面落地?

    文|曾响铃 来源|科技向令说(xiangling0815) "听新闻"的势头正在崛起,除了传统以"有声"为特色的APP,一个内容量级颇高的玩家加入进来--信息流 ...

  7. 基于Wav2Lip的AI主播

    现在市面上的各种AI主播产品,基本都是基于现有的人物造型,其中包括3D动漫,真人,二次元等等,然后通过对口型的方式进行的,但是这个会有一个问题,对于这种AI主播有个名词叫虚拟数字人,虽然虚拟数字人没有 ...

  8. 每日新闻丨英伟达发布全球最小边缘AI超级计算机;IBM开发出全球首个金融服务就绪公有云...

    趋势洞察 百度CTO王海峰:人工智能已经进入到工业大生产阶段 百度首席技术官(CTO)王海峰在第二届中国国际进口博览会上表示,人工智能已经不仅仅是新的生产力,已经进入到工业大生产阶段.他介绍,百度人工 ...

  9. 首位中国AI主播出现但不稀奇,天猫精灵每天都能给你读新闻

    世界互联网大会上,AI合成真人主播出现了,这个AI真人主播据说可以24小播报不休息.目前看,AI合成真人主播还没进入普及,只是发了两个概念篇,但其实AI主播为你读新闻已经付了至少500w个家庭,这就是 ...

最新文章

  1. 关于Oracle数据库19c中的关键字和保留字的说明
  2. 专访阿里达摩院聂再清:不能让每个人无差别享受AI,是程序员的耻辱
  3. 尽快卸载这两款恶意浏览器插件!已有近50万用户安装
  4. 位运算n=(n-1)快速统计二进制1的个数
  5. 监控摄像头卡顿_视频监控系统施工六大注意事项
  6. linux 别名,Linux中的别名就这么简单,如何使用和创建永久别名?
  7. hive表定义(3种方式)
  8. linux安装协议,在Linux中安装IPv6协议
  9. C++的就业前景怎么样?
  10. python type判断_python判断type与isinstance的区别
  11. Graph Theory 离散数学第五章
  12. linux添加jdk权限不够
  13. exce中让两列数据一一对应_excel表格中两组数据如何对应匹配-EXCEL让两个表格中的两列数据一一对应...
  14. 最大网络流的多种解法(洛谷P3376 网络最大流 为例)
  15. 系统集成项目管理工程师计算题(期望值)
  16. JSON字符串如何转化成对象?
  17. 浅谈无线测温在35kV高压开关柜中的应用
  18. ListView的用法以及即时刷新
  19. mui下拉刷新 ,无法滑动
  20. Java遍历目录下的所有文件

热门文章

  1. EL表达式,JSP内置对象
  2. java加密算法入门(三)-非对称加密详解
  3. 幸福就是有人爱、有事做、有所期待(转)
  4. 解决页面textarea初始焦点显示位置不正确的问题
  5. FreeRTOS-绪论
  6. ASCII, GB2312, GBK, Unicode, UTF8之间的区别和联系
  7. java ftl crud_使用JDBC完成CRUD(增删改查)
  8. 新冠肺炎疫情数学模型的一点想法
  9. Ubuntu18.04 + CUDA10.0 + tensorflow-gpu 安装过程
  10. C++14实现一个线程池