关于虚拟数字人的起源最早可以追溯到上个世纪八十年代的日本经典动画片《超时空要塞》的女主角林明美。作为虚拟偶像的开端,动画公司以她的虚拟形象发行唱片,虚拟人第一次进入了现实世界。

2000年-2016年,虚拟数字人还只是停留在研究阶段。2016年以来,深度学习和元宇宙的出现,使得虚拟偶像一夜火遍全世界。

虚拟数字人根据驱动方式的不同可分为AI智能驱动型和真人驱动型(动作捕捉技术)。在真人驱动型虚拟数字人中,真人也被称为“中之人”,配合动作捕捉设备,让虚拟数字人能够与观众进行实时交互。而AI智能驱动型虚拟人,则是通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策输出文本,驱动人物模型生成相应的语音与动作与用户交互。由于虚拟数字人的口型和微表情等微动作较多,真人拍摄耗资巨大,AI语音口型驱动成为主流。

AI语音驱动虚拟数字人微表情

AI语音驱动又称为虚拟形象语音动画合成技术(Voice-to-Animation),用户通过输入文本或语音,以一定规则或深度学习算法,生成对应的3D虚拟形象的人脸表情系数,完成口型和面部表情的精准驱动。开发者可以快速构建丰富的虚拟形象智能驱动应用,如虚拟主持人、虚拟客服、虚拟教师等。根据输入内容的不同(文本/语音),可以分为三种驱动方法:

语音驱动  

语音作为驱动源头。将语音输入到深度模型,预测嘴型和面部微表情系数。该方法不受限于不同人、国家,但是受到语音特性(音色、强度、噪声等)影响较大,较难提升模型的泛化能力。

音素驱动  

文本作为驱动源头。将文本时间序列转换成音素时间序列,并输入到深度模型,预测嘴型和面部微表情系数。该此方法与语音无关,只与文本内容相关,不受语音特性变换影响。但是模型受限于不同国家的文本语言(中英等);同一文本内容、不同类型的合成声音,最后合成的口型及面部表情相似度高,缺乏风格和特性。

语音和音素多模融合驱动  

语音和音素同时作为驱动源头。该方法融合语音和文本两个模态的信息,驱动系数更准确,效果更好,但模型更复杂。

AI语音驱动虚拟数字人全身

近期,百度推出了语音驱动虚拟数字人全身动作的算法框架Speech2Vedio。是一种从语音音频输入合成虚拟人全身运动(包括头、口、臂等)视频的任务。根据其算法框架,预计产生的视频在视觉上较为自然,且与给定的语音一致。

该论文作者将3D骨骼知识和模型学习的个性化语音手势字典,嵌入到整个模型的学习和测试中。通过3D人体骨骼知识限制生成的动作幅度,限定符合正常人类肢体的伸展范围,通过语音驱动算法合成符合语音场景的动作,形成协调一致,口手合一的虚拟数字人形象。其算法流程如下:

出自Miao Liao. et.al《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》

该系统的输入是音频或文本,用于训练LSTM深度模型。使用文本到语音(TTS)和语音到文本(STT)技术实现音频和文本互换。LSTM的输出是将人体、面部和手部的3D联合模型参数化,形成一系列人体姿态,再通过GAN(生成对抗神经网络)合成最终的虚拟人形象。

AI语音驱动虚拟数字人作为虚拟人落地的核心技术,不仅大幅节省了制作成本,同时精细化的培养了虚拟数字人口手合一的协调性。

AI语音驱动技术的重要底座

自2021年以来,相关部门纷纷出台政策大力支持人工智能、区块链、大数据等产业的发展,而虚拟数字人产业则是这些产业的重要组成部分。根据量子位发布的《虚拟数字人深度产业报告》预测,到2030年,我国虚拟数字人整体市场规模将达到2700亿元。

而所有的虚拟数字人其背后的算法和模型都需要高质量的数据进行大量训练、测试、调参才能达到最终的最优效果。数据作为虚拟数字人的“基础设施”,其重要性不言而喻。

Magic Data 作为全球领先的AI数据解决方案提供商,拥有海量经由专业录音棚录制的高质量数据集。Magic Data TTS数据集涵盖天津话、东北话、四川话、上海话、广西话、长沙话众多方言。同时,拥有英语、葡萄牙语、韩语等多语种TTS数据。并能够匹配男声、女声、童声、二次元、甚至Rap说唱等各类需求。让虚拟数字人的互动拥有更多丰富的可能性,助力企业实现业务增长。

技术分享 | 语音AI如何驱动虚拟人相关推荐

  1. 【华为云技术分享】AI 开发路漫漫,什么才是真正的极客精神?

    摘要:AI开发看上去很美,实践起来却不是一件容易的事.一个聪明的开发者知道借助工具提升开发效率,一个智能的平台则会站在开发者的立场,为用户提供贴心服务. "理想很丰满,现实很骨感." ...

  2. lcd背光节能matlab代码,【技术分享】LCD背光驱动节电技术-LABC/CABC

    LCD背光驱动节电技术-LABC/CABC 图像永远是最直观的表现方式,而LCD正是目前应用最多的表现媒介.随着技术的增强,人类对视觉的要求不断提高,对图像的分辨率.色彩的要求也越来越高. 我们的手机 ...

  3. 技术分享 | 【构建服务端SDK】之连接中心统一调用SDK

    源宝导读:微服务架构与传统的单体式方案的最大不同是微服务将应用的核心功能拆分成多项服务.每项服务可以单独构建和部署.服务之间需要互相通信.假设服务间每次通信都需要在调用方编码操作,那么必定会增加很大的 ...

  4. 技术分享 | 混合云模式下SaaS端前端最佳实践

    导读:集成开放平台采用的是混合云部署架构,包含两个大的组件,管理控制台和引擎.管理控制台是SaaS的,部署在公有云,按租户隔离.引擎部署在客户私有云.一套SaaS版的管理控制台如何适配不同客户的引擎, ...

  5. 技术分享 | CodeReview主要Review什么?

    源宝导读:Code Review, 意即代码审查,是指一种有意识和系统的召集其他程序员来检查彼此的代码是否有错误的地方. 在敏捷团队中推行CodeReview, 可以帮助团队快速成长.本文将分享在&q ...

  6. 技术分享 | 一条神奇的曲线——贝塞尔曲线在前端的应用

    源宝导读:在前端的开发中我们经常会遇到利用贝塞尔曲线帮助我们完成前端的动画和图形绘制,但是对其中的一些参数配置是一头雾水.本文将从贝塞尔曲线的原理讲起,由浅入深剖析一阶到多阶贝塞尔的实现原理,最后从三 ...

  7. 微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019

    演讲嘉宾 | 赵晟.张鹏 整理 | 伍杏玲 来源 | CSDN(ID:CSDNnews) [导语]9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语 ...

  8. 微软语音 AI 技术与微软听听文档小程序实践 | AI ProCon 2019

    演讲者 | 赵晟.张鹏 整理 | 伍杏玲 出品 | CSDN(ID:CSDNnews) [CSDN 编者按]9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院 ...

  9. 达摩院技术创新全景|懂你的语音AI

    过去十年,语音AI从实验室走向应用,语音搜索.交互早已融入日常.本文将带你一览达摩院语音AI技术创新全景,一起感受能听.会说.懂你的语音AI. 当你在家中与智能音箱进行交互对话,当你使用天猫超市或菜鸟 ...

最新文章

  1. sybase数据库导出mysql_sybase导出数据库的表结构命令
  2. 控制ALV单元格可编辑
  3. 系统故事 --- 让系统讲故事
  4. matlab实现盖尔圆,[理学]数值分析习题解答.doc
  5. Picasso遇到的坑
  6. IDEA下Maven多模块项目介绍和搭建
  7. 复制一个空洞文件且忽略掉其空洞内容
  8. 数据结构之线性表代码实现顺序存储,链式存储,静态链表(选自大话数据结构)...
  9. kafka开启kerberos,报错server not found in kerberos database
  10. 小松鼠短视频完开源源码
  11. qt mysql图形界面_qt数据库界面
  12. 用html代码写一个表白语言,HTML写代码表白 – 爱心
  13. 【其他】微信双开、多开的几种方法
  14. 极限中0除以常数_第七讲 极限存在准则和两个重要极限
  15. npm-deprecate
  16. Swift使用UserDefaults存储,报错 Fatal error: ‘try‘ expression unexpectedly raised an error: Swift.Decoding
  17. 8本必读关于人工智能伦理问题、社会价值及影响书籍推荐
  18. 使用EasyExcel导出图片及异常处理
  19. 由numpy.arange函数看双精度浮点数的精度问题
  20. python ppt 图片_python ppt转图片

热门文章

  1. 运用selenium库写淘宝抢购详解【3】(文末附带源码)
  2. 成 功 的 背 后 !( 致给所有IT人员)
  3. 不要和自己的大脑抗争,将大脑的能耗降到最低
  4. PCIE,USB传输速率和带宽
  5. 转载HTMl转义字符大全
  6. 但见新人笑,那闻旧人哭,大衣哥前儿媳陈亚楠好可怜
  7. python中strip的用法_Python中你不知道的strip()函数的妙用
  8. 大数据分析案例-基于决策树算法构建金融反欺诈分类模型
  9. 学英语《每日一歌》之see you again(速度与激情7主题曲)
  10. 永中软件自己越描越黑