概述

实时二维动画是一种相当新颖而强大的交流形式,它使表演者可以实时控制卡通人物,同时与其他演员或观众互动和即兴表演。

最近的例子包括史蒂芬·科尔伯特(Stephen Colbert)在《后期秀》中采访卡通客人,荷马在《辛普森一家》(The Simpsons)的一段节目中回答观众的现场电话提问,阿切尔(Archer)在ComicCon上与现场观众交谈,以及迪斯尼的《星际大战:邪恶力量》和My Little Pony通过YouTube或Facebook Live与粉丝们进行实时聊天会话。

制作逼真的,有效的实时2D动画需要使用交互式系统,该系统可以自动将人类表演实时转换为动画。这些系统的一个关键方面是获得良好的口型同步,这实质上意味着动画人物的嘴巴在说话时会适当移动,模仿在表演者的嘴巴中观察到的动作。

良好的口型同步可以使实时2D动画更具说服力和功能强大,使动画角色可以更真实地体现性能。相反,不良的口型同步通常会破坏角色作为现场表演或对话参与者的幻觉。

两位研究人员在研究的Adobe和华盛顿大学推出了深基础的学习互动系统,可自动生成分层2 d动画人物活唇音同步。他们开发的系统使用了长期短期记忆(LSTM)模型,一种递归神经网络(RNN)架构,该架构通常应用于涉及对数据进行分类或处理以及进行预测的任务。

“由于语音几乎是每个实时动画的主要组成部分,因此我们认为在这一领域要解决的最关键的问题是实时口型同步,这需要将演员的语音转换为动画角色中相应的嘴部动作(即视位序列)。在这项工作中,我们专注于为实时2D动画创建高质量的口型同步。”进行这项研究的两位研究人员Wilmot Li和Deepali Aneja通过电子邮件告诉TechXplore。

Li是Adobe Research的首席科学家,拥有博士学位。计算机科学领域的一位学者一直在针对计算机图形学与人机交互的交叉点进行广泛的研究。另一方面,Aneja目前正在完成博士学位。她是华盛顿大学图形和图像实验室的一员。

Li和Aneja开发的系统使用简单的LSTM模型,以每秒24帧的速度将流音频输入转换为相应的视位音素序列,延迟小于200毫秒。换句话说,他们的系统允许动画人物的嘴唇以与人类用户实时说话相似的方式移动,而声音和嘴唇移动之间的延迟小于200毫秒。

“在这项工作中,我们做出了两点贡献:确定适当的特征表示和网络配置,以实现实时2D唇形同步的最新结果,并设计一种新的增强方法来收集模型的训练数据,”李和阿内贾解释。

“对于手工创作的口型同步,专业动画师会根据音素的特定选择以及过渡的时间和数量做出风格上的决定。因此,训练一个'通用'模型对于大多数应用来说是不够的,”李克强和阿内贾说。此外,获得标记的口型同步数据以训练深度学习模型可能既昂贵又耗时。专业动画制作人员每分钟的演讲时间可花五到七个小时来手工制作视位序列。意识到这些限制,Li和Aneja开发了一种可以更快,更有效地生成训练数据的方法。

为了更有效地训练他们的LSTM模型,Li和Aneja引入了一项新技术,即使用音频时间扭曲来增强手工编写的训练数据。即使在较小的标记数据集上训练其模型时,此数据增强过程也能实现良好的口型同步。

为了评估他们的互动系统在实时生成口型同步中的有效性,研究人员要求人类观众对使用他们的模型和使用商业二维动画工具制作的实时动画的质量进行评估。他们发现,与其他技术相比,大多数观看者更喜欢他们的方法产生的口型同步。

Li和Aneja表示:“我们还研究了口型同步质量与训练数据量之间的权衡,我们发现我们的数据增强方法显着改善了模型的输出。” “总的来说,我们仅用15分钟的人工嘴唇同步数据就能产生合理的结果。”

有趣的是,研究人员发现,他们的LSTM模型可以根据训练的数据获得不同的口型同步样式,同时还可以在广泛的演讲者中广泛推广。该模型取得了令人鼓舞的结果,令他们印象深刻,Adobe决定将其版本集成到2018年秋季发布的Adobe Character Animator软件中。

“准确,低延迟的唇形同步对于几乎所有实时动画设置都很重要,我们的人工判断实验表明,我们的技术在现有的最新2D唇形同步引擎上进行了改进,其中大多数需要离线处理, ”李和阿内贾说。因此,研究人员认为,他们的工作对于实时和非实时2D动画制作都具有直接的实际意义。研究人员没有意识到以前的2-D唇形同步工作与商业工具进行了类似的全面比较。

Li和Aneja在最近的研究中能够解决与实时2D动画技术发展相关的一些关键技术挑战。首先,他们展示了一种使用RNN编码用于2D唇形同步的艺术规则的新方法,该方法将来可能会得到进一步增强。

结果

下面是用克洛伊和巫师判断实验,在视频摘要和补充资料中显示了与其他角色的口型同步结果:

作者的方法明显优于所有商业工具,包括离线方法,完整模型也优于无扩展数据(OursNoAug)和三分之二的扩展数据(Ours2 / 3)训练的版本。但是,对Ours2 / 3的偏好很小,这表明该数量的数据可能足以训练有效的模型。

结论

研究人员认为,应用现代机器学习技术来改善二维动画工作流程的机会更多。“到目前为止,挑战之一是缺少训练数据,这很昂贵。但是,正如我们在这项工作中所显示的那样,可能存在利用结构化数据和自动编辑算法(例如动态时间扭曲)来最大化利用的方法,手工制作的动画数据的实用性。

相关论文数据集下载地址:关注“图像算法”微信公众号 回复“嘴型”

推荐基于深度学习实时同步生成2D动画口型算法相关推荐

  1. 目标检测YOLO实战应用案例100讲-基于深度学习的无人机航拍图像目标检测算法研究与应用

    目录 基于深度学习的无人机航拍图像目标检测算法研究与应用 基于深度学习的目标检测相关知识理论

  2. 阅读笔记3:基于深度学习的运动想象脑电信号分类算法研究

    1.论文信息 题目:基于深度学习的运动想象脑电信号分类算法研究 作者佟歌 单位:哈尔滨工程大学控制科学与工程 发表时间:201803 2.笔记 2.1 脑电信号采集及预处理 2.1.1脑电信号分析方法 ...

  3. 极限元语音算法专家刘斌:基于深度学习的语音生成问题

    一.深度学习在语音合成中的应用 语音合成主要采用波形拼接合成和统计参数合成两种方式.波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音,它在工业界中得到了广泛使用.统计参数语音合成虽然 ...

  4. 基于深度学习的宋词生成

    <自然语言处理>课程报告 摘 要 宋词是一种相对于古体诗的新体诗歌之一,为宋代儒客文人智慧精华,标志宋代文学的最高成就.宋词生成属于自然语言处理领域的文本生成模块,当前文本生成领域主要包括 ...

  5. m基于深度学习的OFDM信道估计和均衡算法误码率matlab仿真,对比了LS,MMSE以及LMMSE等传统的信道估计算法

    目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 随着无线通信的快速发展,5G正逐渐成长为支撑全社会各行业运作的大型基础性互联网络,其服务范围的大幅扩 ...

  6. 基于深度学习的新闻摘要生成算法实现与详解(Encoder-Decoder框架模型)

    目录 摘要: 文本摘要生成概述: Encoder-Decoder模式思想: 数据集描述: 模型构建与代码描述(LSTM+Attention) 总结: 参考文献: 摘要: 摘要是文本的主要内容和核心思想 ...

  7. 一种基于深度学习(卷积神经网络CNN)的人脸识别算法-含Matlab代码

    目录 一.引言 二.算法的基本思想 三.算法数学原理 3.1 权值共享 3.2 CNN结构 四.基于卷积神经网络的人脸识别算法-Matlab代码 五.Matlab源代码获取 一.引言 在工程应用中经常 ...

  8. 基于深度学习Autoencoder的信用卡欺诈异常检测算法

    深度学习用于异常检测,效果还是相当牛逼的.信用卡欺诈数据集,在孤立森林上能做到26%的top1000准确率,但是在Autoencoder算法上,最高做到了33.6%,但是这个数据很不稳定,有时候只有2 ...

  9. 目标检测YOLO实战应用案例100讲-基于深度学习的水下图像增强及目标检测算法研究与应用

    目录 基于迁移学习的水下图像增强与目标检测研究 基础知识 2.1  迁移学习

最新文章

  1. 做好平面设计,你要知道的几个创造性思维?
  2. Redis实现分布式锁释放锁
  3. ELK日志分析系统(转)
  4. 华为的鸿蒙系统是海思_全新12.9英寸华为MatePad平板曝光:搭载鸿蒙系统
  5. 【AngularJs学习笔记五】AngularJS从构建项目开始
  6. java spit 点_java split 的一些用法注意点。
  7. 计算机注销之后一直黑屏,win7系统注销出现黑屏怎么办_win7系统注销出现黑屏的修复办法...
  8. 会计计算机学什么软件有哪些,会计一般学什么软件有哪些
  9. Unity中英对照汉化
  10. ActivityManager解析及使用
  11. 使用小马激活工具激活Windows后,浏览器的首页被篡改,如何改回去?
  12. 68ES6_解构_数组操作_对象操作
  13. 语言模型数据集 (周杰伦专辑歌词)
  14. 2019最新个税计算_python
  15. android scheme 配置多个,Android Scheme URL 使用方法
  16. python图像处理:核磁共振图像(3D)的缩放
  17. 【Python爬虫】爬取猫眼电影票房
  18. oracle 索引快速全扫描,使用目录快速全扫描(Index FFS)避免全表扫描的若干场景
  19. java面试笔记整理
  20. java英雄联盟战斗力题目,Java 查询英雄联盟玩家战绩

热门文章

  1. 筋斗云教程(一): 运行筋斗云应用
  2. 实验详解OSPF的几类LSA、FA转发规则(思科设备)
  3. 打印机只能扫描图片,不能扫描成PDF解决办法
  4. python 3D绘制立体几何
  5. SimpleDateFormat格式设置24小时制时
  6. windows11中如何显示此电脑图标
  7. 明明在内网,做种的人很多,为什么在transmission里bt下载速度仅10kb/s
  8. 二进制换算成八进制、十进制、十六进制
  9. 基于Word2Vec的影评挖掘
  10. 【科创人】维格表创始人陈霈霖:喜茶数字化转型的结晶是vika维格表