结合语音合成模型、视频生成模型等,本论文研究了如何使用原始文本生成人读随机文本的虚拟视频,且口型完全对照,更加自然逼真。

1. 引言

目前存在大量关于使用机器学习方法生成图像的研究(Isola et al.,2016)。同样,语音合成方面也有显著进展(Sotelo et al.,2017)。不过,将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景(close shot)视频集合(带对应的转录文本)上进行训练。结果就是构建了一个系统,可利用任意文本生成语音,并根据现有视频中嘴型区域进行修改,以使其更加自然逼真。视频示例:http://ritheshkumar.com/obamanet。我们以 Barack Obama 为例展示了该方法,因为他的视频常用于对唇同步方法进行基准测试,但是我们的方法还可用于生成任意人的视频(在可获取数据的前提下)。


2. 相关研究

近期,生成照片级真实感视频领域出现了显著进展(Thies et al., 2016)。具体来说,Karras et al. (2017) 尝试基于音频生成人脸动画。Suwajanakorn et al. (2017) 的研究与我们的研究

有趣的研究奥巴马Net:从文本合成真实的唇语口型相关推荐

  1. 大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!

    作者 | 耳洞打三金 大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片! 效果如下所示: 文本 ...

  2. 文本合成图像栩栩如生,仿佛拥有人类的语言想象力:OpenAI祭出120亿参数魔法模型!...

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者 | OpenAI 来源 | AI科技评论 编译 | 贝爽.陈大鑫 前几个月G ...

  3. 找不出破绽!斯坦福等新研究:随意输入文本,改变视频人物对白,逼真到让作者害怕...

    栗子 安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 细思极恐的事情还是来了. 斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话. 并且,改动关键词后人物口型 ...

  4. DeepSpeech语音转文本合成技术

    DeepSpeech 是百度开发的开源实现库,它提供了当前顶尖的语音转文本合成技术.它基于 TensorFlow 和 Python,但也可以绑定到 NodeJS 或使用命令行运行. Mozilla 一 ...

  5. OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力...

    来源:AI科技评论 作者:OpenAI 编译:贝爽.陈大鑫 前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说.一段哲学语录,就足以令AI圈为之感到兴奋. 然而2020年刚刚开始没多久,O ...

  6. 基于 Azure 的认知服务将文本合成语音

    基于 Azure 的认知服务将文本合成语音 Intro 前几天发了一个 .NET 20 周年祝福视频,语音是通过 Azure 的认知服务合成的, 下面就来介绍一下如何将使用 Azure 的认识服务实现 ...

  7. StackGAN详解与实现(使用tensorflow2.x实现)——利用文本合成逼真的图像

    StackGAN详解与实现(使用tensorflow2.x实现)--利用文本合成逼真的图像 StackGAN原理 StackGAN简介 StackGAN架构 文本编码器网络 条件增强网络 获取条件增强 ...

  8. 如何通过讯飞语音将文本合成后的语音保存到本地

    如何通过讯飞语音将文本合成后的语音保存到本地 2014-2-21分类:Android, 解决方案, 随手实例 | 暂无评论 转自:http://www.krislq.com/2014/02/voice ...

  9. 快讯 | MIT研究人员发明新型机器手;人工智能声呐眼镜:可识别唇语,准确率达 95%

    一分钟速览新闻点 中国工程院院士戴琼海:以人工智能为代表的新兴科技推动全球创新版图重构 GGII:至2027年我国机器视觉市场规模将达到565.65亿元 上科大凌盛杰<Adv. Funct. M ...

最新文章

  1. 深度linux创建微信图标,Deepin Linux 下基于deepin-wine的微信图标不见的问题解决
  2. Caffe源码解析5:Conv_Layer
  3. CentOS6.9下手动编译并安装Python3.7.0
  4. 用python随机画多个圆_Python Pygame随机绘制不重叠的圆圈
  5. 世界正在走向实时化,谈谈Twitter对流处理的理解与思考
  6. 利用最新Apache解析漏洞(CVE-2017-15715)绕过上传黑名单
  7. 阻止页面双击选中文本
  8. 【开发者portal在线开发插件系列四】数组 及 可变长度数组
  9. 庆祝我的第一个WebGis完成-c#+MapXtreme2004
  10. 【java笔记】自定义异常
  11. 《机器人编程实战》一一2.1 为什么需要更多努力
  12. Kfc点餐系统 小程序
  13. sqlserver2005 sa密码忘记了怎么办
  14. 【国信安实训】——文件上传漏洞
  15. 修改Visata下的无线网卡(Intel 5100 agn)Mac地址
  16. SQL 审核查询平台
  17. 计算机模拟人脑,人造突触问世,计算机模拟人脑不是梦
  18. 用 TensorFlow 做个聊天机器人
  19. 《BackTrack 5 Cookbook中文版——渗透测试实用技巧荟萃》目录—导读
  20. 使用Lambda(拉姆达)对集合进行排序,一行代码即可解决

热门文章

  1. Linux中的文件解压
  2. Magic Horse
  3. 苹果6s照相快门声音设置_你不知道的8种手机快门启动方式,各有妙用!
  4. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读
  5. 二手域名交易平台选择GoDaddy可靠吗?
  6. 银河麒麟V10配置rsync实现服务器同步备份
  7. 深度神经网络面临的问题
  8. 【干货】群发开发信用什么邮箱?
  9. 迎检计算机教室解说词,2016年学校迎检引导员解说词 (1500字)
  10. 22. 并发编程(上)