关乎人文,以化成天下

敦煌博物馆里,数字技术让一尊尊彩塑容颜常驻;电视剧《觉醒年代》,百年前的革命志士与屏幕前的我们跨时空对话;舞蹈诗剧《只此青绿》,用舞台重现大宋美学,为观众开启沉浸式“赏画”体验,以上种种,无一不在生动诠释着人文的“以化成天下”。本次社会实践,我们将着重研究“文学”与“科技”之化。

文学与AI的碰撞

不知大家是否听说过大谷老师,音乐人、《漫展模拟器》的制作人、一位热衷于AI绘画的编程者、一位不断超越自己、玩转AI的独立艺术家。

图1.大谷老师社交官方头像

前不久,大谷老师利用深度学习技术使宋代诗人苏轼“活”过来,穿越千年,为我们声情并茂诵其诗词,使无数人大为震撼!这虽然不是AI与文化的第一次结合,但在AI领域、在艺术领域,都荡起了不浅的水花。

探索

深度学习,是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI)。

GAN--生成对抗网络,被“卷积网络之父”Yann LeCun(杨立昆)誉为「过去十年计算机科学领域最有趣的想法之一」,是近年来火遍全网,AI研究者最为关注的深度学习技术方向之一。

PaddleGAN,全称飞桨生成对抗网络开发套件,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。

下面是我们摸索中,利用百度飞桨AI Studio平台进行深度学习,从而得到的元代诗人、词人念诗的视频成果。猜猜都是哪几位诗词大家叭~

元朝合集

Wav2lip模型原理

Wav2lip实现唇形与语音精准同步突破的关键在于,它采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。

此外,该研究通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。

wav2lip模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。

Wav2Lip生成唇形同步视频的过程如图5所示,主要包含如下6个步骤:
1.数据处理: 

根据网络接收的数据格式,完成相应的预处理操作,保证模型正常读取;
2.模型构建:

设计Wav2Lip网络结构;

3.模型配置:

         实例化模型,指定学习率和优化器;

4.模型训练: 

       执行多轮训练不断调整参数,以达到较好的效果;

 5.模型保存: 

       将模型参数保存到指定位置,便于后续推理使用;

6.模型推理及可视化: 

        使用训练好的模型将视频人物的唇形和输入语音同步,并可视化推理结果。

Wav2lip的使用三步曲

1.安装Paddle环境并下载PaddleGAN

2.选择想要「配音/对口型」的对象以及音频内容

3.运行代码并保存制作完成的对口型视频分享惊艳众人

整体技术原理

图6.技术原理(来自paddlepaddle生成虚拟主播技术)

总共需要调用三个模型,分别是First Order Motion(表情迁移)、Text to Speech(文本转语音)和Wav2Lip(唇形合成)。
具体技术步骤如下:
      1.把图像放入First Order Motion模型进行面部表情迁移,让人物的表情更加逼近真人
      2.通过Text to Speech模型,将输入的文字转换成音频输出。
      3.得到面部表情迁移的视频和音频之后,通过Wav2Lip模型,将音频和视频合并,并根据音频内容调整唇形,使得人物更加接近真人效果。

代码可参考百度飞桨开源项目——PaddleHub元宇宙直通车:手把手教你造个虚拟数字人!

问渠哪得清如许?为有源头活水来。——AI与传统文化会碰撞出何种火花呢?相关推荐

  1. 问渠哪得清如许,唯有源头活水来-浅谈android 系统

    古人学问无遗力,少壮功夫老始成,纸上得来终觉浅,绝知此事要躬行 android系统是基于Linux平台的开源移动操作系统的名称,该平台由操作系统.中间件.用户界面和应用软件组成. 底层以Linux内核 ...

  2. 问渠那得清如许,唯有源头活水来

    Java基础的源头就在这里. 是技术,就要经过刻苦的练习才能透彻的掌握,此外无捷径. 抛却一切浮躁,追溯源头,自然清静.

  3. 问渠哪得清如许,为有源头活水来

    问渠哪得清如许,为有源头活水来 如我是一朵雪花,     翩翩的在半空里潇洒, 我一定认清我的方向-- 飞扬,飞扬,飞扬,--     这地面上有我的方向.     不去那冷寞的幽谷,

  4. “问渠哪得清如许?为有源头活水来” – 提高技术源头数据的质量成为技术信息化热点

    越来越多的企业在花费巨资引入国外PLM系统后,发现很难达到当初预计的效果,原因就是技术源头的数据质量不高,PLM系统中管理的垃圾越多,系统的可用性越差. 青岛捷能汽轮机在实施西门子PLM系统后,重新大 ...

  5. 当我发现Python字典中不同key可以有相同哈希值后——问渠那得清如许

    迷雾重重 我们知道,字典的key是不同重复的.那么Python怎么比较两个key是否相同呢?在回答这个问题之前,先来看一段代码. class Position():def __init__(self, ...

  6. 问渠那得清如许?为有源头活水来。——java面向对象的思想

    20169205 2016-2017-2 <移动平台应用开发实践>第2周学习总结 教材学习内容总结 本次作业要求的部分主要是Java高级语言实现面向对象编程的基本方法,其中所介绍的面向对象 ...

  7. 读《移山之道》——问渠哪得清如许,为有源头活水来

    我是以一本看小说的心态看完了这本书,书中人物的角色活灵活现,通过愚公后代如何完成一个软件项目来介绍MSF和VSTS. 对于书中人物对话的小字部分,看起来是非常有趣的,引起了像我们这样刚开始接触软件开发 ...

  8. 问渠哪得清如许,为有源头活水来之TCP / UDP

    在TCP/IP对网络的划分下传输层试很重要的一层,通过阅读<图解TCP/IP>对传输层的TCP/UDP进行总结. UDP 1.UDP的特点 UDP不提供复杂的控制机制,利用IP提供面向无连 ...

  9. java ssh2工具,SSH2代码生成工SSH2代码生成工具 PowerBy 清如许UnicodePowerBy

    SSH2代码生成工SSH2代码生成工具 PowerBy 清如许UnicodePowerBy SSH2代码生成工具 PowerBy 清如许Unicode 超值只卖2000元的SSH代码生成工具,快来购买 ...

最新文章

  1. FPGA(3)验证数字逻辑(与门、与非门、二选一数据选择器、2-4译码器、半加器、全加器)
  2. CodeForces 392C Yet Another Number Sequence 矩阵快速幂
  3. 2017-01-09
  4. python中do的用法,如何使用docplex(python)对优化问题中的约束进行建模?
  5. 当深度学习遇上图: 图神经网络的兴起!(文末送书)
  6. 通过WordPress内置函数批量添加文章
  7. 数据库存储I/O类型分析与配置
  8. PCL Lesson6:Eigen基础
  9. 【转】Web布局中的几种宽高自适应
  10. 训练网络时如何加入噪声_[模型量化] 如何训练一个“耐量化”的网络?
  11. 基于EEMD和樽海鞘算法优化SVM的滚动轴承故障诊断python
  12. Oracle 数据库锁机制
  13. python3ide安卓版官网下载_python3.9下载-Python下载v3.9.0 官方最新版【x86|x64】-西西软件下载...
  14. kylin在hadoop 中的架构图_Kylin |1.麒麟架构及原理
  15. 安防集成商的出路在哪里?
  16. java判断单元格是否是日期_Excel单元格,日期/时间返回Int而不是日期/时间字符串...
  17. python地图gps轨迹可视化_GPS轨迹数据可视化的三种途径
  18. java仿qq好友列表_QQ好友列表树形列表java代码实现代码
  19. 清华大学教授AI领域创业,能否打破中美印三足鼎立僵局?
  20. 带你由浅入深探索webpack4(二)

热门文章

  1. java计算机毕业设计教师教学质量评估系统源码+mysql数据库+系统+lw文档+部署 - 副本
  2. 【Week】No.177
  3. 一度智信:拼多多商家参与秒杀活动好处
  4. android studio更换头像,明版明日大富翁 -官方网站
  5. chrome浏览器导出文件提示病毒扫描失败
  6. 用UML建模开发嵌入式软件
  7. 计算机系的信息与计算科学考研方向,信息与计算科学专业考研方向和考试科目有哪些...
  8. ROS从入门到精通系列(十四)-- PR2机器人应用
  9. 有道云笔记中markdown插入本地图片(绝对路径)后无法显示图片问题
  10. Webgis 打印实现技术细节