感谢阅读腾讯AI Lab微信号第96篇文章。本文将介绍AI艾灵歌声背后的核心技术。

今年六一儿童节,腾讯联合北京荷风艺术基金会发起“腾讯荷风艺术行动”,为音乐美学中国素质教育的发展做出贡献。

今天,他们为孩子们送上一份礼物:首席儿歌守护唱作人,青年演员歌手王俊凯与雄安孩子,以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物被以特别的方式呈现:在H5互动里,每个人都可以轻松召唤AI艾灵,创作你的专属MV——给几个关键词,艾灵就能为你创作专属歌词,并和王俊凯一起唱给你听。

在互动里,唱作俱佳的AI数字人艾灵已搭乘互联网来到每个人面前,她不仅能作词,还能用近乎真人的声线演唱,加上用多模态智能技术搭建的数字躯体,绝对是令你难忘的全能型虚拟歌手。

心动了吗?扫描下方二维码或点击“阅读原文”,制作一个你的新歌mv ☟

怎么样?是不是高音甜、中音准、低音稳?AI艾灵源自腾讯 AI Lab 的实验探索性技术项目——AI 数字人(Digital Human)。项目的目标是把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态 AI 能力与技术深度融合,生成清晰、流畅、高质的可交互内容,打造高拟人度的智能数字人,推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

AI 艾灵使用了基于数据依赖型的深度学习方法,现在还只能生成基础歌词和合成歌曲,无法实现完全自由的创作。但腾讯 AI Lab 将继续技术攻坚,探索自动化音乐合成及基于全新乐曲自动生成歌词模板再自动填词的新方法。此外,基于智能数字人的交互式技术在音乐教育方面的应用也是重要的探索方向。

下面通过腾讯 AI Lab 的两项研究成果:DurIAN 个性化歌声合成 和 SongNet (相关论文被顶级会议 ACL 2020 收录) 来谈谈AI艾灵歌声背后的核心技术。

DurIAN个性化歌声合成

如果你用过早期的自动合成语音听书软件,那你就会听过最原始的机器合成语音,即直接将各个字词的发音生硬地拼接到一起,没有人类在自然说话和唱歌时自然起伏的韵律。很多电影也采用了人们对机器合成语音的这种典型印象来塑造机器人或 AI 角色,而且这类声音也是著名物理学家斯蒂芬·霍金偏爱的音色。

但是,随着近些年机器学习技术的发展,合成语音在拟真度方面已经取得了长足的进步,机器声再也不只是人类印象中那种一板一眼的刻板模样了,现在的 AI 甚至还能学会像人类一样情感充沛地歌唱!

快来听听这次在 QQ 音乐上线的公益数字专辑《儿歌新唱》里,AI艾灵与小朋友们一起合唱的《声律启蒙》☟

想听更多歌曲,可以移步她的B站直播间:

https://live.bilibili.com/21927742

AI艾灵的歌声即来源于这样的 AI 技术。首先,研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列;然后通过分析歌谱,从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征;最后使用由真人(中国网络声优龟娘)演唱的歌声训练得到的深度神经网络声学模型和声码器模型,合成出与真人声线高度相似歌声音频。

AI歌声合成的模型架构

不同于“初音未来”等虚拟歌姬的“机器合成+人工调教”模式,使用了基于DurIAN声学模型的AI艾灵无须经过人工调教就能得到非常自然和拟真的歌声。

DurIAN-singing synthesis的声学模型结构

我们在端到端语音合成模型DurIAN的基础上进行修改,加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型,还可以实现跨语种歌声合成,比如用英文说话人的声音合成中文歌声。声学模型的编码器采用音素序列作为输入,编码器的输出经过一个对抗训练的说话人分类器以减少输入文本与说话人的相关度,提高最终合成音频的说话人相似度。与此同时,编码器的输出根据输入的唱腔时长信息沿时间轴展开,与输入的基频、说话人向量、语言向量进行拼接,作为解码器的输入,精准控制合成歌声的韵律、音调和音色。解码器采用自回归模型预测梅尔频谱。多频段同步式 WaveRNN 模型用作声码器从生成的梅尔频谱合成音频。这项技术已经可以在适当的硬件成本下实现实时歌曲合成。在互动中,AI艾灵可以快速地为千万用户输入的歌谱合成出对应的歌声。

多频段同步式 WaveRNN:首先把语音信息分频段,每一步用同一个声码器模型同时预测多个频段的值,如果分成 4 个频段,则每一步可以计算 4 个值,计算次数就是原来的四分之一。在合成过程中,声码器预测多频段的值后,通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

展望未来,这项技术可以用于降低歌曲制作过程中录音环节的成本,更可以用于打造虚拟偶像,成为广大专业和社区音乐人创作不可多得的制作工具。除了 AI 歌声合成技术之外,腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

SongNet:为你写歌

AI艾灵的歌词生成方案基于腾讯 AI Lab 最新研发的歌词创作模型SongNet。该深度学习模型最大的特点就是可以给定任意格式和模板来生成相契合的文本。在前文的H5里面,AI艾灵的"命题作词“技能就来源于此。

例如,给定《十年》这首歌词的格式,我们可以通过SongNet重新进行配词,并保证格式不变,可以根据原来的曲谱进行演唱:

原歌词:十年之前/我不认识你/你不属于我/我们还是一样/陪在一个陌生人左右/走过渐渐熟悉的街头

新配词:夜深人静/思念你模样/多少次孤单/想伴在你身旁/是什么让我如此幻想/为何会对你那般痴狂

SongNet 模型框架

该任务的挑战在于既要生成跟格式一致的文本,又要保证句子的整体性,还要有歌词的韵律以及美感。所以我们设计了SongNet模型来尝试一次性解决所提到的问题。SongNet模型的基本骨架是一个基于Transformer的自回归语言模型,我们针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。通过局部和全局两种注意力机制达到了对上下文语义和格式同时建模的目的。SongNet模型兼有全局生成和局部精修两种功能,通过主题和类型控制全局生成整段歌词之后,由于模型的局限性,总会有差强人意的部分。这时我们就可以和模型进行交互,将质量不高的词句抹掉让模型局部重新生成补全以达到精修的目的。词粒度和句粒度的MASKing训练策略可以进一步增强模型给定上下文补全缺失内容的能力。

此外,SongNet 也采用了类似于 BERT 和 GPT 的预训练和微调范式,通过在大规模文本语料的预训练和歌词语料的微调过程,可以进一步提升模型生成歌词的质量。

SongNet 根据给定格式填词(宋词和十四行诗)

SongNet 根据给定内容局部补全精修

在“王俊凯AI唱我的歌”H5 中,用户随机输入一个或者多个关键词,AI 就可以根据这份灵感,创作出优美、恰当的歌词,比如“田野花开多芬芳,仰望满天星光”、“青草地里看花开,小花倾听着爱”。

生成的歌词然后会被提交给歌声合成模块,再融合对应的背景音乐,一首悦耳动听的歌曲就新鲜出炉了。

SongNet模型是AI Lab在AI创作方向的一次尝试,现阶段模型也存在一些局限性。歌曲作为一种艺术形式,蕴含了人类细腻的情感和深厚的智慧,在这方面目前版本的模型和人类还有很大的距离,无法感知人类丰富多变的情感。而且此次还同时设置了上下文约束和蕴含特定关键词的限制,所以会在一定程度上降低模型生成歌词的逻辑性和连贯性。未来,我们一方面会持续增强模型对歌曲主题和情感的感知度,另一方面也会设计模型策略来进一步提升生成的歌词的逻辑性、连贯性以及优美度。

顺带一提,AI艾灵还能借助腾讯 AI Lab 研发的王者荣耀游戏解说生成模型来生成游戏解说词,再通过语音合成实时生成生动活泼的解说。

一起探索数字内容生成,共创未来

腾讯 AI Lab 已经通过公开论文发布了 DurIAN 和 SongNet 的技术细节,SongNet 代码也已开源,你可基于此开发自己的虚拟歌手或使用开源代码构建自己的写歌或写诗机器人,共同探索数字内容生成与教育等现实场景的结合方式,创造更多“科技向善”的可能性。

  • DurIAN论文(投稿于INTERSPEECH 2020):

    https://tencent-ailab.github.io/durian

  • SongNet论文(已被 ACL 2020 接收):

    https://arxiv.org/abs/2004.08022

  • SongNet代码:

    http://github.com/lipiji/SongNet

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

唱作俱佳 腾讯AI艾灵领唱中国新儿歌相关推荐

  1. 腾讯最新作品 AI“艾灵”:拥有近乎真人声线,还会跳舞

    根据腾讯的消息,腾讯 AI"艾灵"正式出道.腾讯表示,AI"艾灵"运用腾讯 AI Lab 的 AI 数字人技术,拥有了近乎真人的声线,能像人类一样情感充沛地歌唱 ...

  2. 【新智元峰会】德国AI教皇盛赞中国人工智能,25位AI领袖强势打造中国新智极...

    中美史诗级贸易战,中国AI能否成为破局之剑? 2018年,AI再次成为全球经济竞争的焦点.中美的大国近期在贸易问题上的较量,背后核心原因就是人工智能等技术博弈:最近亚马逊市值超越谷歌,2018年AI云 ...

  3. 【ACL 2020】腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来源:腾讯AI实验室 自然语言理解是腾讯 AI Lab 的主要研究方向之一,研究能力也 ...

  4. ACL 2020 | 腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要20分钟 Follow小博主,每天更新前沿干货 来源:腾讯AI实验室 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 ...

  5. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

  6. 从唱歌到作诗书法,腾讯AI Lab虚拟人艾灵技能再进化

    转载自:腾讯AI实验室 5月21日,腾讯 AI Lab 虚拟人艾灵再秀出新技能,首次展示AI作诗.AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌<百川千仞>. AI&q ...

  7. 谁是“艾灵”?是腾讯的真国风 AI 虚拟人!

    近日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗.AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌<百川千仞>. AI"艾灵"诞生于腾讯AI L ...

  8. 艾灵网络完成战略轮融资

    聚焦工业现场的新型数字化基础设施服务商「艾灵网络」近日宣布完成战略轮融资.本轮融资由亚信科技领投.新加坡电信Innov8跟投,资金将主要用于产品创新与技术研发.加速新型数字化基础设施方案与场景复制推广 ...

  9. 从《中国新说唱》AI选邓紫棋开始,娱乐产业的成功再无偶然

    几天前备受期待的<中国新说唱>第一期终于播出,作为2018年下半年最受期待的网综之一,在第一期就体现出了不少现象级的潜质:像是吴亦凡"Skr"就和去年的"Fr ...

最新文章

  1. PHP的Session机制
  2. 绝对养眼 Tech·Ed 2008大会SHOW GIRL动感热舞
  3. Ubuntu 14.04.1 配置 Android 源码开发环境(jdk版本切换)(转载)
  4. C语言取字节的第n二进制,学C语言的看过来,最完整进制转换、整数和小数内存存储模型...
  5. java9-1.类,抽象类,接口的综合小练习
  6. 2017杭州云栖大会FAQ(持续更新中)
  7. guava 对集合的支持
  8. centos 5 手动分区来安装系统的方法
  9. 根据吴安德(斯坦福大学深度学习讲座),您应该如何阅读研究论文
  10. GitHub 标星 15.3k,Java 编程思想最新中文版
  11. Android精品开源项目整理_V20140221
  12. 用图片替代cursor光标样式
  13. 智联招聘 'python数据分析'职位分析第一篇
  14. 微信小程序根据用户当前位置并打开地图选择周边地址,完成外卖地址选择并计算距离
  15. 5G 空口信令分析指导书
  16. 106-网络安全——第七章计算机病毒和手机病毒
  17. 排序篇:直接插入、希尔、直接选择和堆排序(C语言)
  18. Date: 7 Dec, Saturday 佳能交流空间
  19. Java(老白再次入门) - 入门概述
  20. 李飞飞团队新研究登Nature子刊!实现可信 AI,数据的设计、完善、评估是关键!...

热门文章

  1. pthread_cond_wait()与pthread_cond_signal()
  2. 全网最全大数据集群环境配置
  3. 大华服务器装系统,大华车载监控系统工程安装指导书(完整版).pdf
  4. Excel如何导入PowerBI处理好的PowerQuery查询?又如何导出呢?
  5. 个人邮箱怎么注册申请你知道吗?大容量邮箱哪家好
  6. 【PaperRead】RAFT-论文笔记
  7. 最新企业春节祝福短信模板内容_2022年创意公司拜年短信文案
  8. 南华大学计算机学院ICT,【计算机学院】南华大学计算机学院2016级物联网工程系、网络工程系教育大会顺利举行...
  9. Excel 中国式排名
  10. oracle数据库约束是什么意思,oracle数据库约束