得益于AI技术的发展,合成声音已经能媲美人声。而声音定制服务的出现使得越来越多的企业和个人可以拥有个性化的独特AI声音。通常这种AI音色的定制需要采集人类配音员(发音人)的声音数据作为AI机器学习的对象,因此,个性化的声音定制又称为“声音复刻”,或者“声音克隆”。其中,微软全球云Global Azure上的认知服务的企业版神经网络声音定制服务就提供了更便捷地创建高质量合成声音的方法,可为用户带来真人一般的听觉享受。

不过,你知道训练一个符合商用需求、自然流畅、富有情感的AI虚拟声音需要花多长时间吗?按照传统的语音合成模型生产流程,这通常需要用一两个月的时间在录音棚采集10小时甚至20小时(约6千-2万句语料)的专业发音人说话数据,再用至少一个月的工程时间完成声音模型的训练、测试、优化和部署。而微软给出的标准化操作平台可为客户提供全程自助服务,极大地简化了声音定制的训练流程,其深度神经网络技术更是将对训练语料的需求从10-20小时的录音数据减少到仅需30分钟到3小时录音数据(约300-2000条录音语句)。

“光说不练假把式”,下面就跟随微软的步伐,开启个性化合成声音定制之旅吧!

通过观看视频,详细了解如何在微软Global Azure上使用微软神经网络声音定制服务创建专属 AI 语音。

如何使用微软神经网络声音定制服务创建专属 AI 语音

下方表格是自助创建定制声音的流程概览,之后我们将详细解释每个步骤。

准备工作

1

打造负责任的AI

● 阅读并填写“神经网络版定制声音申请表(custom neural voice application)”

2

明确声音角色

● 定义声音角色

● 匹配发音人

3

创建脚本

● 下载通用脚本

● 创建专业领域脚本

4

声音录制

● 录制授权声明

● 根据录音脚本录制训练语料

在Speech Studio创建声音模型

5

创建新项目

● 通过Azure帐户登录Speech Studio

● 创建新的定制声音项目

6

上传声音数据

● 上传授权声明音频

● 上传声音数据和脚本

7

训练声音模型

● 挑选合适的训练数据和正确的发音人声明文件

● 输出声音小样进行试听,以确保质量

8

部署声音模型

● 部署所训练的模型

● 测试API端点,确保服务运行良好

集成声音模型

9

生成有声内容,或开发专属应用

● 利用有声内容创作工具调用声音模型,无需编写程序

● 利用Speech SDK开发程序,在你的新应用使用定制声音

第一步:准备

1. 承诺共同打造负责任的AI

神经网络版声音定制服务是一个面向企业客户的商业应用。在使用Speech Studio定制专属的声音模型之前,你需要代表你的企业或组织填写一份“神经网络版声音定制服务申请表”,并描述你的使用场景。微软致力于保护个人和社会的权益,促进人机交互的透明性,并防止声音冒用和误导性内容的传播。因此,微软对神经网络版声音定制服务的访问和使用做出了限制。在提交使用申请并承诺与微软共同遵循负责任的AI原则后,你才能获得该服务的访问权。想了解申请流程的更多细节,可以查看此视频。

微软神经网络定制声音服务申请指南

2. 声音角色设计

声音角色是对你将要创建的AI虚拟声音的具象化描述,它涵盖了一系列与声音相关的形象特征和听者感受。通过声音角色的定位,一个好的声音可以与你的客户产生情感连接和共鸣。譬如,在某些场景中,你的声音角色可以贴近一个40岁女性的音色,她说话权威、自信,坦率又迷人,做事理性而公正。

一定要仔细考虑声音角色,因为在用这个声音与你的客户进行沟通时,TA代表着公司的形象。除了要传达与公司相匹配的品牌意图外,声音角色的设定还可以帮助你确保声音定制过程的各个环节的一致性,这包括发音人选择、脚本创建、训练数据录制过程以及最终的模型测试等。

3. 选择合适的脚本

编写脚本的关键在于,能够让发音人轻松捕捉到所塑造的声音形象的人物特色、声音特点,并在录音过程中保持一致的风格。

脚本中的语句可以来自不同来源,语句之间也不必有相互关联。录音脚本中可以包含通用语句和专业语句两个部分。对于有特定应用场景的声音定制,我们推荐你根据自己的场景去制定一些针对性的领域相关的录音脚本。如果你不想自己准备脚本,微软提供了一些共享脚本,这些句子是从公开领域挑选出来的,能够支持不同语言的声音模型的训练。如果你打算定制自己的脚本,有一些制作原则你需要考虑,如:脚本中语句的覆盖范围要尽量均衡,包括陈述句、疑问句、感叹句、长句和短句;一行一句,不要把多个句子放在同一行等等。更多指导可以点击此链接查看。

记得仔细检查脚本是否有误,最好进行交叉互查,尤其在声音录制完成之后,需要复验脚本与发音人所说的是否完全一致,如果有不一致的地方,需要按照发音人实际录制的内容进行修改。

4. 筛选发音人、确定录音地点

声音角色确定好以后,就可以挑选发音人了。找到合适的发音人,与设计声音角色和选择脚本同等重要。选择发音人时,需要确保发音人在理解你的声音角色和内容方面拥有丰富的经验,并且具有良好的嗓音,发音清晰、对音高音调能进行良好的控制。尽量保证发音人的自然声音适合你的声音角色。

下面要敲黑板了,一旦选定了发音人,一定要与发音人签订书面协议,并获得发音人的正式授权,你才能使用他们的声音数据来制作合成语音。

关于录音地点,专业的录音工作室是你的首选。安排录制时,建议以2小时或3小时为单位,每次录制至少间隔一天。让录音工作室在第一次录制后提供几段录音,以便检查音频规格。最开始可以安排每小时大约100条语句的录制。随后的时间可以根据前两个阶段每小时完成的录音数量进行调整。

录音时,长句应该分成独立的短句或短语。例如,发音人应该在读完一个句子或短语后停顿,再说下一句。而句子或短语也要分割成独立的.wav文件,并对每段脚本逐行编号。更多关于脚本的信息,可以阅读文章:定制声音的数据准备。

提醒:不要忘记让发音人录制下面这句话,并上传至Speech Studio Portal:
“我(填入你的姓名)确认我的声音将会被(填入公司名称)使用于创建合成版本语音。”

点击这里你可以找到授权声明的多语言版本以及用于录制的示例脚本。

第二步:创建

5. 检查录音质量,创建声音合成项目

在录音合同结束前务必检查好音频质量,音频文件必须是RIFF (.wav) 格式,采样率至少为24000 Hz,样本格式至少为16位PCM(脉冲编码调制),文件必须是以数字命名的.wav文件扩展名,不能有重复的文件名。所有音频文件必须短于15秒。点击此处了解更多关于音频属性的信息。

打开Speech Studio,使用Azure帐户登录,选择要合成声音的语言。然后,进入项目页面,点击“Set up voice talent”(“设置发音人”)为您的声音创建发音人并上传发音人授权语句。

6. 上传声音数据

你至少需要提供300个语句作为神经网络定制声音的训练数据。如果所创建的声音要用于正式的企业级产品,我们一般推荐2000个语句。

你所训练的声音模型的质量很大程度上取决于你所采用的训练数据的质量。录音和脚本数据上传成功之后,你可以检查数据质量报告,确保声音数据的发音准确性良好,信噪比在可接受范围。同一个训练集里的录音数据需要在音量、语速、语调以及表达方式等方面保持良好的一致性。关于上传声音数据的更多信息可以查看此文档。

7. 训练声音模型

确认训练数据的质量之后,你就可以提交数据来训练声音模型了。注意,在提交训练时,你需要将所选择的录音数据与发音人资料进行关联。如果发音人授权声明与训练数据中的声音不匹配,那么训练请求不会被通过。

模型训练成功之后,平台将直接输出100个测试音频作为试听的小样。你也可以提供不超过100句话的自定义测试脚本来进行试听。试听无误,你就可以部署你的模型啦!

8. 部署声音模型

部署声音模型来获取语音合成API接口的唯一ID。声音模型只有部署之后才能用于有声内容创作工具,或者通过文本转语音SDK进行程序开发和集成。部署声音模型后,也会产生相应的托管费用,产品价格信息请参考此页面。你可以随时Suspend(暂停)你的模型,这样就不会产生托管费用。

第三步:集成

9. 使用定制声音

你可以使用有声内容创作工具,根据你的文本内容,对声音模型的参数进行微调,以输出不同的声音效果。微软语音平台的有声内容创作工具是基于语音合成标记语言 (SSML) 创建的,它提供了功能丰富又易用的界面,使用户可以通过简单的操作,实时修改语音合成的各种属性,包括情绪风格、读音、韵律、音量、语速等等。有关有声内容创作工具的信息,可以查看此视频。

如果你想开发自己的应用程序来使用定制声音,可以点此查看更多关于使用Speech SDK的信息。

好了,现在就行动起来,开始一场声音定制之旅吧!(产品主页)

特别提示:截至发稿时,神经网络版声音定制服务已在微软Azure.com正式发布,但尚未在世纪互联运营的Azure.cn上线。

想要定制专属AI声音?这是一份来自微软的保姆级攻略相关推荐

  1. 想搭建一个专属于你的网站吗??新手向超详细攻略

    想搭建一个专属于你的网站吗??新手向超详细攻略 搭建攻略 了解网站基本构成 购买域名 域名备案 购买服务器 配置域名解析 配置服务器 了解必要组件 进入webshell安装 进行环境配置 安装CMS系 ...

  2. “掘金”金融AI落地,英特尔趟出一套通关攻略

    有人说,金融业是最大的AI应用场景,但不管怎样,不可否认的事实是金融业已经从数字化走向AI化. 某种程度上,AI与金融业有着天然的契合性:其一,金融业本身就是以数据为基本元素的行业,它为AI的模型训练 ...

  3. 语音合成数据解决方案助您获取专属AI声音

    在2020年小米开发者大会(MIDC)上,小米宣布小爱同学5.0正式上线.小爱同学在声音体验上做了很多创新,如奶萌泡芙童声.多情感语音.粤语合成.定制声音等. 在语音合成技术的支持下,小爱同学做了很多 ...

  4. 百度AI攻略:地标识别

    1.需求及方案: 在我以前的一个帖子https://ai.baidu.com/forum/topic/show/943365 里面讲了怎么通过图像分割来旅游. 这一次我要说一下怎么通过地标识别+百度百 ...

  5. 99元起定制专属RPA机器人丨UB Store年中钜惠

    炎炎夏日,不管是"前浪",还是"后浪",都抵挡不住酷暑热浪.不少办公族的"夏日综合症"又犯了. 精神疲惫.心理烦躁.容易疲劳--什么都没干就 ...

  6. 小度在家推出密语功能,个性化定制让AI更懂你

    北京2018年8月17日电 /美通社/ -- 近日,由小鱼在家联合百度共同定义.深度合作的国内首款带屏智能音箱小度在家推出了"小度密语"功能,密语功能够让用户"教会&qu ...

  7. 想去苹果做AI?看看你够不够格

    翻译 | 王柯凝 出品 | AI 科技大本营(公众号ID:rgznai100) 苹果手机很常见,苹果工程师却不常见. 国内的网络上活跃着诸多 Google.微软.亚马逊.Facebook 的工程师,而 ...

  8. AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型

    AI:百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型 目录 百度飞桨EasyDL多门视频课程,手把手教你如何定制高精度AI模型 百度飞桨EasyDL多门视频课程,手把手教你如何定制 ...

  9. 超实用的 IPTV 管理工具,xTeVe 助你定制专属电视频道。

    虽然现在视频流媒体点播平台已经成为了大家主要的影音娱乐渠道,似乎没什么人看电视了,但我想需求还是在的,比如家里的长辈可能就不太会操作点播平台,他们比较习惯传统的直播电视,再比如新闻或者体育赛事,这类节 ...

  10. LaTeX入门|(2)定制专属模板

    看懂Latex模板(或定制专属模板) 一个简单的latex文档,我们只需要一个tex文件即可,但实际上我们在其中调用了文档类以及宏包.为了不在一个tex文件中将格式与正文堆在一起,我们可以自己设计专属 ...

最新文章

  1. 本是同根生,相煎何太急?
  2. 2013年4月工作小结 -- 穿越前的回眸
  3. rxjs里的Observable对象subscribe方法的执行原理
  4. 原生希望原生JavaScript开篇
  5. python快速入门课堂笔记_Python 快速入门笔记(9):模块和包
  6. svg标签的CSS3动画特效 - 经典特效2
  7. CSS中自适应屏幕分辨率
  8. 计算机视觉与深度学习应用关系
  9. linux java Cannot allocate memory
  10. 已知网络号求子网掩码c语言,已知ip地址和其子网掩码如何求网络号子网号主机号 - 已知ip地址求子网掩码_已知ip地址和子网掩码求网络号、子网号和主机号...
  11. Vmware请选择您要安装的macOS的磁盘
  12. 计算机网络结构化布线的六个子系统,结构化网络综合布线系统有六大子系统组成...
  13. 拒绝iap cracker
  14. 如何打造短期爆发式增长的爆款文章
  15. 用evo工具箱评估LeGO-LOAM轨迹
  16. linux中查看文件大小
  17. 什么是全景图?怎么做全景图?
  18. 制造业数字原生的OT数仓建设
  19. #分析方法#波士顿矩阵
  20. 淘宝、抖音、美团头条推荐系统的基础架构

热门文章

  1. 微信小程序开发--虎年头像制作、虎头帽制作
  2. 线性表表长是否要算入头结点
  3. vum安装mysql_CentOS安装MySQL的完整步骤
  4. 惊人的磁场定律:你是谁,就会遇见谁
  5. 解决kali linux 和 win10 双系统时间不一致问题
  6. 大数据、数据分析和数据挖掘的区别
  7. 虚拟主机需要备案吗?
  8. java集合转字符串 字符串转集合 StringUtils 一个强大的字符串操作工具
  9. wifi模块php,什么是Wifi模块 Wifi模块功能有哪些
  10. 努比亚 Z17(Nubia NX563J) 解锁BootLoader 并刷入recovery