一键定制个性化语音,微软的AI语音落地实践
近日,微软与周迅AI语音红丹丹公益项目发起人鹿音苑文化传播公司、以及来自微软及各界的150名余志愿者,将创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心(下文简称“红丹丹”)“心目图书馆”。
这些作品是基于微软Azure云认知服务语音合成平台Speech Studio及其丰富的人工智能(AI)语音创作,其中包括艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。
微软在智能语音领域已深耕长达二十余年。智能语音作为人工智能的核心技术之一,早已融入于微软全球产品,这其中包括Windows朗读、Skype、Office等产品,并随着微软云认知服务(Cognitive Services)的推出,形成面向开发者和合作伙伴的开放平台体系,提供强大而灵活的语音服务。
语音技术最新进展视频:
微软AI语音最新进展介绍
媲美专业发音人的智能语音系统
近年来,结合深度神经网络技术的不断创新,微软智能语音合成(Text-To-Speech,TTS)技术取得了诸多突破性进展。2018年12月,微软率先在全球范围内推出端到端的深度神经网络语音合成服务,使计算机和智能设备拥有了媲美真人的人工智能声音。
在探索提升语音自然度的同时,微软语音合成技术也不断挖掘语音的表现力、丰富度和智能度。通过多情感、多角色和情感强度可调节等技术升级,微软智能语音极大程度地丰富了合成语音的风格。更进一步,为了大大降低有声内容的创作成本,微软针对复杂长文本,提供了智能情感和角色的预测功能,让AI语音具有更强的理解力,让有声内容创作变得轻松又便捷。
具体而言, 智能语音多情感技术创造性地从人类语音中挖掘出情感语音特征,赋予了合成语音拟人的表现力,让合成语音不仅可以根据不同场景进行变化,也有了“自己的喜怒哀乐”。声音因此更富有表现力,不仅得以更贴切地表达文字内容,也让语音更容易理解、更生动。
譬如,中文晓晓的声音已达到14种情感风格,可以用“抒情”、“新闻”、“聊天”等不同风格来演绎不同使用场景下的作品,也可以用“开心”、“悲伤”、“生气”、“恐惧”等多样情感在对话中表达不同的情绪和态度。
人的情绪就好比是色谱,色谱的颜色从深到浅,人的情绪也一样,有从强到弱的变化。微软智能语音情感强度可调节技术,可以加强或者减弱情感强度,让情绪的表达更加细腻,从而大大扩展了情感矩阵,丰富了多情感语音的表达;在实际的人与人对话中,情感的变化是微妙的,通过情感程度可控技术,可以让人工智能对话或聊天机器人变得更流畅、真实,人设也更加统一。
微软智能语音提供众多声音角色供用户选择,覆盖不同的年龄、性别和个性特征,其中一些声音还可以扮演不同角色,比如男声演绎女声、年轻声音扮演年老声音等。通过微软高质量的声音家族,用户可以挑选更符合实际场景的不同音色,满足自然的对话需求,也可以创作更有趣的多播剧。大大扩展了有声内容的创作空间。
微软智能语音也在探索更加智能、更具理解力的语音系统,在创造出丰富、自然、具有表现力的有声内容的同时,进一步降低人工的操作成本。根据上下文信息,微软语音能够识别出来旁白和对话,人物角色,以及语气和情绪,并自动推荐一个最合适的声音。
为了让每个人都可以轻松创作有声内容,微软提供了一套智能有声内容创作工具平台。输入文本后,工具可以先针对角色和情绪进行预测,然后选择合适的声音进行演绎。创作者可以对声音、情感、韵律、发音等进行调优,创造出不一样的有声内容。
作为情感的延伸,唱歌是人类表达情感的重要方式。微软语音也在基于神经网络的唱歌技能上取得了突破。微软人工智能语音晓晓和朱婧汐一起合唱高难度的《人类零件》歌曲,展示了中英双语演唱以及说唱能力,合成效果逼真自然。
微软云拥有全球覆盖最多的数据中心,其认知服务智能语音技术面向全球市场,覆盖语言数量世界领先。目前,微软的语音合成支持54个国家和地区的语言,提供超过150个声音供选择。
个性化定制深化品牌价值
在人工智能时代,AI声音已经不仅仅是一项基本能力,更被赋予了很多品牌属性。在诸多行业的实际应用中,客户往往需要一个具有高识别度的个性化的声音,而“深度定制”恰是微软智能语音平台的一大强项。
基于客户提供的声音数据,微软可以实现“细粒度”的定制,包括语音合成的音色、说话的风格、特殊的发音需求甚至演唱等特色功能等。在使用方面,微软语音也相当灵活,不仅服务于云平台,也支持本地化和离线部署等多种场景。
微软云计算与人工智能事业部资深产品总监丁秉公认为,个性化时代,声音即品牌。微软的语音合成技术可以为企业定制丰富的音色,实现品牌价值的最大化。
2019 年 11 月,微软推出了基于深度神经网络语音合成技术的声音定制服务(Custom Neural Voice)平台,将高质量的语音合成引擎开放给第三方,使得微软合作伙伴和客户可以通过简单的自助服务定制有标识度和个性化的声音。
微软语音定制涵盖了从声音画像的设计、到数据的收集和整理、模型的优化和系统部署的方方面面。用户更可以通过Custom Voice声音定制平台实现一键定制的自助服务。
传统技术定制的语音模型,由于需要发音人录制成千上万句话,需要耗费几个月的时间,成本巨大。而微软基于深度神经网络技术的定制化语音,可以用更少的数据达到更加高拟人度和自然真实的效果。通过微软语音涵盖超过50个语言的UNI-TTS基础模型和深度神经网络强大的迁移学习能力,微软声音定制还支持跨语言定制,实现一个音色多个语种的多语言能力。
据悉,这一技术已经率先在多个知名企业得到应用。这包括新媒体、通信、教育、金融等多个行业,涉及客户服务、AI对话和内容生产的多个场景。
譬如英国广播公司 BBC 就在微软声音定制和语音合成技术的帮助下,打造了一款虚拟助手 Beeb用于多模态的客户服务和有声内容创作。具体而言,BBC不仅需要Beeb发出标准英式发音,甚至细化到英国北部某个特定地区的口音风格,还有多风格的要求,比如在跟真人打招呼时,声音需要符合个人助理身份的互动风格,而在播报政治、军事类新闻时,就需要严肃的声音风格。
面对这一挑战,微软在 BBC提供的不到2小时的录音人数据量中,与语言专家、客户挑选和分析其中特定口音的发音特点,汇总成模型能识别的规律,最后构建到定制化模型里,生成高质量、多风格的声音。
在教育行业,微软语音团队协助知名独角兽公司多邻国Duolingo打造具有多语言能力和丰富角色特征的声音。据多邻国艺术总监Greg Hartman介绍,“每一个角色的声音都是和它的人物性格的一部分。微软定制声音平台基于我们的角色特性,赋予了每一个人物生动的声音风格。”
此外,微软智能语音团队还帮助 AT&T时代华纳、Swisscom(瑞士电信)、Progressive等多家知名企业创建了他们的个性化声音,实现与用户的自然对话和交互。
在中国,目前语音服务也落地到由世纪互联运营的Azure云服务上,中国用户可以使用和全球一样质量的语音合成服务。
2019年春节前夕,央视新闻联合微软推出互动融媒体产品《你的生活 AI为你唱作》,其中央视主播康辉和微软AI智能语音中文晓晓为用户唱作专属歌曲,央视主播康辉的声音即是利用微软智能语音的声音定制技术生成。此外,周迅为红丹丹图书馆录制有声书、知名作家土摩托录制三联生活周刊音频内容时,都用到了微软定制语音合成技术。微软以少量真人语音为训练样本,为他们合成了专属于自己的智能TTS声音。
除语音合成之外,微软AI speech 还能够提供全面的核心语音能力,例如语音识别、语音评测、语音翻译,这些能力都支持多语种以及基于不同场景的定制。
其中,微软的语音识别支持全球 30 个地区和国家语言,能够提供近场和远场识别,在线(real-time)和离线(batch)的灵活调用方式。语音识别还可以支持关键词识别,说话人分离,语言识别,情绪识别等多种功能。
而微软语音评测产品可支持包括英语在内的全球 40 多个国家和地区的语言,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。
总体而言,随着深度神经网络算法的突破,数据的爆发,基础设施的完善,AI语音技术正在走向大规模应用增长的发展方向。
体验有声内容创作工具平台:
https://speech.microsoft.com/audiocontentcreation
一键定制个性化语音,微软的AI语音落地实践相关推荐
- 智能语音交互技术在360的落地实践
作者:龚小春,来自:DataFun 导读:随着语音交互技术的发展,对话系统已经越来越成熟.对话系统的最新进展绝大多数是由深度学习技术所贡献的,深度学习技术可以通过利用大规模数据来学习有意义的特征表示和 ...
- AI 场景的价值体现——视觉 AI 技术落地实践
https://www.infoq.cn/article/2017/12/Ground-practice-visual-AI?utm_source=related_read&utm_mediu ...
- 大咖圆桌会【Azure AI的落地实践】
[致谢] 在疫情还较为严重的3月份,怀着分享科技共同学习的初心,上线了第一期AML系列课程直播.自上线以来,在微软直播平台和B站上收获好评如潮,感谢我们的合作伙伴,感谢各位码友同学的厚爱和支持,接下来 ...
- 大势要落地!开发者应该关注的 AI 应用落地实践
2019年对AI企业来说,是关键的AI应用的落地之年.AI已经不停留在概念及资本市场融资的阶段.根据北京市经济和信息委员会去年7月发布的<北京人工智能产业发展白皮书(2018)>对国内AI ...
- AI语音定制化,将给2020带来三个可能
2016年,美国一位科技记者James Vlahos,做了一件感动无数人的事. 他在父亲临终前几个月,下定决心要把父亲的声音和教诲永远留在身边.于是非技术背景的James在一个AI项目的帮助下,自学语 ...
- RTE2021 回顾丨实践中的摸爬滚打,AI OPS 落地之路
本文整理自声网Agora SD - RTN 网络传输质量负责人于涛在 RTE2021 实时互联网大会上的演讲分享.他在演讲中针对传统 OPS 痛点.AI OPS 的优势以及 AI OPS 工程化的难点 ...
- 微软深度神经网络语音,定制个性化的自然人声
以往,谈及对合成语音的刻板印象,很多人会联想到<星球大战>中的C-3PO--那个有着近似人类外形金光闪闪的家伙,它是整个系列影片中毫无争议的搞笑担当,其动作僵硬而滑稽,说起话来喋喋不休,声 ...
- 讯飞智能语音鼠标G50:AI语音、转写翻译、记录截图一键搞定!
随着互联网的发展,智能鼠标已经成为我们生活和工作中不可或缺的组成部分.然而,鼠标滚轮异响.按键失灵.驱动难用.手感不合适等一系列问题仍时有发生,所以选择一款智能鼠标尤为重要,它不仅可以提高我们的工作效 ...
- 车载c语言,Cerence推出语音克隆技术解决方案 定制个性化车载语音
描述 人工智能让人们可以将出行助理的声音创建成自己的.爱人或朋友的声音 Cerence Inc. (NASDAQ: CRNC), AI for a world in motion, 近日推出了革命性的 ...
- azure微软文字转语音小工具V1.3.2(ai智能配音,目前最好用)的使用说明和下载
概括: azure微软文字转语音小工具是调用azure服务器的程序,可能是目前最好用的配音软件.其配音效果几乎与真人没有区别(非常仔细听可能有些许区别). 拥有12种热门配音声音,4男8女,可调整多种 ...
最新文章
- 延展公司与兰石重装签订战略合作协议
- stl-优先队列priority_queue
- impala元数据放到mysql_impala系列: 同步Hive元数据和收集统计信息
- 中国人工智能学会通讯——基于视频的行为识别技术 1.1 什么是行为
- 初识ABP vNext(6):vue+ABP实现国际化
- EBS并发管理器请求汇总(按照并发消耗时间,等待时间,平均等待事件等汇总)...
- 厦门大学计算机科学与技术学院考研分数线,2020年厦门大学计算机科学与技术考研经验分享...
- 济南python工资一般多少-济南Python+人工智能
- TCP层的分段和IP层的分片之间的关系 MTU和MSS之间的关系
- 无源贴片晶振四角引脚_用最简单的办法轻松区分无源晶振和有源晶振
- 服务器物理硬盘序列号,服务器硬盘序列号查看
- C#学习(十一)——IntPtr类型
- 74衍生系列芯片型号简介
- XML保存衣服尺码信息
- import org.junit.Test飘红
- HP打印机显示状态出错
- MongoDB 数据文件损坏修复救命repair与致命危险
- 伦敦与北京奥运开幕式戏说
- 小飞鱼通达二开 企业微信与通达OA的另一种集成方式(图文)
- 用keras创建拟合网络解决回归问题Regression
热门文章
- 电子标签有哪些封装方式
- AE After Effect 渲染如何输出设置
- coverity java_coverityamp;fortify1--Poor Error Handling: Overly Broad Catch
- XML 转 JSON
- 华为鸿蒙操作系统国美通讯,国美通讯(600898)03月14日14:30大单揭秘
- java使用极光推送_java使用第三方推送-极光推送
- 图像处理--最大内接圆
- WebWork深入浅出(http://www.blogjava.net/moxie/archive/2006/10/20/76375.html)
- 专业心理性格测试软件,what is my color心理性格测试
- Cartographer 3D建图与纯定位(在线建图、保存和纯定位)