“听众朋友们,你们好。从今儿个,由我为大家播讲悬疑小说,《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里……”情感充沛的评书腔调,苍劲沙哑的嗓音,单田芳大师的“声音”再次响起,热爱评书的朋友一听恍若隔世,已故的单老评书怎么突然回来了?

三年前,无数人感慨世上再无“下回分解”,网友们的呼唤被听见了,为致敬单老,也为给遍布大江南北的书迷朋友们一个惊喜,喜马拉雅运用AI技术让“书接上回”重现江湖。

耳熟能详单老的“下回分解”故事重新回归,这段记忆中的声音背后,是来自于喜马拉雅的语音合成(TTS: Text-to-speech)技术,即将文字转化为声音,喜马拉雅的技术团队还将单田芳先生的AI合成音应用于六部风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经典之作。

语音AI让单老声音重焕新生

不熟悉评书的朋友们可能不知道单老的魅力。在北方的出租车上,遇到司机在播放单老的评书概率还是蛮高的,而在喜马拉雅的评书类目中,单老的专辑评书节目长期在热播榜前列。例如,《乱世枭雄》在喜马拉雅的播放量近24亿,《白眉大侠》播放量近20亿。在民间也有个说法:“凡有井水处,皆听单田芳。”喜爱他的书迷遍布大江南北,故事中的魅力经过单老情感充沛的演绎极富有味道。

打开喜马拉雅,在《单田芳声音 AI 重现系列》专辑中,既有直击泪点、奇人异事道尽人生悲欢的武侠小说——赵晨光的《江湖消亡史:北平暗夜》,也有传达时代脉动的纪实文学——陈廷一的《毛氏三兄弟:三兄弟与共和国奠基》,还有时下流行、故事情节曲折奇特的推理小说——紫金陈的《无证之罪》,更有延续单老生前未完成的评书经典——宫白羽的《十二金钱镖》……

这些经典之作让评书爱好者像过年一般。大家想念单式评书中的故事与人生,人物的百转千回与侠义洒脱。单老的声音与跌宕起伏的故事加起来就等于完美,让人立马沉浸在故事的世界中。很多书评爱好者都留言表示:怎么没有早点用AI技术啊,让人痴痴等了好几年。幸运的是,有人在为传统艺术默默出力,完美复现单老声音的背后,是来自于喜马拉雅智能语音实验室团队的AI技术。

据喜马拉雅智能语音实验室卢恒博士的介绍,喜马拉雅智能语音实验室运用TTS 技术,融入团队自主设计的韵律提取模块以及专门的口音模块,才得以实现原汁原味的单老独特声线。

TTS技术早已在喜马拉雅电子书、新闻等领域实现了广泛的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。但是主流的TTS 框架模型是对音频内容直接进行提取和合成,最终成型的内容效果整体上来说人的那部分情感和情绪都显得很寡淡。而在评书这个场景中,韵律的起伏非常大,正是因为韵律的变化才使得评书引人入胜,平淡的情绪和腔调带来的后果就非常致命了,而这也是TTS技术中的难点。

喜马拉雅智能语音实验室自主设计的韵律提取模块,无论单田芳先生评书中的韵律多么丰富和多变,都能提取并完全复刻出来,这才让单老的AI合成音仿佛本尊再现。

另外,评书中有很多特殊口音,比如口语化的评书中,“这个”中的“这”字,普通话发音“zhè”,但在评书中通常读为“zhèi”,跟普通话的发音有很大的区别。为此,喜马拉雅团队专门做了特殊重音和停顿的标注,才使单老AI合成音能够还原出老味道。

除了高度还原单老的声音外,在新的专辑中,也加入了高级音效设计师的配乐与音效,让听众通过耳朵就能获得身临其境的沉浸式体验,评书中的世界立马变得立体和生动起来。

通过这些弯弯折折,单式评书才得以重见天日。

天生相互吸引:

内容与AI语音技术的邂逅

我们听到的原汁原味的单老“声音”,其完美复现并非偶然,而这也只是喜马拉雅TTS技术的冰山一角。喜马拉雅已在智能语音技术上深耕多年,尤其是在TTS领域方面潜心钻研多年。

目前TTS在业界的发展十分迅速,国内布局TTS赛道的有一线大厂,比如阿里拥有的语音合成技术KAN-TTS,腾讯云在语音合成方面也有技术研发。国外像DeepMind创建的语音合成器WaveNet,让语音合成的音质有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音频波形的深层神经网络模型—“WaveNet”,并在一年多的时间内将原始模型的效率提高了1000倍,而在一组美式英语的人类听众测试中,WaveNet的得分超过了真实人类语音。

喜马拉雅语音技术团队也已经研发出自己的声码器“PhaseGAN”,这种基于生成对抗网络的声码器甚至有着比WaveNet 更高的生产效率。

喜马拉雅TTS技术的核心,就在于如何让机器的声音听上去韵律自然、情感充沛。说白了,就是如何在机器声音中注入人性。拿有声小说这个场景来说,用TTS音色演绎有声小说需要学习小说中的抑扬顿挫、情感表达、上下文关系,区分旁白和对白等,将作品像真人一般呈现出来很困难。

而喜马拉雅的TTS模型系统有着独特的基因优势:

1.内容数据丰富,区别于一线厂商的数据来源,喜马拉雅在音频赛道多年耕耘,已积累海量的内容,包含大量的有声书内容与众多的主播,基于这些庞大的语音素材库,喜马拉雅有强劲的模型迭代语料和更大的发挥空间。

2.数据是模型迭代的燃料基础,在此之上,喜马拉雅也有厚重的研发实力。在语音合成、语音识别、智能音效、语音编解码、语音信号处理和虚拟主播等技术上,喜马拉雅都进行了深度研发。自研的TTS前端文本处理分析模块,可高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,可以演绎不同情绪文字,还能自动区分旁白、对白,并支持英文,丰富了TTS能表达的情感和韵律。

3.专利效能,现下喜马拉雅已申请了三项TTS语音合成相关专利,一是在没有任何英文原始数据的TTS声音就能够实现说英文的技术框架,让不会说英文的人也能流利地讲英文。另外,喜马拉雅还采用并行解码器,生成语音合成序列,改进了语音合成后端模型的结构和效率。

我们可以发现TTS技术的独特优势可以丰富内容的生产迭代,不仅将提高内容生产效率,也让更多不同内容的生产成为可能。在喜马拉雅当下主要的PGC、UGC、PUGC三大内容生产模式之外,AI语音技术的更新迭代让第四种新内容生产模式——AIGC成为可能,并展现出更大的想象空间。

喜马拉雅的内容生态经过多年的积累、更新,内容精良并且IP丰富。丰富的IP与技术的结合将可能碰撞出更加多元的火花,让听众听到以往所难以甚至不可能听到的内容。把脑洞开得大一些,在AI语音的赋能下,未来我们是否可能听到各种内容IP和不同声音IP的组合?比如,孙俪“声音”演播的《甄嬛传》,孙红雷“声音”演播的《扫黑风暴》,甚至,张艺兴版的评书,易烊千玺版的童话故事等内容。这些逼真自然的声音和不同内容相结合,在各类题材和频道中出现,将会给听众带来很多惊喜。只有你想不到,没有AI做不到。

技术与内容的双向赋能如同两个啮合完美的齿轮一般,驱动着喜马拉雅内容和产品的更新迭代。从数据上来看,用户用脚投票,喜马拉雅的月活跑在了行业前列。据喜马拉雅招股书内容显示,截至上半年,移动端总收听时长和在线音频总收入来看,喜马拉雅是中国最大在线音频平台,平均MAU达2.62亿,其中包括1.1亿移动端用户和1.51亿的物联网及其他开放平台的用户。移动端用户共花费8478亿分钟收听喜马拉雅音频内容,占中国在线音频总收听时长的70.9%。

在双飞轮驱动的模式下,喜马拉雅内容和技术都在向前向深飞驰,给我们用户带来了更加丰富的内容与体验。剖析音频行业这个并不为大众熟知的赛道,可以透视到是什么决定了机器如何说话,决定了用户耳朵的体验与舒适度,也可以看到头部的企业带来了哪些经验,如何撬开智能语音的富矿。

“声”写未来

给大家一个数据感受下音频市场的增长势态。据悉,2020年中国在线音频用户数量已经有6.4亿人,其中超六成用户表示曾经购买过在线音频服务,预计2022年将达到6.9亿人。没想到吧,大家的付费意愿竟然这么强势。平时勤俭节约的大家,在丰富精神世界方面,却舍得愿意为大脑和心灵投资。

在音频市场的快速增长下,围绕“耳朵经济”的竞争日趋激烈,除喜马拉雅、荔枝、蜻蜓FM等老牌平台之外,腾讯、字节跳动等互联网巨头以及中央广播电视总台这样的“国家队”也纷纷进入这一赛道。各大平台内容类型的丰裕程度与是否具有差异化的优质内容是吸引用户以及撬动用户付费的关键。

可以预见的是,在语音技术加成下,TTS技术制作的高效高质音频内容会进一步赋能优质内容的生产,喜马拉雅的内容生态“PGC、UGC、PUGC”也将因为新成员AIGC的加入,在内容创造方面,带给用户更多的听觉盛宴。

喜马拉雅的AI技术与内容互相磁吸,螺旋缠绕不断向前向深发展, AI技术为喜马拉雅的内容生态加码,而内容反哺技术不断精进。技术与内容的全面融合也撬开了未来的智能语音合成市场富矿:

1.对传统文化的传承,丰富和传承评书这类非物质文化遗产,影响越来越多的传统文化爱好者和青年演员去参与其中,创造更丰富的文化遗产。

2.对平台的创作者来说,提升效率和内容的质量,让创作者不再陷入音频制作的重复性工作中,在多种内容的制作方面TTS都可以赋能创作者的转型升级。

3.AI技术及大数据分析能力让内容创作、分发和运营更加精准化,随着音频内容逐渐规模化,以及技术的迭代更新,AI对于内容的全生命流程参与程度也越来越高,从而让音频内容呈现更丰富更智能化的趋势。

移动互联网的快速发展下,有声读物成为我们随身携带的“避难所”。在这些声音里面,我们疗愈自己,经历他人的跌宕生活,感受故事中的喜怒哀乐和人生百态。无论是内容的量与质,还是技术的深度研发,喜马拉雅牵引着行业不断进步,激发更多的厂商去深耕音频行业,迭代创新能力。而这也意味着,我们这些喜爱有声读物的用户会拥有更丰富的眼界与精神世界。

声音不仅仅只是一个简单的沟通工具,里面包含了丰富的知识智慧、故事情感,它让流淌的时间更有意义,让我们的精神生活更加丰盛。而技术正不断丰富着声音的世界,为我们的耳朵带给我们越来越多元、丰富的体验。

那段记忆中的声音:单式评书再现江湖背后的AI技术相关推荐

  1. 《回忆之前,忘记之后---写给我记忆中的汪峰》

    <回忆之前,忘记之后---写给我记忆中的汪峰> 曹石 汪峰,现在俨然已是烂大街的代言词,至少在搞摇滚和听摇滚的族群里,鄙视和黑他的人大有人在.我也一样,常常在酒桌上和人聊起他时,面带鄙夷, ...

  2. 清明节特辑 |记忆存储、声音还原、性格模仿……AI可以让人类永生吗?

    清明节,很少有人会去特地想这样一个问题:我们为什么要给过世的人修墓,然后每年固定的时间去扫墓?当农耕文化的色彩褪去,清明节的祭祀活动,承载的更多是对亲人的悼念和思念,希望他们永远活在生者心中. 今年中 ...

  3. AI老照片自动上色,复现记忆中的旧时光?

    我们知道深度学习已经应用到几乎所有领域,但是如果我们能够建立一个基于深度学习的模型,可以为旧照片上色并重现我们童年的旧记忆,那该是多么令人兴奋啊!那么我们该怎么办? 今天将为大家介绍一个通过深度学习的 ...

  4. [《记忆中的曾祖母》闲笔记事集]2012年1月23日

    今年去祖坟上香,在曾祖母的坟茔逗留,因为在逝去的那些老人中,让我记忆最为深刻的就是曾祖母.说她的存在改变了我是有点夸张,但我的童年故事的内容却因她的存在而有所不同.曾祖父在我出生的那一年去世,从此曾祖 ...

  5. 记忆中的高中,总是幸福的

    (转自高中同学,记忆中的高中,总是幸福的) 娃娃们快高考了,一提起高考,我不禁想起来我的高中生活,想起了洪哥.洪哥是我的高中班主任,一个比我们大八岁的青年才俊,一个英武.高大.帅气,偶尔颓废的男人.离 ...

  6. 疯狂ios之cocos2d中的声音

    13.13 cocos2d中的声音 任何一个游戏中都不能缺少音乐和音效,苹果公司在iOS系统中提供了两个框架用于播放音乐,分别是AVAudioPlayer和OpenAL.使用AVAudioPlayer ...

  7. HTML5 audio 标签-在html中定义声音的标签

    2019独角兽企业重金招聘Python工程师标准>>> 本文来源 169it HTML 5 <audio> 标签定义和用法 <audio> 标签定义声音,比如 ...

  8. 关于Unity中的声音管理模块(专题七)

    声音的要素 1: 音频文件AudioClip 2: 音源AudioSource; 3: 耳朵AudioListener;//全局只能有一个 4: 2D/3D音频;//2D只是简单地播放声音,3D可以根 ...

  9. 教师节,你记忆中老师说过印象最深的是什么话?(抽奖)

    我记忆中老师说过印象最深的话 小学老师: 1.小学语文老师李老师说,以后你们可能带个手机就可以支付了~不需要带现金.(在杭州确实实现了,用支付宝即可) 2.小学数学老师李老师说:好好读书的目的是啥?不 ...

最新文章

  1. 高倍数泡沫装置PHP_平衡式泡沫比例混合装置 PHP - 压力式比例混合装置 - 武汉鑫澳龙消防设备有限公司...
  2. 使用mock解决测试中依赖第三方接口的问题
  3. 控件尺寸规范_微信小程序设计规范你了解多少
  4. 验证手机号码的正则表达式
  5. android string 去掉斜杠,Android – PATH中的改装和斜杠字符
  6. maven POM总结
  7. sap委外采购订单冲销 102_SAP那些事-实战篇-68-谈谈SAP的库存设计理念
  8. mysql相关知识点_mysql相关知识点整理
  9. 杭电1874畅通工程续
  10. 图灵奖公布!计算机图形学先驱 Hanrahan 和 Catmull 获奖,祝贺两位好莱坞 3D 动画大片技术元老...
  11. JDK动态代理原理解析
  12. 弘辽科技:新品直通车怎么选词?怎样测试人群标签?
  13. 随机森林 matlab
  14. K线形态识别—K线整理形态
  15. Layer btnAlign 失效问题解决方法
  16. 个人笔记应用 - 思源笔记
  17. 如何将图片做成gif动图?
  18. 关于BatchNorm的理解与讨论
  19. word2013插入excel对象报错_excel插入对象文件夹 Excel2013中插入对象文件的方法
  20. 介绍与评测Intel HLE与RTM技术

热门文章

  1. 英语词组的日常积累(有点长,接近300个)
  2. kingbase人大金仓常用sql命令(自用总结)
  3. 统计学方法机器学习实战(二) K近邻算法
  4. vuecli相关命令
  5. crontab python不生效_crontab 中 python 脚本执行失败的解决方法
  6. 转 ext文件系统及块组
  7. 数字图像处理 第八章——图像压缩
  8. 国内的博客没几个能用,blogbus的功能和技术看来是不错的
  9. SQL研习录(24)——CHECK约束
  10. RENESAS ISL15100IRZ-T7 单端口差分线路驱动器