鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

日常想给家里的蠢猫拍个视频配个音,需要几步?

不不不,现在有了AI的加持,只需打开App,输入文本,秒秒钟就能搞定。

不只是四川话配音,东北老妹音也可以整起来:

快手@大天666

再也不怕隔壁工位东北小哥嘲笑我的台湾腔东北话了

甚至,日常做饭小视频,也可以配出高级感:

快手@xcpangdahai

是不是有点《舌尖上的中国》内味了?

实现如此功能的,就是快手快影最新上线的AI黑科技——智能配音

输入文字,AI配音

所谓智能配音,就是用户只需输入文字,软件就能自动将之转化为高质量的视频配音。

使用方法非常简单。

首先,打开快影,导入视频素材。

「智能配音」的入口,就在App底部功能区的「音效」中。

点击「智能配音」,在弹出的输入框中输入想要配音的文字。

然后,选定一个「发音人」,也就是想要的音色、口音,再点击生成配音。

配音音频就秒速生成了。

另外,通过「字幕」→「加字幕」,完成字幕输入后,同样会出现「智能配音」的入口。操作相当方便。

目前,智能配音功能中一共有9位「发音人」可以pick。

标准播音腔,由「小姐姐」、「小哥哥」两位播音员提供。

在方言区,除了前文提及的「川妹子」和「东北老妹」,还有一位说粤语的「广东靓妹」24小时在线配音。

想要可爱卡通音,可以选择「小猪佩奇」、「蜡笔小新」。

而「舌尖同款」则提供了一个更加贴近真实的音色,纪录片范儿十足。

此前在快手直播间里出现过的小快机器人的音色,也被移植了过来。如果你是一位快手用户,选择「童真」,熟悉的声音就能出现在你的个人创作中啦。

技术不够,AI来凑。这下,给记录生活的小视频增色,就不用担心自己的声音不好听、剪辑水平不过硬了。

但别看此功能人人都能轻松上手,背后的技术挑战却也着实不小。

关键技术解析

文字转语音,其实并不是什么新鲜事。

不过,在此之前,此类语音合成技术主要面向B端用户,应用场景主要是资讯播报、订单播报、朗读听书等。

而对于C端用户,特别是有视频配音需求的用户而言,AI配音只有更生动、更自然、更具韵律,才能真正满足他们的需求。

另外,面向B端的产品,可以对文本的规律、意义进行限定。面向C端用户时,则无法预测用户的输入情况。

这就给快影这类剪辑软件的智能配音功能提出了更高的技术要求:

  • 高表现力,要让用户觉得合成的语音接近自然语音,不做作;

  • 高音质,要求输出的语音干净清晰,能最大程度还原配音角色的音色;

  • 极低响应时间,为了优化用户的使用体验,合成引擎的首字响应时间要求低于100ms。

为此,快影的智能语音配音采用了端到端的深度神经网络语音参数生成算法。

端到端深度神经网络语音参数生成算法

传统的参数语音合成算法存在一个问题,那就是很难保留配音音色的说话风格特点,造成配音比较呆板、风格趋同。

而端到端的深度神经网络语音参数生成算法,可以让生成的语音参数连续性和稳定性得到较大幅度的提升,体现在听感上会使得语音更加真实和自然。

同时,为了能够最大限度保留配音角色的说话韵律风格,在生成算法中还加入了风格控制自回归编码网络,使得每一个配音音色的说话韵律特点都能体现出来。

高表现力深度网络声码器

另外,为了能最大程度还原智能配音角色的声音特点,快影智能配音还采用了基于深度神经网络的声码器进行语音生成。

在语音合成技术方面,业界常用的采样率是16kHz。

但对于儿童音色、卡通音色这样基频比较高的音色而言,这一采样率会对其明亮清澈的特点造成较大的损失。

快手的工程师因此选择了24kHz采样率。

不过,由于模型需要建模更多采样点之间的依赖关系,以及更多的高频信息,这时如果继续照搬16kHz采样率的技术方案,不仅合成速度慢,而且合成音频还会出现“毛刺”噪音。

为此快手的工程师对神经网络声码器进行了深度优化:

采用多子带并行建模预测方法。首先将音频分割为多个sub-band音频,然后在建模过程中针对每个子带选择不同的训练方式和采样参数,并且降低模型输出混合分布数量。

实验证明这样做可以有效地提升声码器的合成效率,并保证合成效果稳定。

增强输入输出特征的信息描述能力。将输入的声学特征维度升至更高的维度,便于更为细致描述频谱细节。同时,将声码器的输出精度采用10bit muLaw压缩,用于提升采样精度。

实验证明,该方法能够让合成的音频听感更加真实和饱满。

如此一来,快影智能配音就在将合成速度提高2.5倍的同时,还能提升生成语音的真实感和饱满度。

此外,工程师们还针对用户等待时间进行了优化,每100字合成只需10s。并且对于用户输入的超长句,采取分段处理的方法,以优化用户等候处理时的产品体验。

「从创作者的需求出发」

为什么会在产品中上线这样的多音色智能配音功能?

其实,对于快手的工程师们来说,就是从快手用户的实际需求出发:

有些快手的创作者觉得自己的视频不够好玩,或是自己的声音不够好听,但又希望通过配音的方式去创作。

所以我们希望制作一款操作更便捷,并且听感上更有趣、更丰富的配音功能,来帮助用户制作更有趣的音视频。

此前,快手在语音合成技术方面的积累,已经在直播间语音机器人上有所体现。

不过,对于智能配音技术团队而言,这一次的任务依然充满挑战。

首先,是时间紧,任务重

「智能配音」这项功能基本是在1个月内完成开发集成,并在2个月内实现全量上线的。

虽然此前已经有面向B端的语音合成技术的积累,但在将其运用到C端上时,由于「使用场景」和「技术要求」均不同,技术团队还是需要作出很多细节上的调整。

这个4人组成的团队需要进行高强度实验,把数据分为不同的组合,再对每个组合进行测试,对特征进行重组。每个实验都存在很多种可能性,相当耗费时间。

单单1种音色,就需要将这个过程重复10-20次。最后呈现出的9种不同音色背后,就有100+实验。

另一个让研发人员印象深刻的难题,是中英混读问题。

用户在实际使用过程中,很可能会出现中文、英文混合使用的情况,但这就给音源的采集带来了困难。

举个例子,蜡笔小新的音色,主要是通过动画片来进行采集,提取其韵律和表现力的。但是,蜡笔小新他并不会说英语啊。

为此,技术团队想出的解决方案是,首先在发音单元的设计上,将中英文因素进行共享设计,减少因素集合以降低模型的不稳定性。

其次,在中文发音人音库训练过程中,加入非本发音人的纯英文音库进行混合训练。

并且,在训练中,加入可以描述发音人特点的embedding,对不同发音人的发音风格和发音特点进行解耦,让模型可以从纯中文和纯英文的语音数据中,学习到中文和英文的发音知识。

这样一来,即使没有经过英文音源的训练,模型也同样能让发音人读出英文句子。

目前已有4位「发音人」可以进行中英混读,其余几位的英文能力也预计在8月内上线。

接下来,技术团队将继续挑战自己,根据不同的视频场景,对视频内容进行基于多模态的理解,对每个发音人的发音风格进行场景适配。

这一功能实现后,智能配音的节奏、情绪就会更贴合视频内容,让视频效果更加出彩。

另外,智能配音团队也计划上线更多音色,比如明星音色、热门电视剧配音、具有科技感的机械音等等。

接地气,还看黑科技

智能配音这样的AI黑科技,无疑给老铁们带来了船新的玩法,引领了一波短视频新热潮。

其实,这已经不是快手第一次贴合用户需求,在产品里融入AI黑科技了。

比如此前在快手直播间跟柳岩、大鹏欢乐互动的智能宠物「小快」,就融合了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等多种技术,给主播们提供了既能适应复杂硬件条件,又不占用太多计算资源的语音的智能语音服务。

值得一提的是,对于性能相对低端的手机机型,快手技术团队往往会有针对性地进行性能降级适配,不断优化性能与效果的平衡点,以期用户能以最低门槛,享受最新技术。

以此番上线的智能配音功能为例,量子位用2015年搭载联发科HelioX20的一款手机进行了测试,也能顺利合成配音。

这也展示了快手在CV技术之外,在智能语音领域的厚积薄发。

实际上,快手的语音技术早有布局,四年前就成立了语音交互、音频内容理解的技术团队,成员主要来自清华、中科院、哈工大、西工大的语音实验室,以及微软、三星、BAT这些大厂。目前主要技术方向包括语音识别、语音合成、音乐理解与生成、音频事件检测等。

产品功能的快速落地,离不开一篇篇论文、一项项基础研究的积累,离不开技术工程师们的努力。

在此背后,也是快手价值观的反映:重视技术,重视基础科研,希望每个人都能享受到时代最前沿的技术。

所以下一波音视频新风潮会是什么?

接地气,还看黑科技。

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

人类未来20年最重要的航天任务——登陆火星,已经启动!这场征服星辰大海的征程,将彻底改变我们的未来。

什么是火星探索,为什么要远征未来,如何培养科学探索的精神?

中国空间探测技术首席科学传播专家庞之浩,最新推出讲给孩子的火星课《登陆火星》,在其中深入浅出地讲解火星探索史+航天知识,回答了你还不知道的种种好奇疑问。

现在这一精心打磨的课程正在超值预售中,定价99元,目前限时半价,仅49元。让孩子爱上探索宇宙,培养科学思维,现在就开始吧~

给孩子的火星课
限时半价中????

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风...相关推荐

  1. 一个丧心病狂的Github项目:东北话编程,大写的服!

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试文章 来源:开源最前线(ID:OpenSourceTop) 还记得12月 ...

  2. 猫=图灵机?4项测试证明,「猫猫计算机」可执行任意计算

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 编辑:David 小咸鱼 [导读]近日,一位法国开发者Chloé Lourseyre在 ...

  3. 东北人,请你讲东北话

    现在在东北的好多城市里,已经听不到真正的东北话了,就连赵本山大叔的东北话也逐渐变味儿.为什么会这样?就是因为很多人觉得东北话很土.我觉得,如果是一个外地人觉得东北话土也就算了,可是,咱们东北老乡不应该 ...

  4. GitHub 牛逼项目:用东北话来编程,就问你怕不怕!

    公众号关注 "GitHubDaily" 设为 "星标",每天带你逛 GitHub! 如果东北话是编程语言中使用的主要语言,编程是否更招人稀罕?学习编程是否会更欢 ...

  5. 这嘎哒真TM那啥!Python版东北话编程火爆网络

    还记得那个刷爆朋友圈的那个文言文编程语言么? 这个项目是一位名为Huang Lingdong的大四学生创建的,当时,就连中科院计算所研究员.机器翻译领域知名专家刘群老师都赞叹道: 后生可畏 近日,Gi ...

  6. 东北话编程,大写的服!这是一个丧心病狂的Github项目!

    程序员的成长之路 互联网/程序员/成长/职场 关注 阅读本文大概需要 4.2 分钟. 来自:开源最前线(ID:OpenSourceTop) 项目地址:https://github.com/zhanyo ...

  7. 有内味儿了,东北话做编程语言,好使、招人稀罕

    点击上方"涛哥聊Python",选择"星标"公众号 重磅干货,第一时间送达 机器之心报道 参与:思源.Jamin 如果东北话是编程语言中使用的主要语言,编程是否 ...

  8. python还能火多久 搜狐_老像样了:基于Python的东北话编程语言,火了

    来自:开源最前线(ID:OpenSourceTop) 项目地址:https://github.com/zhanyong-wan/dongbei 还记得12月份刷爆朋友圈的那个文言文编程语言么? 这个项 ...

  9. 谁说中文不能编程了?快看文言文大战东北话

    自从有了互联网,每个月都会有编程小白发贴问,可不可以用中文编程.虽然老遭鄙视,但情有可原,非科班出身的程序员,理解编程就很难了,再加上一直头痛的英语,更是难上加难.后来支持中文的易语言受到了很多人追捧 ...

  10. 86年后,终于有人完成「真人版」薛定谔的猫实验,量子纠缠了活体动物

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 首先要回答的问题:实验是量子的还是经典物理的? 你一定听说过薛定谔的猫 ...

最新文章

  1. 树上动态插点 ---- F. Imbalance Value of a Tree(树上动态插点 + 并查集)
  2. 《每周CV论文》人脸识别难题:遮挡年龄姿态妆造亲属伪造攻击
  3. 杭电acm2043密码
  4. mysql8.0.22 win7_ArcGIS10.8地理信息软件中英文版安装教程
  5. QT的QSplashScreen类的使用
  6. 一个程序员写多门语言不会记串么?
  7. 线程的应用-实现Runnable接口创建线程
  8. 微课|中学生可以这样学Python(例6.1):杨辉三角形
  9. 【50】了解new和delete的合理替换时机
  10. 清理300多台MySQL数据库的过期binlog日志
  11. dt100g3什么意思_酷黑滑盖风 金士顿DT100G3优盘评测
  12. 信息技术 用计算机做科学实验报告,8.用计算机做科学实验.doc
  13. Go语言单向通道——通道中的单行道
  14. 增量式与绝对值编码器的区别
  15. SpringMVC Controller中常用到的一些注解
  16. Android 10适配要点,作用域存储
  17. 微信朋友圈分享链接调用外部浏览器打开指定URL链接是如何实现的
  18. can隔离器 总线隔离适配器简单应用
  19. 升级 GCC 支持C++11 或 configure: error: *** A compiler with support for C++11 language features is requir
  20. 大专生学云计算,工作好找吗?

热门文章

  1. 浏览器辅助神器:油猴脚本使用教程
  2. Quartus II 13.1与Modelsim SE的安装
  3. 尚硅谷大数据之Linux
  4. 俄罗斯方块 java_java代码实现俄罗斯方块
  5. Scratch3架构结构说明
  6. linux安装yum报错Unable to locate package yum解决方案
  7. J2EE学习总结(五)------用户登录界面设计
  8. vue2.0 海报生成器、二维码生成器
  9. python解析visio_再见,Visio!
  10. 小米路由器(R2D)开发版-固件分析