9年前,苹果公司发布了当年最新的智能手机iPhone 4S,其搭载的智能语音助手 Siri一经发布,便立即吸引了全世界范围的关注。Siri 的背后,凝聚着音频处理、语音识别和自然语言处理等多个领域数十年的研究成果。

它的出现,让语音技术首次进入了普通大众的视野。

紧接着,2014年亚马逊Echo横空出世,开启了家用插电式智能音箱的全新场景,让语音技术走进了成千上万的家庭。


尽管语音技术为人们提供了一种与智能设备交互的全新方式,但在人们使用该技术的过程中也诞生了一些新的问题——无论是手机还是音箱,人们希望智能语音助手能够真正“认得”自己,能根据说话人的身份,提供个性化的回答,并决定是否提供较为隐私的用户信息。

在这样的背景下,声纹技术受到了业界前所未有的重视。

什么是声纹

说起“指纹”,大家都不会感到陌生。凭着每个人的指纹都不一样的特性,指纹识别技术获得了广泛的利用。

而声音,虽然不具备真正意义上的“纹理”。但每个人的发音器官,包括声带、声管等,在大小和形状上会有所差异。使得不同的人,也有着不一样的声音。

广义上讲,所有可以将一个人的声音,与其他人的声音区分开来的特征,都称之为“声纹”。而正是因为有着这样一些特征的存在,声纹才得以像指纹一样,衍生出各种实用的技术。

声纹技术中最为核心的一项便是声纹识别技术

和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音

2017年,谷歌将声纹识别技术部署到了智能音箱Google Home上,使其能够根据不同用户的身份,提供不同的响应方式。

例如,当用户提出“播放音乐”的请求时,智能语音助手便会先从音频信号中识别用户的身份,然后提取对应用户的音乐偏好,并以此选取音乐进行播放。通过这种方式,当家里有多个家庭成员时,每个成员都可以通过同一个设备获得截然不同的使用体验。

除了声纹识别之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。

以语音合成为例,目前最先进的语音合成系统只需要来自特定说话人不到5秒的语音,便能克隆出该说话人的声音,并以其声音合成任意语音内容。

谷歌公司于 2018 年发表的论文中认为,声纹克隆本质上是一种从声纹识别任务到多说话人语音合成任务的迁移学习(transfer learning)。

模型框架中的声纹编码器模块,将目标说话人音频转换为声纹嵌入码,而该声纹嵌入码与语音合成编码器的输出进行逐帧拼接,作为语音合成解码器的新的输入,从而使解码器能够利用到目标说话人的声纹信息。

声纹技术学习宝典

声纹技术:从核心算法到工程实践》一书是谷歌公司声纹识别与语言识别团队负责人王泉老师在声纹领域深耕多年后,为国内读者打造的一部技术宝典。

本书从20 世纪 60 年代的早期技术讲起,回顾了声纹技术数十年发展历程中最具代表性的方法,并重点介绍了深度学习时代的声纹技术及其广泛应用,其中包含了大量发表于2019和2020年的前沿研究成果。

此外,作者根据其多年的工程经验积累,开创性地在本书中加入了专门探讨声纹技术工程部署的章节,详细阐述了声纹技术在工程部署中常会遇到的各种问题,以及各种解决方案的优劣。为进一步结合实践,还配备了大量编程案例以及思考练习题。

▊ 本书特色

• 本书内容不仅涵盖了 20 世纪 60 年代的最早期声纹识别方法,还介绍了大量 2019年和 2020 年发表的论文,紧随业界最新发展。

• 本书除了介绍学术内容,还有专门的章节(第 4 章)介绍工程部署,覆盖了声纹技术部署的诸多实际课题(如版本控制、分布式计算等)。这也是业内独一无二的。

• 本书配备了很多动手实践,教读者使用常用的 Python 工具包构建实例,进行实验,避免纸上谈兵。

• 本书为每一章配备了思考和练习题,因此本书也十分适合作为大学教材。

▊ 专家推荐

字节跳动应用机器学习研究组负责人王崇认为:

“本书是这个领域一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步快速普及和发展起到积极的推动作用,吸引更多的人才从事语音及声纹技术的研究和开发。”

此外,邓力、何晓冬、戴琼海、梁家恩等多位领域专家、行业大咖同样对本书极力推荐。

邓力,加拿大工程院院士,Citadel首席人工智能官,IEEE Fellow

何晓冬,京东集团副总裁,京东人工智能研究院常务副院长,IEEE Fellow

戴琼海,中国工程院院士,清华大学信息学院院长

梁家恩,云知声董事长


最后,引用科幻作家、雨果奖得主郝景芳对本书的评价:

“本书所介绍的声纹技术前沿进展,包括声纹克隆和人声分离等令人印象深刻的应用,让我不禁对其未来展开无限的遐想。相信不久之后,能与人们自然地对话,并通过声音来分辨我们每一个人的人工智能将成为现实。更令我期待的是,在人类步入宇宙时代并能够与地外文明进行交流的未来,声纹技术又会在其中发挥怎样的作用。”

声纹技术:让智能语音助手真正“认得”自己相关推荐

  1. 中国智能语音助手企业案例研究报告(2018年)-笔记

    中国智能语音助手企业案例研究报告(2018年)-笔记 1 摘要 目前行业里的智能语音助手主要应用于消费级产品和专业级行业应用两大领域. 智能语音助手的卖点是:想通过语音操控从而解放双手,并且智能语音助 ...

  2. 钻石与小度:智能语音助手背后的“马斯洛需求模型”

    从软件到硬件,从辅助功能到产品核心,从前沿科技走向千万普通人的生活,智能语音助手的一路发展,经历了数次技术.形态.商业市场上的彻底蜕变.很多人都会好奇,智能语音助手的未来会走向何处? 其实这件事并不那 ...

  3. 午夜惊魂!频繁失控的亚马逊智能语音助手Alexa到底怎么了?

    [数据猿导读]不久之前,亚马逊Alexa上演了一场午夜惊魂. 记者 | 郭敏 官网 | www.datayuan.cn 微信公众号ID | datayuancn 当基于人工智能的语音助手进入千家万户的 ...

  4. ESP-Skainet智能语音助手,智能物联网方案,语音唤醒识别准确率高

    消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互终端.而智能终端的背后还有广阔的生态,包括语音开放平台.语音操作系统.内容等等. 近年行业正在经历从单一商业模式向多元化商业模式 ...

  5. 百度地图智能语音助手用户量突破3亿:确实方便

    百度地图宣布截至10月1日18:00,百度地图智能语音功能用户量突破3亿.超3亿人喊"小度小度"来解决地图需求问题. 百度地图智能语音助手功能于2017年上线,依托百度大脑语音领先 ...

  6. 声纹技术(七):声纹技术的未来

    7.1 概述 第3 章-第6 章介绍了声纹技术的主要应用,包括声纹识别.声纹分割聚类,以及基于声纹的语音识别.语音合成.语音检测.人声分离等.这些应用很多都经历过数年甚至数十年的发展,已经变得十分成熟 ...

  7. 声纹技术(三):声纹识别技术

    3.1 声纹识别:声纹技术的核心 3.1.1 名称与概念 广义上讲,声纹技术是一个宽泛的概念,其包含了许多不同的技术及应用.在所有这些技术中,声纹识别技术是其他技术的基础.无论是第5 章将要介绍的声纹 ...

  8. 标贝科技|智能语音助手+全息形象,会是下一个趋势吗

    现在,智能语音助手已经无处不在,手机.音箱.电视.汽车里都能寻得他们的踪迹.他们都有一些相似的点:能识别语音.说唤醒词就能开始对话.可以完成人们的各种指令,除了内在技能以外,在外表上,他们目前也都没有 ...

  9. 爆肝一周,用Python在物联网设备上写了个智能语音助手

    1. 背景介绍 智能语音助手作为物联网领域的一个重要生态成员,是一种全新的交互方式,它能够解放双手,随时提供服务,无须借助任何按键.想必很多开发者都有玩过天猫精灵.小爱同学或者小度吧,看到这些炫酷的人 ...

  10. 贴近司机,感知生活:智能语音助手在滴滴车主端的设计与实践

    桔妹导读:基于网约车司机的职业特性,帮助与指引司机在各类复杂的场景下更安全.便捷地完成工作,并尽可能疏导与减轻他们因长时间处于封闭环境下的心理压力,一直是滴滴发力的一个方向.但现有的一些途径,如规则展 ...

最新文章

  1. 多所“双一流”异地布局,新的王牌大学和高教城市将诞生?
  2. mysql ---- innodb-2-索引
  3. [Qt教程] 第11篇 2D绘图(一)绘制简单图形
  4. brk(), sbrk() 用法详解【转】
  5. Java线程之多线程与多进程(3)——Java中的多线程
  6. 不服OceanBase跑分?今天起可到阿里云上一战
  7. Oracle数据库的增删改操作介绍
  8. 成功解决internal/modules/cjs/loader.js:596 throw err; ^ Error: Cannot find module 'express'
  9. 机器学习算法的差异_我们的机器学习算法可放大偏差并永久保留社会差异
  10. ubuntu环境下android开发环境安装
  11. PRML 1.6 信息论
  12. EasyExcel读取文件的问题:Convert excel format exception.You can try specifying the ‘excelType‘ yourself
  13. 4.3 数值分析: 简单迭代法的构造和收敛条件
  14. 以太网详解(三)-PHY Transceiver硬件设计注意事项
  15. oeasy教您玩转vim - 90 - # 语法定义syntax
  16. 关于checkbox的removeClass属性
  17. BIOS与UEFI以及模拟环境
  18. python mysqldb_python MySQLdb API手册
  19. 5个优秀设计网站,素材、灵感一步到位。
  20. SAP S4 FI后台详细配置教程- PART1 (通用配置及基础架构篇)

热门文章

  1. JS--我发现,原来你是这样的JS:面向对象编程OOP[1]--(理解对象和对象属性类型)...
  2. 通过指针获取输入的字符串
  3. jQuery - slice( start, [end] ) Method
  4. jQuery size()函数
  5. Attributes(2): Displaying attributes for a class.(显示类属性)
  6. Android客户端获取服务器的json数据(二)
  7. winform中的小技巧【自用】
  8. Java基础语法-方法的定义、调用以及static关键字的使用
  9. hdu 5996 dingyeye loves stone(博弈)
  10. gdb进行多线程调试