苹果公司透露了他们通过深度学习让Siri的发音更加自然的内幕。

\\

iPhone用户使用自然语言向Siri提问,Siri也通过语音回答问题。Siri可以使用21种语言回答问题,遍布全球36个国家。在2017年WWDC大会上,苹果宣布了iOS 11上的Siri将使用最新的文本语音引擎。2017年8月,苹果的机器学习期刊透露了他们是如何让Siri的发音更加自然的。

\\

iPhone上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音,再把它们拆分成单词,然后再把单词拆成最基本的元素:音素。在生成句子的时候,系统会选择合适的音素,再把它们拼接在一起。

\\

\\

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配,也要与相邻的其他音素相匹配。旧系统只有几种录音,音素的来源很有限,所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

\\

\\

每一台iOS设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性:声音频谱的音高和音长。一个经过训练的“深度混合密度网络(deep mixture density network)”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络,着重考虑到两个方面的问题:如何让音素与发音相匹配以及如何让它与句子相融合。

\\

\\

在通过“Viterbi”算法从数据库里找到需要的数据后,系统会选出最佳的音素组合,把它们拼接起来,然后播放出声音。

\\

\\

另一种方式是生成声波,而不是拼接预录的声音。2016年9月,Alphabets Deepmind发布了WaveNet引擎,可以基于电脑生成文本语音。它的不足是速度很慢,就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以,Siri不会在短时间使用合成语音代替录制语音。

\\

查看英文原文:Apple Reveals the Inner Workings of Siri's New Intonation

苹果公司透露Siri新发音引擎的内部原理相关推荐

  1. 苹果公司的Siri小姐住在何处?

    实际上,在2010年4月28日,苹果乔布斯买来的人工智能"研究成果"(即Siri)只是一个"Beta版本",还有待进一步完善.现在,人们很好奇,Siri究竟是什 ...

  2. 苹果公司:Apple大中华区的注册开发者数量现已超过500万

    5月26日,据苹果官网消息,2021年,来自世界各地数以万计的小型开发团队涌入App Store,其中23%来自中国内地. "App Store的分发优势让他们创作的app在175个国家和地 ...

  3. 苹果公司战略管理分析

    苹果公司战略管理分析 -- 以产品 iphone 为例 一.公司简介 苹果电脑公司由乔布斯.斯蒂夫 · 沃兹尼亚克 和 RonWayn 在 1976 年 4 月 1 日创立,总部位于美国加里福尼亚丘珀 ...

  4. 不管怎样,苹果公司仍然是全球最有价值的公司

    苹果电脑公司:在挫折中成长 一个创业仅五年的公司,一下子跃居全美五百家最大公司之列,而五年前,连它自己在露面时也因弱小而羞红了脸.然而,若干年后,一个如此辉煌的典范,竟在市场大潮中被击得东倒西歪. 一 ...

  5. 苹果公司:成功的先驱

    苹果公司:成功的先驱 在美国风险投资的历史中,苹果公司较早展示了风险投资的不同凡响.1976年,两个二十多岁的青年设计出了一种新型微机(苹果一号),受到社会欢迎.后来,风险投资家马克首先入股9.1万美 ...

  6. 苹果公司新品发布会两大关键词:免费与升级

    苹果公司今天在美国旧金山召开发布会,发布最新的软件和硬件产品.90多分钟的发布会里,苹果公司一股脑地介绍了多款产品,让人应接不暇,而这似乎正应了 苹果公司此前在媒体邀请函中的表态:"我们仍有 ...

  7. 【历史上的今天】4 月 4 日:互联网新时代的缔造者出现;微软成立;苹果公司元老诞生

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 4 月 4 日,清明节.扫墓祭祖与踏青郊游是清明节的两大主题,而埋葬总陪伴着新生,在 1896 年的 ...

  8. 由siri谈苹果公司的发展

    iPhone 4S 发布的时候, Apple 向世界展示了 Siri ,然而,当时人们沉浸在想象里全新 iPhone 5 未出现的失望和随后乔布斯去世的巨大悲痛中,认为新的 iPhone 4S 乏善可 ...

  9. 苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...

    转自:新智元 [导读]attention is all you need是绝对的真理吗?自从Transformer面世以来,采用CNN等传统模型与注意力进行结合就成了新的创新方向.但苹果的华人研究员提 ...

最新文章

  1. Ubuntu创建新用户并增加管理员权限
  2. SQL Server 2005 SP2发布了,开发人员怎么办?
  3. 震惊!评审专家将论文拒稿后修改发表
  4. xmu 1254.异或求和
  5. uva 1630——Folding
  6. idea设置自动清除不需要的import包,自动清除导包
  7. Android消息传递之EventBus 3.0使用详解
  8. ssrs 级联参数_在SSRS中使用多值参数
  9. void* 与 shared_ptr的相互转换
  10. 参与过上千亿项目的人,账单是何等的惊人?
  11. Mysql 的 GROUP_CONCAT() 函数拼接串
  12. ffmpeg转码cpu很高,ffmpeg实现GPU(硬编码)加速转码,解决ffmpeg转码速度慢
  13. MATLAB 绘制柱状图
  14. 简析国内外电商的区别
  15. 房子,婚姻,名字,这三个关键词,你怎么看?
  16. Linux系统中read的用法,Linux系统中read的使用技巧
  17. 无炫技:纯粹的Bert和Roberta
  18. 基于Spring Boot实现电脑端网页微信扫码授权登录方式一(附带完整源码)
  19. linux学习的任督二脉
  20. 开网店必看:2019年,《电商法》下五大电商趋势分析!

热门文章

  1. linux环境下安装gcc
  2. maven 部分命令
  3. boost::mutex::scoped_lock
  4. 0xc000007b:vs2012+Opencv2.4.4出现0xc000007b问题
  5. 并发-6-wait、notify、Semaphore、CountDownLatch、CyclicBarrier
  6. .NET多线程编程(7)——C#多线程编程传递参数解决方案
  7. 【完全开源】微信客户端.NET版
  8. 跪求解,oc内存回收问题
  9. PHP Smarty变量调节器
  10. 使用mysql备份工具innobackupex进行本地数据备份、恢复操作实例