大数据文摘出品

编译:周素云

“这是全宇宙最奇特的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

每次技术的突破都让我们离巴别鱼更近一步,直到今天,谷歌的发布了一项新研究Translatotron,这是一种可以实现端到端的语音转语音的翻译技术。该工具放弃了将语音翻译成文本在返回语音的步骤,可以直接从一种语言转换称另外一种语言,并同时保持说话着的语调和节奏。

告别Siri,我们先来感受一下翻译的调调:

通过结合扬声器编码器网络,使得Translatotron能够在翻译的语音中保留原始扬声器的声音特征,这使得翻译的语音听起来更自然,更少刺耳。

更多声音样本可以在Translatotron的Google Research的Github页面上找到。

相关链接:

https://google-research.github.io/lingvo-lab/translatotron/

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。扬声器编码器在specker verification任务上预先训练,学习从简短的示例话语对扬声器特性进行编码。即使内容是不同的语言,该编码上调节频谱图解码器也可使得合成具有类似扬声器特性的语音。

Translatotron模型

其实语音翻译的端到端模型的早在2016年就开始出现了,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。

2017年,谷歌研究员们证明了这种端到端模型可以胜过cascade模型。之后又进一步改进许多端到端语音到文本翻译模型的方法。

最终在2019年,谷歌的研究员们在arXiv发表Translatotron模型,通过证明单个序列到序列模型可以直接将语言从一种语言翻译成另一种语言的语音,而不依赖于任何一种语言的中间文本表示。

Translatotron基于序列到序列网络将源光谱图作为输入并生成目标语言中的翻译内容的光谱图输出。它还使用了另外两个经过单独训练的组件:神经声码器将输出频谱图转换为时域波形,使用扬声器编码器来保持合成的翻译语音中源说话者的语音的特征。

在训练期间,序列到序列模型使用多任务目标来在生成目标谱图的同时预测源和目标转录物。

Translatotron的模型结构

该团队称,翻译的准确性并不如传统翻译系统那么好,传统系统有更多时间来磨练其准确性。但Translatotron是第一个能够将语言从一种语言直接翻译成另一种语言的语音的端到端模型。他们希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

相关链接:

https://ai.googleblog.com/

巴别鱼雏形,谷歌推出端到端语音翻译技术,还能模仿你说话相关推荐

  1. 巴别鸟网盘推出企业级同步端功能

    巴别鸟企业协同网盘近期推出了企业级同步端功能,支持自动同步基于多人协作的团队文件夹.加密存储.版本控制. 6个月前,巴别鸟推出了个人免费版网盘.1个月前,推出了专为企业服务的"公有云企业版& ...

  2. 一些我们关于端到端语音翻译的思考和尝试

    截止至2019年,世界上共有200多个国家和地区,人们使用的语言数量也高达7000多种,其中还不乏上千种濒危语言或者是不成文语言 (unwritten language),语言不通往往是不同地区政治. ...

  3. 微软推出了语音评测技术

    2020年末中国在线教育市场规模预计将突破4300亿,同比增长18%.日前,微软推出了语音评测技术,据介绍,该技术广泛适用于教育领域的各种语言学习.口语练习和考试等场景,可从准确度.流利度.完整度来为 ...

  4. ACL 2022 | 字节AI Lab联合UCSB提出MOSST:基于单调切分的端到端同传

    研究背景和动机 随着信息技术的发展,流媒体和多媒体成为信息传递的主要媒介,逐渐应用在我们生活的方方面面.即时的信息传递需求也在日益增加.特别地,在跨国交流和文化传播场景中,为了消除语言沟通障碍,即时语 ...

  5. 【历史上的今天】10 月 22 日:微软发布 Windows 7;谷歌推出广告平台;静电复印机雏形

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 10 月 22 日,在 1994 年的今天,中国公用数字数据网(CHINADDN)正式建成开通,为如 ...

  6. 超过AttGAN,谷歌推出生成文本到图像的新框架 TReCS

    谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述. 近年来,基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果.许多方法也使用中间场 ...

  7. 谷歌推出了其首款触屏笔记本电脑

    谷歌推出了其首款触屏笔记本电脑 Chromebook Pixel运行谷歌的Chrome操作系??统,有英特尔的Sandy Bridge处理器,快速的4G LTE连接和一个高分辨率的屏幕,旨在挑战苹果的 ...

  8. 谷歌发布端到端AI平台,还有用于视频和表格的AutoML、文档理解API等多款工具

    谷歌又有了大动作.在大洋彼岸的谷歌Cloud Next conference大会上,谷歌一口气发布了多款AI新品和工具,主要包括: 端到端的AI平台 用于处理视频和表格数据的AutoML Tables ...

  9. 微信版花呗将上线;苹果在华支持以旧换新;谷歌推出 Flutter1.9 | 极客头条

    快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有 ...

最新文章

  1. Android Error: This attribute must be localized.
  2. python动态创建类_Python中通过参数动态创建扩展类(class)
  3. 根据 sitemap 的规则[0],当前页面 [pages/index/index] 将被索引
  4. Windows操作系统下查看日志
  5. sqlserver存储过程循环写法
  6. 最全Pycharm教程
  7. 《Linux内核完全注释》《完全剖析》 » 阅读本书所需的基础知识 -- 再次强调。
  8. Linux文件属性与管理
  9. BAT-使用BAT方法清理Delphi临时文件
  10. 分布式锁实现的几种方式(DB,Redis,Zookeeper)
  11. “Google只认钱!机器学习20年没进步”,CMU学者炮轰AI第一大厂
  12. layui按条件开启关闭编辑列
  13. 【模拟信号】基于matlab标准调幅信号产生+解调【含Matlab源码 984期】
  14. java毕业设计TELL情感社交系统Mybatis+系统+数据库+调试部署
  15. MySQL使用JDBC高级操作和事务
  16. 计算机应用基础单选题10an,计算机应用基础10考(附答案).doc
  17. 闲鱼平台API,item_app获得闲鱼原生数据
  18. SKU 和 SPU 有什么区别?
  19. 0017加速UV检测的一种算法
  20. 搜集了20多款“数据库”,打包送你!

热门文章

  1. 十大管理概念(背诵)
  2. html相对定位 不占位置,CSS position 相对定位和绝对定位
  3. Everything指定用XYplorer打开目录路径
  4. JAVA中用POI操作word
  5. SVN各个状态:A C D M G U R I具体含义
  6. 电商平台满减活动需求分析
  7. 打造云原生大型分布式监控系统
  8. 『贪心』阿狸和桃子的游戏
  9. 补充设定 timer1 定时器和 timer2 定时器定时做多件事
  10. Python标准库collections库:超好用的counter计数器,不接受反驳!