作者 | 李梅

来源丨AI科技评论

机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。

在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。

比如汉语方言之一闽南话,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无障碍对话了。

这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。来听听这项工作的负责人、Meta AI 研究员 Peng-Jen Chen 与小扎的对话,Chen 出生于中国台湾。

,时长01:09

该系统可以将闽南话的语音翻译成英语语音,反之亦可。会讲闽南话的读者可以来检验一下,是不是翻译效果还挺不错?

据了解,这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目的一部分,该项目致力于开发新的人工智能方法,帮助实现所有现存语言的实时语音到语音的翻译。目前,Meta 已经开源了该翻译模型和评估数据集,研究论文如下:

  论文地址:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf

1 克服训练数据的挑战

闽南话是汉语方言之一,是一种低资源语言,没有标准的书写系统,人工的英语到闽南话翻译人员也相对很少,所以为模型收集和标注训练数据就变得更加困难。

图注:讲闽南话(Hokkien)的人的数量

为此,来自 Meta AI 的研究团队采用了一种特殊放方案,利用汉语普通话(属于高资源语言)作为中间语言来构建伪标签和人工翻译。他们首先将英语(或闽南话)语音翻译成普通话文本,然后再翻译成闽南话(或英语)并将其添加到训练数据中。这种方法通过利用来自类似高资源语言的数据,极大地提高了模型性能。

语音挖掘是训练数据生成的另一种方法。使用预训练的语音编码器,能够将闽南话语音嵌入编码到与其他语言相同的语义空间中,所以闽南话没有书面形式也不造成问题。闽南话语音可以与语义嵌入相似的英语语音和文本对齐,然后从文本中合成英语语音,产生并行的闽南话和英语语音。

图注:无需人类标注的语音翻译模型

2 新的建模方法:语音到语音

许多语音翻译系统都依赖转录或者是语音到文本的系统。但是,闽南话的形式主要是口语,缺乏标准的书面文字系统,无法转录成文本作。所以,Meta 所构建的是一个语音到语音的翻译系统。

研究人员使用语音到单元(speech-to-unit,S2UT)翻译,将输入语音直接翻译成一系列的声学单元,这也是 Meta 先前最早开创的一种路径。然后,从这些声学单元中生成波形。此外,研究人员还采用了 UnitY 作为双通道解码机制,第一通道解码器生成相关语言(即汉语普通话)的文本,第二通道解码器创建单元。

图注:UnitY 模型架构

3 新的准确性评估系统

语音翻译系统的评估工具通常是 ASR-BLEU 指标,该指标首先使用自动语音识别 (ASR) 将翻译后的语音转录为文本,然后将转录文本与人工翻译的文本进行比较,计算 BLEU 分数。

但要评估闽南话的语音翻译系统,难处还是在于它没有标准的书面文字系统。所以,为了实现自动评估,研究人员开发了一个系统,将闽南语语音转录为一种称为 Tâi-lô 的标准化注音符号。这样就能在音节的层面上计算 BLEU 分数,从而比较不同方法的翻译质量。

除了开发这种评估闽-英语音翻译的方法外,研究人员还基于闽南话语料库 Taiwanese Across Taiwan,创建了第一个闽-英双向语音到语音翻译基准数据集。该基准数据集将开源,以方便更多研究人员从事闽南话语音翻译工作。

4 不止闽南话

这项工作所用技术可以进一步扩展到许多其他书面和非书面语言。

为此,Meta 还发布了  SpeechMatrix,它是一个大型的语音到语音翻译语料库,使用了 Meta 的创新数据挖掘技术 LASER, 从欧洲议会录音的真实演讲中挖掘数据。该数据库包含 136 种语言对的语音对齐,共 41.8 万小时的语音。挖掘的数据和模型都是免费的,研究人员可以创建自己的语音到语音翻译 (S2ST) 系统。

图注:LASER 挖掘获得的语音到语音成对数据

Meta 在无监督语音识别 ( wav2vec-U ) 和无监督机器翻译( mBART )方面的研究进展,也为口语翻译工作提供了支持。比如用于预训练语音模型的无监督域自适应技术,提高了下游无监督语音识别的性能,尤其是对于低资源语言,在没有任何人工标注的情况下,可以构建高质量语音到语音翻译模型。

该模型仍在不断推进中,目前一次只能翻译一个完整的句子,但这迈出了未来实现语言间同声传译的一步。

据 Meta AI 的研究员 Peng-Jen Chen 说,这个闽南话翻译系统其实有一部分是出于他的一个私人心愿。他在中国台湾长大,同时会讲普通话,但是他的父亲普通话不好,他希望他的父亲能够用闽南话与每个人都顺畅地交流。这也是 AI 之于人类的意义之一。

参考链接:https://ai.facebook.com/blog/ai-translation-hokkien/

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译相关推荐

  1. 谷歌为什登不上去github_同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统...

    来源:Google AI [导读]今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型. 让说不同语言 ...

  2. (三)用于构建AI语言翻译系统的工具

    目录 介绍 工具和版本 TensorFlow Keras Pandas Word2Vec 下一步 下载源文件 - 3.5 KB 介绍 谷歌翻译工作得如此之好,它通常看起来很神奇.但这不是魔法--这是深 ...

  3. AAAI'23 | 利用大规模辅助数据提升端到端语音翻译系统

    每天给你送来NLP技术干货! 作者 | 张裕浩 单位 | 东北大学自然语言处理实验室 来自 | 机器翻译学堂 [导读]本文由论文原作者撰写,介绍作者团队设计的一种多阶段的预训练方法,利用有标注和无标注 ...

  4. Meta 开移动端 AI 生成神器 PyTorch Live,打造人工智能驱动的移动体验

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 近日,PyTorch 开发者大会如期召开.在会上,Meta 发布了PyTorch Live,这是一套可以为移动端用户提供人工智能 ...

  5. (五)如何训练和测试AI语言翻译系统

    目录 介绍 使用 LST单元进行训练和测试 现在有自我注意 下一步 在这里,我们将创建一个Keras标记器,它将从平行语料库中找到的单词中构建一个内部词汇表,使用Jupyter notebook训练和 ...

  6. 计算机英语论文中英互译,计算机专业中英文文献翻译.doc

    计算机专业中英文文献翻译 1 In the past decade the business environment has changed dramatically. The world has b ...

  7. (四)使用TensorFlow和Keras构建AI语言翻译

    目录 介绍 导入库 构建模型组件 添加注意力机制 将模型放在一起 下一步 下载原文件 -- 3.5k 介绍 谷歌翻译工作得如此之好,它通常看起来很神奇.但这不是魔法--这是深度学习! 在本系列文章中, ...

  8. 一些我们关于端到端语音翻译的思考和尝试

    截止至2019年,世界上共有200多个国家和地区,人们使用的语言数量也高达7000多种,其中还不乏上千种濒危语言或者是不成文语言 (unwritten language),语言不通往往是不同地区政治. ...

  9. 音频信号输入itc服务器,ITC数字IP网络双向对讲语音通讯系统

    [音响网资讯] (一)数字IP网络双向对讲语音通讯系统介绍 数字IP网络双向对讲语音通讯系统利用现代通信网络,通过结合网络通信技术,采用基于网络传输的数字IP/TCP通信协议,基于网络数字音频技术, ...

  10. iPhone手机语音翻译怎么操作?中英文对话原来如此轻松,太赞了

    目前很多人都不知道iPhone手机语音翻译怎么操作? 其实使用iPhone手机进行中英文对话很轻松的,只要使用合理的手机工具,我们就能够很快速的进行中英文对话. [选择工具] 使用iPhone的用户都 ...

最新文章

  1. lvm 逻辑卷 和 网络管理
  2. Spring中-IOC-Bean的初始化-循环依赖的解决
  3. 微软 python_微软推出 Pylance,改善 VS Code 中的 Python 体验
  4. python的socket模块_Python socket模块方法实现详解
  5. JavaWeb学习之路——SSM框架之SpringMVC(九)
  6. 挑战AI种番茄,第二届国际智慧温室种植挑战赛启动!
  7. C 控制父、子进程的先后顺序执行
  8. oracle11g 端口,navicate 连接 oracle11g精简版监听不到端口和用户密码错误问题
  9. linux box 信息发布,使用Instantbox快速搭建一个开箱即用的Web端临时Linux系统
  10. [转]C++ 智能指针详解
  11. python网课答案查询_网课答案查询助手v1.0 官方版
  12. CentOS7各个版本镜像下载地址
  13. android logo颜色渐变,2018,很多APP的logo渐变了 -- 渐变色教程
  14. 2022年「博客之星」参赛博主:(天寒雨落)在等您评价 ~{附实时总榜单排名}
  15. 微信JSSDK使用签名算法
  16. Android轻松实现日期选择器、生日选择器、自定义起始时间
  17. React前端面试题
  18. 为什么交叉熵可以用来当损失?与MMD的区别?
  19. mac电脑如何打开chrome浏览器摄像头?
  20. Rocket mq的一些介绍

热门文章

  1. html仿百度贴吧,利用Canvas模仿百度贴吧客户端loading小球的方法示例
  2. ROS端口映射这样才正确
  3. 经典.net混淆器 Confuser EX 2.0 使用介绍及配置 2022
  4. 学习笔记 css border-radius
  5. Sqlite3相关函数返回值及其含义
  6. webRTC初探:如何实现音视频的录制
  7. Mapabc——地图标注
  8. 接口测试如何生成随机的参数值
  9. 如何得到信号的幅度谱和相位谱
  10. 天正2014打开加载lisp_win10系统设置CAD2014打开自动加载天正的恢复方法