鱼羊 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

AI同传领域又有新进展,这次突破来自百度。

百度机器翻译团队创新性地提出了全球首个感知上下文的机器同传模型,并基于此发布了最新的语音到语音的机器同传系统:DuTongChuan(度同传)

该系统基于百度飞桨PaddlePaddle平台开发,可以实时地翻译演讲内容并以语音播报的形式传递给观众。

在最新提交的论文(见传送门)结果中:

汉译英准确率85.71%,英译汉准确率86.36%

并且PK 3位经验丰富的人类同传译员,最终结果极具竞争力,在评估所用的BLEU和人工评价双重评价中,度同传均达到与人类专员媲美的水平。

论文中还介绍,该系统已成功应用于百度2019开发者大会,将演讲内容实时地翻译给现场观众收听。现场反馈,延时大多不到3秒。

与传统的字幕投屏同传相比,算得上是真正的沉浸式体验,如同人工同传一般。

百度方面介绍,度同传系统,能够实现语音到语音的机器同传,其中核心技术所在,是全球首个上下文感知机器同传模型

具体原理如何,我们结合论文解析一二。

三大秘籍

一个人类同声传译人员,在进行翻译的时候会把听到的内容划分成一个一个语义块,对一段话进行理解翻译,既不是逐字翻译,也不是逐句翻译,这样既能保证语义不变,又能保证实时性。

百度翻译团队由此得到灵感,教给度同传同声传译秘籍第一招:

语义信息单元(Information Unit,IU)

传统的机器同传存在一个比较尴尬的问题是,它的翻译并不流畅。

举个例子:

对于“所以它会在画布上面,自己创建一个虚拟的这个网格”这个句子,整句NMT(神经机器翻译)模型能够生成准确的翻译。问题是,这样的模型需要等到一个完整句子结束,才能开始翻译。

这显然不符合同声传译的要求,时延太高了。

子句NMT模型倒是降低了延迟,因为它在读取源文本中的逗号后就会开始翻译,但是第二个子句翻译的内容“创建你自己的虚拟网格(creat a virtual grid of your own)”不符合原意。

一个太慢,一个翻译不通顺,这时候,语义信息单元IU就派上用场了。

模型会不断从自动语音识别(ASR)模型中读取实时语音流,并确定其信息单元边界,将语音流切分成一个一个翻译单元。

这个切分的过程靠的是基于动态上下文的信息单元边界检测器

它是这样工作的:

当锚点在“姬”这个字上的时候,如果当前边界决策的概率小于某个阈值,那么就必须考虑更多的上下文(添加额外的上下文“这个”),得到更可靠的决策。这之后,“那个叫什么什么呃妖姬”这几个字就被标记为一个信息单元。

也就是说,模型会学习确定当前锚点的潜在类别,一旦分类确定,它前面的序列就被标记为一个信息单元。

这个模型的一个显著特点是被允许参考更多的上下文,所以它的预测也会更加可靠。

只有IU还不够。

秘籍二:创新解码算法

为了提升翻译的流畅度和一致性,百度还提出了两种创新解码算法:部分解码(Partial Decoding)和上下文感知解码(Context-aware Decoding)。

部分解码

在上下文感知翻译模型中,需要翻译的信息单元通常都是句子的一部分,并非完整的一个句子。而传统的NMT模型通常在仅包含完整句子的双语语料库中进行训练,如果用传统训练方式的NMT模型解码信息单元,容易产生过度翻译和漏译等问题。

除了这个问题之外,还要考虑到人类同声传译员通常都是会进行预判的,有些话讲话的人还没说出口,同声传译员就已经翻译出来了。

为了解决上述问题,度同传设计了一个部分解码模型,用于翻译一个句子的第一个信息单元。

在训练阶过程中,在预测第一个信息单元翻译内容时,通过掩盖句子中其他信息单元的内容,可以让模型同时学习预测目标译文和部分原文信息,达到提前预测的功能。

上下文感知解码

对于句子中其他的信息单元,则采用上下文感知解码模型进行翻译。

• 在训练过程中,强迫该模型学习如何在给定部分翻译内容的情况下继续翻译。

就像这样,在训练期间,不屏蔽源输入,但屏蔽与第一个信息单元对齐的翻译内容。这种策略能迫使模型学会补全剩余的翻译内容,而不是聚焦于生成完整句子的翻译。

此外,在解码阶段,上下文感知模型会丢弃已生成部分翻译的最后k个符号,而后完成其余的翻译,以生成更为流畅的翻译结果。其中的原理是,前序信息单元尾部的翻译很大程度上会影响到后续信息单元的翻译内容。

k=1

如此一来,度同传就能够结合上下文信息,生成全局流畅的译文,还克服了传统模型以句子为翻译单位,译文不连贯、时延长等缺点。

这就完事了?并不。为了推动语音翻译的研究,百度翻译团队还开源了一个宝库。

秘籍三:BSTC

BSTC是全球首个中文-英文演讲场景语音翻译数据集,总共包含超过50小时的演讲语音和对应的转录文本、时间轴、翻译文本等数据资源。涉及IT、经济、文化、生物、艺术等多个演讲主题。

该数据集现已开源,下载链接可在文末自取。

媲美人类,机器与人类各有所长

为了验证度同传的本领,百度翻译团队邀请了3位具有3-7年工作经验的同声传译员S,A,B。

研究团队模拟了一个真实的同传场景,让机器同传和同声传译员们对BSTC中的同一个演讲进行同声传译。

无论是传统的BLEU自动评价指标(一种用于评估从一种自然语言机器翻译到另一种自然语言的文本质量的算法),还是人工评价方法,机器同传都表现出了极具竞争力的翻译水平。

BLEU和人工评价均基于转写后的译文文本,BLEU指标基于n-gram严格匹配计算得分,而人工评价更注重译文的完整性和流畅度,类似于用笔译的标准评价口译。

BAD:译文不准确;OK:译文不影响理解,允许有少许错误;GOOD:译文准确

可以看到,在可接受度(Acceptability)上,机器同传与表现最好的人类选手表现相当(73.91% VS 73.04%)。

而在漏译率上,机器同传则远远甩开了人类竞争对手(20% VS 47%)。

当然了,在漏译率明显高于机器的情况下,人类同传译员仍保持了高可接受度,说明人类在实时性要求高、脑力工作强度大的情况下,能够灵活变通,突出重要信息的传递。而机器胜在不知疲倦,漏译率低。

值得注意的是,刚公开论文的度同传,实际已在2019百度AI开发者大会完成实战检验。

从人工测评结果来看,度同传的中英同传可接受度达到了85.71%,英中同传可接受度则达到了86.36%。根据现场使用体验,合成语音的平均延迟在3秒以内。

总结来说:语音到语音,高质量,低时延。

不过眼见方为实,如果想要亲自体验一下百度翻译AI同传,现在百度翻译也给出了开放平台申请渠道。

此外,度同传作为一项服务已经集成到了百度的AI平台上,相信不久之后还能在更多产品、更多落地场景中应用。更多C端用户,也能直接体验。

传送门

体验申请链接:

BSTC数据集:

论文链接:

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办,旨在围绕人工智能的产业需求研讨AI计算,促进AI技术创新、合作发展与人才培养。

门票原价1099元,量子位用户专享福利,识别下图即可限时免费报名。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

AI同传效果媲美人类,百度翻译出品全球首个上下文感知机器同传模型相关推荐

  1. 全球首个知识增强千亿大模型鹏城-百度·文心发布

    作为当前人工智能发展的重要方向,预训练大模型已成为 AI 领域的技术新高地. 12月8日,鹏城实验室与百度联合召开发布会,正式发布双方共同研发的全球首个知识增强千亿大模型--鹏城-百度·文心(模型版本 ...

  2. 我什么都没做,文章就自动变成了视频?AI神器解放视频编辑丨百度研究院出品...

    点击上方"Python与机器智能",选择"星标"公众号 第一时间获取价值内容 郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 人工智能技术,现在可 ...

  3. 世界类脑AI巨系统研究综述,论ET大脑是不是全球首个类脑架构AI

    前言:2017年12月20日阿里云云栖大会提出ET大脑,并宣称为全球首个类脑架构AI,本文详细介绍了类脑AI系统的理论研究和发展现状,分析了ET大脑理论的沿袭与借鉴.并指出企业为提升影响里推动新概念新 ...

  4. 不用车载传感器,也能L4级自动驾驶?清华百度联手发布全球首个纯路侧感知自动驾驶方案...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 车上不用传感器,也能自动驾驶? 听上去有些不可思议,但现在,百度Apollo&清华真的把这项技术搞了出来. 就在清华大学智能产业研究 ...

  5. 拥有「人类智能」的全球首款有「思想」的机器人,活细胞培养的神经元

    出品 | AI科技大本营(ID:rgznai100) 脑机接口,其主体是人的大脑,利用人大脑中产生的信号转换为命令而执行任务. 首款有思想的机器人?是的,你真的没有看错! 反过来说呢,比如主体是机器人 ...

  6. 百度牵头,全球首个面向商业化运营的Robotaxi技术标准正式发布

    近日,由百度牵头,联合交通运输部公路科学研究院.湖南湘江智能.上海淞泓.信通院.威马.东风.一汽.北汽.博世.大唐电信等机构共同起草的Robotaxi技术要求团体标准正式发布.该标准发布后,将规范Ro ...

  7. 精诚探索,极客归来!百度安全打造全球首个元宇宙安全极客大会,共筑 AI 安全新防线...

    北京时间 8 月 12 日晚-15 日,DEF CON 30 CHINA Party 在希壤元宇宙世界和位于北京的线下会场同步揭幕,同时呈现了美国拉斯维加斯 DEF CON 30 现场的实时转播,向国 ...

  8. AI加持的WPS来了:金山开源全球首个办公DL框架KSAI-Lite

    自动生成 PPT,自动图片转文字 + 翻译,甚至自动辅助写文章-- 办公自动化的未来已来. WPS 是个已有超过 30 年历史的办公软件,但它最近的用户数量增长却越来越快--这款工具目前已有接近 4. ...

  9. 基于昇腾AI,空天院携手华为共同发布全球首个面向跨模态遥感数据的生成式大模型“空天.灵眸”

    8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称"空天院")发布了首个面向跨模态遥感数据的生成式预训练大模型" ...

最新文章

  1. 深入探讨:视觉的目的是什么?
  2. js 判断一个元素是否存在
  3. java stringbuilder换行_初遇Java StringBuffer 和 StringBuilder 类利用 StringBuilder 给TextView实现换行处理...
  4. 开发日记-20190620 关键词 今日回顾
  5. python 左旋转字符串
  6. 【快乐水题】2000. 反转单词前缀
  7. mysql到oracle数据迁移,mysql数据迁移到oracle
  8. python encode函数_python_base64和encode函数
  9. 接口缺方法调用时报错_TypeScript真香系列——接口篇
  10. k8s认证及ServiceAccount-十五
  11. Keil代码自动对齐 VS对齐功能
  12. 传智播客java学习之面向对象(抽象类) , 接口
  13. Python 冒泡排序 代码实现
  14. response返回中文乱码
  15. 两台虚拟机互相ping通(互相通讯)
  16. react的ref三种使用方式,获取元素内容
  17. 在3D游戏中显示网页
  18. mysql实战36 | 为什么临时表可以重名?
  19. 第十八次CCF计算机软件能力认证
  20. 若xn>0,且x(n+1)/xn>1-1/n(n=1,2,...),证明级数∑xn发散

热门文章

  1. Android热修复之 阿里开源的热补丁
  2. 10款最好的免费在线工具进行网站设计与开发
  3. 删除SmartAuditor日记信息报错问题
  4. Google BigQuery——企业级大数据分析工具
  5. 一个权限树的设计与实现
  6. WPS漏洞利用工具Bully常见命令集合
  7. 加强版dd工具dc3dd
  8. Kail Linux渗透测试教程之网络扫描和嗅探工具Nmap
  9. 什么是C#编程语言明明白白学C#
  10. 2017android开发找不到工作,揭秘蒋多多2017生活现状,30岁找不到工作曾绝望自杀...