金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

十年,能让一个机器翻译系统发生怎样的变化?

2011年,TA还只会“中-英”翻译这一项技能。但TA却用十年时间,在翻译这条路上不断打磨自己。

现如今,TA的“打开方式”的是这样:

全球首个发布互联网神经翻译系统,10年内让翻译质量提升30个百分点(国际常用的评价指标BLEU),而通常提升1个百分点就是非常显著的了。

全球首次突破200种语言的互译,10年内让翻译语种数量增长100倍

不再是只会文本翻译这一项技能,而是掌握了图片、视频、文档,甚至是同传这样的跨模态翻译。

也不再限于在输入框中输入文本来翻译,而是翻译APP、AI同传会议版、同传助手、小程序以及翻译开放平台等多种产品。

而且现在的它还变得格外忙碌,全世界每天找TA翻译的字符量超过千亿,相当于2000部大英百科全书,是10年前的10万倍

甚至Gartner对它还做出了这样的评价:

是神经网络机器翻译标杆机构,也是国内唯一入围单位。

是全球AI翻译服务中的重要力量。

……

TA,就是百度翻译

但如果现在你还认为它只是个搞翻译的,那可能就有点片面了。

因为现在的百度翻译,有点“变味”了。

10岁的百度翻译,长什么样?

如果说百度翻译的起点,是十年前那个只会中英翻译的网站。

那么现在的它,可谓是把翻译这事玩出了一种新高度。

首先在翻译语种这件事,也正如刚才提到的,百度翻译全世界范围内首个突破200种语言互译的系统。

而且不只是翻译语种数量多的问题,更是在翻译难度上有所体现。

例如它甚至在涉猎一些“冷门”的语言,以国粹文言文为例,输入一段《学弈》的文字:

弈秋,通国之善弈者也。使弈秋诲二人弈,其一人专心致志,惟弈秋之为听;一人虽听之,一心以为有鸿鹄将至,思援弓缴而射之。虽与之俱学,弗若之矣。为是其智弗若与?曰:非然也。

啪的一下,百度翻译瞬间就能把晦涩难懂的古文,用大白话的形式展现出来:

然而机器能做到这一点,也相当不容易,因为除去大语种,大部分语言的互译资源是稀缺的,无法供AI学习足够多的知识。

但百度翻译所满足的可不止于对文本翻译的“多”和“精”,它还花了十年时间在便捷性这块下足了功夫。

这不就在最近,百度翻译App更新迭代到了10.0版本,“花式翻译”也在这里得到了很好的体现。

不再是把文字输进去、翻出来这样单一的套路,而是把语音、图片、视频、文档等形式也融入了进来。

换言之,现在想要做翻译,不再是输入文本这种单一的形式了。

说一句话、拍一张照,甚至直接把完整的文档导进来,就可以完成翻译了。

不仅如此,甚至像同传这样高段位的翻译,百度翻译也是能够轻松hold住。

百度翻译更是在全球顶级机器翻译比赛WMT (Workshop on Machine Translation)中,拿下过中英翻译第一名的成绩。

不难看出,百度翻译花了十年时间,不只是在做横向的扩展,也是对各个产品在纵向上“自修功法”。Big Family目前已经枝繁叶茂。

那么百度翻译,是如何通过十年时间进阶到如此的呢?

百度翻译进化之路

我们不妨先来简单回顾一下机器翻译的发展。

“机器翻译”这件事,早在1946年第一台计算机ENIAC诞生之后的一年,便由信息论先驱、美国科学家Warren Weaver提出:

而至此之后,机器翻译先是进入到了“基于规则方法”的时代。

这个方法本质上将专家的翻译知识采用规则形式写下来,然后采用软件的方式利用翻译规则来实现机器翻译过程。

但这种方法的缺点也是显而易见,那就是构建成本、维护成本过高,动辄还要将整个程序重写。

而到了上世纪80年代末90年代初,IBM提出了另一种机器翻译的方式——统计机器翻译,这便开启了机器翻译时代的第二个大门。

与基于规则的机器翻译不同,统计机器翻译不再需要从人工书写翻译规则,而是转换到了数据驱动的机器学习方法。

最大的优点在于机器可以按照人工定义的特征进行“自学”,而之前的基于规则方法,需要人类专家手把手的。

百度翻译上线之初,主要用的就是基于统计机器翻译的方法,同时研发了融合已有方法的多策略模型,以便应对互联网上复杂多样的翻译请求。

2010年百度翻译自建了研发团队,仅时隔一年,便上线了网页版。

但此时统计机器翻译已经诞生了20多年时间,其发展的瓶颈也是越发明显——在经历了基于短语的方法、基于句法的方法等一系列技术迭代之后,统计机器翻译逐渐遇到天花板,翻译质量难以进一步提升,尤其在长距离调序、译文流畅度方面。

即便摸石头过河,也要身先士卒

到了2013年,一篇名为《Recurrent Continuous Translation Models》的研究横空出世。

而伴随着研究人员们所提出的新方法,机器翻译也就步入到了神经机器翻译 (NMT)时代。

虽然这种神经网络的方法确实是一种理想的“替代品”,但非常现实的问题也摆在百度翻译团队的面前。

那就是“无从参考”,建模的方式完全是新的,没有经验可循。

再则以当时的技术水平,通过神经网络模型来做机器翻译还是一件非常“伤资源”的事。

翻译效果提升的代价,就是消耗大量的计算资源,往往翻译一个句子就得花个十几秒的时间。

时间拉到2015年,即便是在这种大背景的情况下,百度翻译团队依旧做了一个“敢为人先”的决定:

上线基于神经网络的机器翻译。

在技术方法上,百度翻译团队针对NMT所存在的缺点,将上一代统计机器翻译的特性融入了进来。

具体而言,就是将n-gram语言模型、短语表特征、长度特征等,融合到NMT模型中。

实验结果表明,这种“新旧结合”的方法,显著提升了NMT在中英互译方面翻译的性能。

而从立项到发布全球首个互联网神经网络机器翻译系统,百度翻译仅仅花了不到半年的时间。

这个节奏要比谷歌翻译提早了整整16个月的时间。

然而百度翻译却并不满足于此。

 Bruno Pouliquen,世界知识产权组织机器翻译负责人,MTSUMMIT-2017

还要做更多方向上的“领头羊”

为了能够进一步翻译出更多的语言,百度翻译还提出了《Multi-Task Learning for Multiple Language Translation》。

在这项研究中,百度翻译提出了共享编码器的多任务学习神经网络翻译模型,建立了基于神经网络的多语言翻译统一框架。

 基于共享编码器的翻译模型图

这也是百度翻译现在能够hold住203种语言互译的关键所在。

到了2017年,百度翻译又惊艳地亮出了AI同传功能。

具体而言,是提出了语义单元驱动的机器同声传译模型,解决了翻译质量和同传时延难以兼顾的难题。

与此同时,百度翻译团队还研发了高质量、低时延的机器同传系统,翻译准确率超过80%,平均时间延迟3秒。

也正是因为百度在机器翻译这件事上技术处于领先地位,翻译准确度又高。

所以许多国际性的会议、活动,都陆陆续续选择百度翻译作为技术支持。百度翻译的AI同传,更是挺进了服贸会、进博会这样的重要活动。

……

那么随之而来的一个问题便是:

百度为什么要如此发力翻译这件事?

翻译,不仅仅是工具那么简单

首先,需要明确且达成共识的一点是,机器翻译是人工智能终极目标之一,也是AI技术最具挑战的应用之一。

这也就是百度在机器翻译领域不断创新的原因所在。

但从另一个角度来看,百度翻译要做的事情,从来就不是翻译本身这么简单。

而从它十年的发展历程来看,现在的百度翻译已经“变味”了:

不仅仅是个工具,更是桥梁窗口和世界文化的感受器

这又该如何理解?

我们不妨从百度翻译带来了什么,来理解它的“变味”。

TA是用户身边的翻译助手

例如在交警执法的过程中,就曾遇到过外国(俄罗斯)友人的这种情况。

由于他们不会中文,沟通就成了老大难的问题。

最终,交警通过百度翻译的能力,成功地救助了外籍船员。

再如工作中,语言的障碍成为了信息获取与沟通交流的阻碍。

而用户通过使用百度翻译的软件,让跨语言交流这件事变得更加丝滑。

但这样的服务和体验,应当是所有人都该拥有的体验,哪怕是残障人士也应如此。

为此,百度翻译还帮助视力障碍的开发者开发盲人操作软件,免费帮助大量盲人用户获取翻译服务。

也正是这样一件又一件的真实故事,让百度翻译不再是只是翻译工具这么简单,更是赋予了诸如桥梁、窗口和感受器等这样的含义。

TA助力全球抗击疫情

但讲真,比起体验上的这层“变味”,百度翻译还逐渐发挥着更具深层宏大的使命和价值。

例如在抗疫这件事上,百度翻译也在发挥着它的热量。

法语的3M口罩说明书、英语的防护服说明书、俄语的三层口罩商检证书……这些抗疫物资等等,无不需要翻译的工作。

但众所周知,抗疫这件事不仅任务量重,更是在与时间赛跑。

百度翻译便扛起了抗疫期间翻译工作的重担,仅仅在2天时间内便搭建出了高效易用的定制化翻译工具,而且火速向志愿者团队免费开放。

 多语言防疫视频

TA服务国家需求,为跨语言交流铺路

而且百度翻译做的事,还是符合国家需求的那种。

国家在第二届“一带一路”国际合作峰会论坛中便提出:

共建“一带一路”,关键是互联互通。我们应该构建全球互联互通伙伴关系,实现共同发展繁荣。

而跨语言交流,就成为了实现这一目标的关键所在。

百度翻译便在十年时间里,在翻译语种增长100倍的情况下,沿着“一带一路”沿线国家,将跨语言翻译逐步铺展开来。

不难看出,这也是应了国家乃至全球发展的互联互通大趋势。

而放眼当下,百度翻译还在“变味”着,要将翻译这件事转变为一种生产力

但毕竟翻译这件事可谓是任重而道远,即便是拿下诸多“全球首次”的百度翻译也还有很长的一段路要走。

至于在接下里的时间里,百度翻译又将在技术和价值上带来怎样的提升,我们拭目以待。

百度翻译十年:语种全球首破200大关,质量提升30个百分点,每天翻译超千亿字符...相关推荐

  1. 百度CTO王海峰:百度翻译每日翻译量已达到千亿字符

    9月18日,2020中关村论坛"AI开源创新与产业智能化"平行论坛上,百度首席技术官.深度学习技术及应用国家工程实验室主任王海峰与来自政府.企业.学界的领导与嘉宾,共同探讨AI开源 ...

  2. AMD首款5纳米PC处理器锐龙7000亮相,频率首破5GHz大关,单核性能提升15%

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI COMPUTEX(台北电脑展)线上发布会上,苏妈带着AMD新一代锐龙7000系列处理器如约而至. 这款最新CPU升级为5nm Zen4架构,单核性 ...

  3. 糖果将推翻译手机php切,全球首款翻译手机糖果S20发布 或将终结翻译机

    本报讯 "未来糖果要做的,不仅仅是单纯终结翻译机的市场,让更多的出境游人群享受沟通无障碍的便利,更希望成为消费者心目当中一个有温度.有情怀的品牌.始终从消费者的角度出发来设计手机和智能设备, ...

  4. 硬核测评,谷歌翻译被碾压!全球首个翻译引擎进化归来,“细节狂魔”搞定方言文言文...

    作者:刘俊寰 来源:大数据文摘 近期,一款在线机器翻译软件在日本大火. 这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议. 从日本网友的民间测评来看,不仅 ...

  5. 全球首款2纳米制程芯片问世:每平方毫米3.3亿晶体管,IBM打造

    2017 年,IBM 联合三星和 GlobalFoundries 推出了首个 5nm 制程工艺的芯片.仅仅过去不到四年,IBM 又率先公布 2nm 芯片制造技术,不仅具有更高的晶体管密度,而且采用了全 ...

  6. 腾讯或将成首家网络银行 Q币十年发行超千亿

    如今的腾讯已势不可挡,有消息称,在与平安和阿里巴巴成立首家网络保险公司之后,腾讯或将成为首家网络银行,而QQ世界通行的网络货币Q币,有可能成为现实的结算工具.网友笑称:一旦开足造币机器,腾讯将成为世界 ...

  7. 全球首个有机硅皮革量产落地,将率先用于超跑SUV高合HiPhi X上

    上海2021年8月24日 /美通社/ --  如果有一天,你在爱车上不小心洒了一大杯咖啡,你的宝贝把冰淇淋甩在了座位上,你的爱宠满身泥浆跳上"宝座",你所能做的只剩当场崩溃?作为对 ...

  8. 百度ERNIE登顶GLUE榜单,得分首破90大关

    出品 |  AI科技大本营(ID:rgznai100) 12月10日,百度ERNIE在自然语言处理领域权威数据集GLUE中登顶榜首,以9个任务平均得分首次突破90大关刷新该榜单历史,其表现超越微软MT ...

  9. 全球首个突破200种语言互译的翻译引擎,百度翻译打破世界沟通壁垒

    机器翻译作为人工智能关键技术之一,正日益成为企业智能化升级的重要应用场景.12月1日,百度大脑开放日举办了以"机器翻译 沟通全世界"为主题的专场活动. IDC 中国副总裁兼首席分析 ...

最新文章

  1. 2019牛客多校2 H Second Large Rectangle(悬线法)
  2. 「后端小伙伴来学前端了」Element修改默认样式 | 记录自己学习前端踩坑日记
  3. Visual C++——修改框体背景颜色
  4. 指数分布的期望推导过程
  5. Windows消息ID号查看
  6. Odoo (OpenERP/TinyERP)-10.0 (Debian 8)
  7. [Leetcode][程序员面试金典][面试题17.13][JAVA][恢复空格][动态规划][Trie][字符串哈希]
  8. linux 描述符 打开 个数,Linux下增大可打开文件描述符的最大数的方法
  9. JavaSE----多态
  10. 【洛谷P1972】HH的项链(求区间内有多少个不同的数---树状数组)
  11. 匿名飞控代码解读汇总
  12. 计算机毕业设计jspm平面设计类众包威客网网站mjmBBmysql程序
  13. 想学IT的必看!不断提升自己创造溢价的能力,附带学习经验
  14. 数据库建模-概念模型建模(E-R图)
  15. Google Test - Google Testing and Mocking Framework
  16. 用python和adb将一加便签内容迁移到小米或其他品牌便签软件
  17. Wordpress模板主题中functions.php常用功能代码与常用插件[ 后台篇](持续收集整理)
  18. 精品基于Uniapp+SSM实现的定制旅游APP
  19. vue 自定义验证规则rule只能为数字
  20. 电脑休眠睡眠状态下无线WiFi远程网络唤醒设置

热门文章

  1. 提示-bash: telnet: command not found的解决方法
  2. 获取Moment Js中两个日期之间的小时差异
  3. 如何从Android中的另一个应用程序启动活动
  4. Left,Right,Outer和Inner Joins有什么区别?
  5. 如何正确清理Excel互操作对象?
  6. 揪出MySQL延迟上千秒的元凶
  7. 安装node和pm2
  8. redis 用setbit(bitmap)统计活跃用户
  9. java中gson的简单使用
  10. OleDbHelper类