作者 | 琥珀

出品 | AI科技大本营

作为前沿科技新闻报道的一线工作者,我们经常会碰到各种陌生难懂、语言不通的词句。

这直接导致我们在引用和查找信息时,往往辅助以维基百科和谷歌翻译为代表的两大信息引擎,其重要性不言而喻。然而,维基百科的内容显然更偏向于英文内容,举个例子来讲,全球有大约 1200 万人使用祖鲁语,但祖鲁语的维基百科文章大约只有 1000 篇。作为维基百科的词条贡献者们而言,能够快捷方便地创建非英语乃至少数语言的词条基本上是相当迫切的需求。“我们的志愿者们正通过翻译英文的维基条目来弥补这个鸿沟。”

近日,据 VentureBeat 等多家外媒报道,为了解决这个问题,维基媒体基金会(Wikimedia Foundation,维基百科的运营方)表示,正与谷歌合作,将谷歌翻译(Google Translate)将免费集成到维基百科的内部翻译工具中,与开源翻译工具 Apertium 一同成为附加的功能。据称,Apertium 迄今为止已经为 40 万篇维基百科文章贡献了翻译。

两款软件都会先进行一遍机器翻译,然后再交由人类编辑进行手工审查和改进。相比起 Apertium,谷歌翻译新增了祖鲁语(Zulu)、豪萨语( Hausa)、库尔德语(Kurdish)和约鲁巴语(Yoruba)等 15 种语言,共计 121 种。

谷歌承诺,它不会存储和向第三方分享任何个人信息。

使用流程

目前维基百科正尝试开放的新功能包括 TemplateWizard、New wikitext mode、Visual differences、Two column edit conflict以及 Content translation。这简直是维基百科编辑工作者的又一大福利!为此,我们专门探寻了 Content translation 这一功能的使用特性:

如视频所示,通过一些科学的手段,我们终于登录上了维基百科的编写界面。

操作流程如下:

步骤一:点击右上角Beta界面,下拉至 Content Translation,然后点击对勾,并保存。

步骤二:点击右上角Contribution,进入编写界面,这时会弹出Translation一栏,点击确认。

步骤三:当我们进入Translation后,会看到页面中主要有四个功能键:

  • +New translation,可自行创建新的关键词句;

  • Suggestion,推荐的可以修改或编辑的关键词句;

  • In Progress,已保存或正在编辑的所有文档;

  • Published,已发布的文档。

步骤四,输入一组词条后,屏幕界面左侧显示原文、译文,右侧显示翻译辅助的工具,如表格、特殊字符、模板等。

脆弱的机器翻译

不过,可能正是因为目前处于测试版,我们在接下来尝试用谷歌翻译编写/完善维基百科词条时,出现了各式各样不尽如人意的问题。

比方说,当你输入“ Andrew Ng ”的词条后,满眼可见的是机器翻译后的“硬伤”:

“安德鲁严德Ng”、“谷歌脑”……是什么鬼?

不过,如果鼠标点击附有超链接的专有名词“Google Brain”,右侧提示栏仍会显示正确的翻译。

请问什么是“三个体问题”、“延长的现代意义”、“封闭式解”、“典型机械学”?

正常情况下的谷歌翻译

在对包含文字的图片进行翻译时,机器的理解能力更是令人堪忧……

目前我们仅测试出了英翻汉的机器转译能力,而汉翻英的功能一直未能测试成功。如上图右侧显示,汉翻英的界面里仍显示了“汉语”。

值得一提的是,如果长期停留在翻译页面不尝试任何动作的话,你还会遇到404 的提示。不知道这种问题否仅出现在了营长的电脑上。

以及各种各样的操作提示……

反正,直到最后,营长表示:累觉不爱。

谷歌翻译,地表最强机器翻译?

2016 年下半年,“神经机器翻译系统(GNMT,Google Neural Machine Translation system)”的面世,将谷歌翻译带入了神经网络和深度学习等人工智能算法驱动的时代。

简言之,GNMT,即用机器学习的方法来训练机器,不告诉机器需要怎样的语言法则,怎样用词造句,而是扔给它一堆素材,让它自我学习自我提高。据官方解释,输入的每个文字都会有一个关于重要性的权重,每个字都和产出的词汇有一定的关系。系统会自己判断,根据权重等信息,抉择翻译出来的下一个词是什么词。

在此之前,多数翻译软件使用的PBMT(Phrase-Based Machine Translation),即将一句话拆成一个个词组(Phrase),然后针对每个词组去寻找合适的翻译词汇。

据当时的报道称,该系统不再将句子分解为词与短语独立翻译,而是翻译完整的句子,将误差降低了 58%~85% 以上。

后来,包括百度翻译、网易有道、搜狗翻译都相继(声称)推出了基于GNMT 的机器翻译翻译工具。

目前机器翻译需要的不单单是定义语法规则的知识,更需要一点常识。对比当前主流的几款翻译引擎在机器翻译上的进步是值得肯定的,同等语料库下,短语类能在更少工程量的基础上实现相同的效果,但纯粹将输入的句子作为一个序列,不考虑句子本身作为语言的特性,生成的内容依然会难以理解。

而实际上,维基百科也意识到了当前机器翻译仍存在着的极大局限性。因而,在制定翻译步骤时,也明确指出:“把这个英文条目翻译成其他语言。你可以在你自己的文字编辑器中进行翻译工作,但请不要只用机器翻译(如 Google)进行翻译。”

详细内容如下:

请避免翻译不熟悉的内容。一方面您很可能无法准确地表达原文含义(甚至改变原文含义),另一方面您可能会因为不熟悉相关主题而把原文的错误内容带到译文之中。

请勿使用机器翻译翻译条目,无论使用哪种机器翻译软件或网站,条目的质量通常都会差到让人难以理解。我们强烈不建议在机器翻译基础上进行编辑。任何人都可以移除条目中拙劣的机器翻译内容;如果条目通篇由拙劣机器翻译组成,那么将可能被提请快速删除。

建议在翻译时每到一个阶段就至少通读一遍译文,修饰文法,使文章内容通顺而且匹配中文语法。

请避免翻译腔。

那么,你认为机器翻译何时才能不需要这些条条框框?

参考链接:

  • https://www.mediawiki.org/wiki/Content_translation/Machine_Translation/Google_Translate

  • https://www.mediawiki.org/wiki/Content_translation

  • https://wikimediafoundation.org/2019/01/09/you-can-now-use-google-translate-to-translate-articles-on-wikipedia/

(*本文为AI科技大本营原创文章,转载请联系微信1092722531)

公开课预告

全双工语音

本期课程中,微软小冰全球首席架构师及研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果,及其在智能硬件上的应用和未来将面临的更多技术产品挑战。

推荐阅读

  • 程序员有话说 | 程序猿在乘地铁的时候都在想什么?

  • 程序员崩溃了,想拿的年终奖怎么说黄就黄?!

  • 2018全球50大最佳发明名单

  • 资源 | 最新版区块链术语表(中英文对照)

  • QQ卖手办,用AI分析用户评论

  • 放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNN/RNN/TF)比较

  • 平均9分!这些课程Google程序员也在追!

  • 你的邮箱信息是否泄露?还不赶紧查一下!

  • 20行Python代码给微信头像戴帽子

维基百科联手谷歌翻译,结果“惨不忍睹”!相关推荐

  1. firefox浏览器 插件--【维基百科+谷歌翻译】高级应用之 带图翻译

    [维基词典+谷歌翻译]插件地址: https://addons.mozilla.org/zh-CN/firefox/addon/google-dictionary-and-google-t/?src= ...

  2. 「谷歌大脑」提出通过对长序列进行摘要提取,AI可自动生成「维基百科」

    原文来源:arXiv 作者:Peter J. Liu.Mohammad Saleh.Etienne Pot.Ben Goodrich.Ryan Sepassi.Łukasz Kaiser.Noam S ...

  3. [翻译]Linter简介-摘自维基百科

    最近在看台湾大牛高焕堂的"GoogleAndroid应用软体框架设计"看到设计c组件时发现用到前苏联开发的Linter数据库管理系统.听着感觉蛮牛X.google了一下. 下面是对 ...

  4. Gensim官方教程翻译(五)——英文维基百科的实验

    仅供个人学习之用,如有错误,敬请指正.原文地址 为了测试gensim的性能,我们在维基百科英文版上运行了一些实验. 这个页面描述了获取与处理维基百科的过程,以便任何人都能再现这个结果.本教程要求已经正 ...

  5. java mavlink_MAVLink笔记 #01# 维基百科翻译

    本文内容来源于维基百科,仅供学习参考. MAVLink(Micro Air Vehicle Link)是一种用于与小型无人机通信的协议.它被设计为一个header-only消息封送处理库.MAVLin ...

  6. 数据结构思维 第十五章 爬取维基百科

    第十五章 爬取维基百科 原文:Chapter 15 Crawling Wikipedia 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在本章中,我展示了上一个练习的解决方案, ...

  7. 维基百科创建和百度百科建立有何不同?

    我们国内百科平台百度百科占主导地位,但在国际上来讲维基百科占主导地位,即使在中文百科领域维基百科也是有一席之地的,虽然在大陆访问维基百科非常不便,但是还是有不少海外人士,或国内精通互联网的人士会通过技 ...

  8. 维基百科怎么做创建词条?如何创建维基百科?海外营销_一秒推媒体平台

    做品牌出海推广的朋友都会知道维基百科,它在世界互联网领域的地位,就像百度百科在中国的 地位一样.因此,除了海外新闻稿.谷歌雅虎和其他SEO外,非常重要的网络推广是维基百科了. Wiki这个词来源于夏威 ...

  9. 维基百科创始人:将欧盟隐私规定推至全球将带来灾难

    维基百科联合创始人吉米·威尔士(Jim Wales)表示,如果法国政府将其隐私保护规定推广至全球,那么将开启"灾难的罐子",引发全球范围内的审查活动. 上月,法国数据保护监管部门提 ...

最新文章

  1. fread读结构体返回值是0无错误_嵌入式C编程之错误处理(附代码例子)!
  2. libnss mysql_Ubuntu通过LDAP集成AD域账号登录(libnss-ldap方式)
  3. 把一张合成图分拆出各个小图
  4. 验证邮箱是否合法php,验证邮箱是否合法
  5. C++新特性探究(九):functor仿函数
  6. web.xml 基本配置
  7. 助你成功打造一篇伪原创的三点技巧
  8. Android带LOGO二维码生成
  9. VC编程实现色彩空间XYZ与LAB相互转换
  10. ClearCase Overview
  11. 华尔街日报:雅虎站在移动互联网时代悬崖边
  12. toc如何判断 word_在WORD为什么点插入目录显示{TOC\o1
  13. BT500-BT1788主观质量评价
  14. A Comprehensive Measurement Study of Domain Generating Malware 原文翻译
  15. vue与微信小程序的写法对比
  16. 开源新作!抖音四面被拒,再战头条终获offer,一文搞懂
  17. 数字基建系列(一)数分如何参与埋点工作
  18. SATA-AHCI规范学习
  19. 王佩丰excel教程笔记(查找 替换 定位)
  20. Sketch如何转psd文件?3种方法搞定它!

热门文章

  1. 【分享】Java的几个重要词语
  2. Exchange2000需要创建的3个SMTP服务实例
  3. Spring Boot 中使用 MongoDB 增删改查
  4. php 请求方式,PHP发起HTTP请求有哪几种方式?
  5. 23. matlab并行计算原理以及parpool函数
  6. response.getWriter().write()和 response.getWriter().print()的区别
  7. ADO.Net五个对象
  8. 使用vue2.0 vue-router vuex 模拟ios7操作
  9. TemplatedParent 与 TemplateBinding
  10. 学习-现代交换原理与通信技术