李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

Google Pixel Buds的发布震惊了不少人。

每个人都期望戴上这样的翻译耳机,犹如获得科幻小说《银河系漫游指南》中的“巴别鱼”,从此再无跨语言带来的隔阂与障碍——一切轻而易举。

也有人为历史进程中的翻译工作者担心,他们看起来即将失去养家糊口的手艺。

不过这并未引起安妮的担忧,尤其是刚参与完一项语言翻译数据集工作后,她知道历史变革并没有那么简单,至少没有很多人想象中的那样轻而易举,还有大量的工作要做,还有很长的路要走。

没错,正是这些“要被机器替代的人”,现在正在帮助机器变得更聪明。

 Google翻译耳机Pixel Buds

专八“数字工人”

安妮是从事中英翻译的全职工作者,持英语专业八级证书,中英口语流利、切换自如,拥有多年翻译经验。

在过去6个月里,她和团队都在参与完成一项全新的工作:参与一个名为“AI Challenger”比赛的英中翻译数据集打造。

当搜狗公司表述完诉求时,安妮意识到这不仅是一项全新的工作,也会是一个极具挑战的任务:

最长6个月时间,1200万口语句对清洗、标注和检查,堪称时间紧、任务重,数据质量要求高。

最终,包括安妮在内,团队中共有60多人参与,夜以继日,才在AI Challenger上线前完成了交割。

 搜狗CEO王小川在AI Challenger

在AI Challenger中负责英中翻译数据集的搜狗,也随之松了一口气。搜狗之前有机器翻译数据和数据集方面的经验,但1000万数量级的口语翻译数据集,尚属第一次,也无国内外直接经验可参照,完全是开创性的。

搜狗方面透露,这个数据集的耗资超过了上百万元人民币,但成本还不是首要问题,因为即便有钱也遭遇了接单危机——不少数据标注公司在听完诉求后拒绝了这一大单,如此时间紧任务重要求高的工作,实在太损耗人了。

经过多家对比,一家译员规模较大的公司才进入搜狗视野,更利好的是,他们曾经有过类似数据检查和处理的经验。

这也就意味着,为这次翻译数据集扮演“数字工人”角色的,是一群持有英语专业八级证书、口语流利、拥有多年翻译经验的人。

工作的内容也不轻松。安妮向量子位介绍说,整个流程包含“采集”、“清洗”和“检查标注”三部分,其中她们核心参与的是“检查标注”,通过纯人工的方式逐句检查标注。

不过数据进入检查标注之前,也耗费了搜狗工程师不少精力。

他们首先需要从网络上抓取来自于英语学习网址等含有中英对照文本的网页数据。然后对不同来源的网页数据进行处理,对原始的网页文件进行去除HTML标签,提取文本数据,并对齐中英文文本,得到中英文对照的数据之后,还需要进行数据噪音去除等清洗工作。

安妮说整个检查标注的工作开始前,这是一份包含1200万句对的数据,听起来只是一个数字,每一个句对却都需要耗费心血。其中相对简单的是一些短句,因为缺失上下文而导致语义难以判断,就可以快速排除掉,在整个工作结束后,她们排除的这样句对,规模高达200万。

这也让专八翻译安妮对AI有了更进一步的认知,之前有人大谈AI将带来怎样的失业浪潮,其后又有不少“人工智障”的段子流传于圈内。

在盲目乐观和盲目悲观之间,安妮知道“巴别鱼”还需要很长的时间,需要像她一样的专业八级翻译员更辛苦地工作。

她自嘲数据集的工作确实会有一种数字工厂流水线工人的即时感,但她同时认为参与这样一项工作也是一种荣幸——如果能够通过AI Challenger的比赛诞生更好的算法和产品,能够打破语言带来的沟通鸿沟,未尝不是一件好事。

安妮说,从未想过自己竟然也能参与到科幻小说展现的美好图景中,那本大学时让她着迷的《银河系漫游指南》,现在似乎在无限接近实现,她感到幸运,“很多时代的人只能通过想象,但我们正在经历。”

然而,时代之幸背后,还需要更辛苦的“人工”付出,因为语言翻译数据集,并不简单。

这种不简单,清华大学计算机系的刘洋博士深有体会。

 清华大学刘洋博士

语言数据集之困

刘洋是清华大学计算机系副教授,也是中国中文信息学会青年工作委员会主任、计算语言学专业委员会秘书长,他向量子位介绍了目前机器翻译领域数据问题的一般解决方法。

主要是购买。

在文本领域目前最有名的机构是语言资源联盟(LDC),其中涵盖了很多文本、语音方面的数据,由于LDC成立时间早,还与美国NIST组织的各项评测关联,于是机器翻译、语言识别、文本处理和信息检索,最早都要依靠LDC的数据集来展开。

但LDC数据集的核心问题在于购买和版权限制,不能随便转让,开放性上的局限会相应造成研发上的局限。

这也成了欧洲主导的WMT评测影响力日隆的原因,尤其是深度学习狂飙突进之后。

WMT发起之时,欧盟主导推出了两大免费公开项目,一个叫EU matrix,另一个叫EU matrix ++,他们把欧盟的一些政府文档作为数据源,其中的多国语言对比版本,是现成的高质量的机器翻译数据集。

但即便已经解决了开放的问题,欧盟数据集可能还算不上图像领域ImageNet一样的“经典”,这由语言翻译的特殊性决定。

核心是成绩评价标准。

机器翻译生成译文都有多种可能性,好比人类中一千个哈姆雷特翻出一千种译文,用词、文采到句式结构,可能都不尽相同。所以这就给机器翻译的评判造成难题,理论上要求多个标准答案来参考,但现实中具体操作并不容易。

举例来说,现在欧盟数据只有一个标准答案,NIST数据集有4个标准答案,而日本组织的口语评测则达到了16种……欧盟的数据最核心的优势在于开放,使用者众,影响力广泛。

除了算分标准上的完善,成为语言翻译领域的经典数据集,还有三个方面的维度。

一是是否被各个重要的评测所采用,作为指定数据集,质量上获得广泛认可;

二是该领域重要文论的实验结果产生中,采用了什么样的数据集;

三则是数据量上,数据集本身支持的语言语种、规模大小,以及覆盖领域等,也是重要评价因素。

比如想要实现工业级、产品级应用的机器翻译系统,可能得有上千万甚至上亿级别的句对,一个句对的平均句长在30-40词左右。

还有语言均衡和领域均衡的问题。语言均衡主要是语种,可能中英、英法这样的很多,但中越、中文阿拉伯文这样的数据就相对较少,语言语种上不均衡。

另外是领域方面,不少数据集最早的来源都是政府网站,或者联合国官方文件,但如果不是交往密切,或者非联合国官方语种,可能数据就会受限,遑论书面文件之外的口语数据集打造了。

不过核心中的核心,还在于开放性,这是语言数据集的关键所系、是长远生命力的关键所在。只有开放,才能有源源不断的补充和研究反馈。

所以在刘洋博士看来,此次AI Challenger也是中国在经典语言数据集打造方面的一次机会。

此次打造的口语领域英中双语对照数据集,之前科研界并不容易得到,更多还需要与企业合作,不过由于涉及商业保密和知识产权,也会多处受限。

但企业从工业界获取的数据,又是科研理论成果的保障,比如购买LDC数据集也能用来在某个小领域得出不错的结果,可一旦进入更大的领域,就会出现不work的情况,这也是之前翻译领域科研成果和企业应用不能很好衔接的原因。

实际上,推动科研和企业数据结合,也是当前技术瓶颈的内在需求。

十年前Google在机器翻译领域曾有较为知名的一个结论,称数据集规模每翻一倍,它自动评价的指标就能够提升0.5个百分点。

这在当时给了机器翻译的从业者们无限信心,因为只要不断扩展数据集规模即可,Google这样的搜索公司,数据又怎么会成为大问题,然而十多年过去了,即便翻译精度和准确度不断提升,却还是在当前进入缓慢增长阶段。

刘洋博士认为,已经到了一个算法跃迁的时刻,如果没有算法上的新突破,可能一味拓展数据也难以获得质的突破。这在深度学习浪潮中已经得到验证,现在同样需要复制科研和企业联动解决问题的经验。

所以这也是AI Challenger难能可贵之处,至少在数据开放和推动算法跃迁方面迈出了第一步,其间过程中,甘苦冷暖,也只有参与者才能体味。

搜狗市场方面的人士告诉量子位,这完全就是一份苦活累活,除了不计成本地投入上百万元,还要完成数据资源开放、内部专门配合等工作,光对接标注及检查一项,就让他们在今年持续跟进了6个月左右的时间——众所周知,今年搜狗还有IPO上市的大事件要做。

然而,一切辛苦在数据集推出后也获得了回报,参赛选手反馈:1000万句对规模的口语中文翻译,一开始期望在规模上,没料到质量也如此之高。

当然,如果参赛选手如果知道这1000万句对内后,每一句都有一位至少持有专八资格的资深翻译人员,可能就不会太过“意料之外”了。

也难怪在AI Challenger大赛发布会上,AI Challenger执行委员王咏刚谈到语言数据集时的“动情一瞬”。

“这将是下一个AlphaGo,下一个AI里程碑事件,我们希望在中国、在AI Challenger试一试。”

OMT:参赛选手建议

最后,作为此次AI Challenger挑战赛的评委,刘洋副教授也谈到了选手评分参考,以及对首次参赛选手的建议。

刘洋博士认为,一般参与评测的大标准是最后的成绩,而成绩评分方法有两种:

一种是自动评判,即看专业人士结果与机器算法产生结果的相似度,相似度越高,系数越好;

另一种是人工评判,由专业人士对机器算法结果进行直接评定,这种方法在当前更具精准性。

不过还有另外的维度去评判AI Challenger这样的挑战赛,评委会更看重创新性,是否使用一些创新方法简化了流程,或者在细节的数据处理、参数调节上可以做得更细致,都会让人眼前一亮。

而对于哪些首次参与类似比赛的同学,刘洋博士也有关于数据集使用方面的建议。

首先是需要“精心挑选”,把所有数据都用上不一定是明智之举,这其中会考察选手的很多能力,比如数据集选取、数据集质量判断、任务适应度和匹配度判断等方面的能力。

“如果最终任务是新闻,你拿法律相关的数据是没有太多帮助的,所以选择用什么样的数据集反而非常重要。”

其次是对于数据的处理很关键。很多人以为评测成绩的最终决定于大方法,但其实很多情况下成绩是由细节上的选择和处理决定的,比如中文怎么分次、英文怎么做、转成什么,全半角要不要做转换、各种各样的符号等,这种细节上对于翻译错误的影响是非常大的,有些时候是很多新手想象不到。所以,参赛选手要在前处理方面做很多细致的工作。

最后是参数调节上。可能此次比赛很多选手都会使用神经机器方法和深度学习的方法,但其中也有不少“坑”,涉及到参数调节的能力,可能同一个系统,不同人就会跑出不同的效果,这也是一个不断积累经验的过程。

当然,希望AI Challenger也能帮助选手不断实现能力提升,一起实现我们在翻译领域的终极目标。

—  —

AI Challenger全球AI挑战赛”是由创新工场、搜狗和今日头条三家国内人工智能领域企业共同发起的竞赛活动,面向人工智能领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台。

本次大赛提供了百万量级的计算机视觉数据集、千万量级的机器翻译数据集,包括:超过1000万条中英文翻译数据、70万个人体骨骼关键点标注数据、30万张图片场景标注和语义描述数据。这是国内迄今公开的规模最大的科研数据集。

如果你对AI Challenger感兴趣,可以点击“阅读原文”查看更多。

加入社群

量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot3入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot3,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

60名英语专八的半年苦战:机器智能背后有一群“数字工人”相关推荐

  1. 1到10的英文单词的C语言,1天10个英语专八核心词汇:C开头的单词(11)

    童鞋们注意啦:本期节目新加了10个普通词汇,大家看看是不是都记住了呢?没有记住的童鞋也不要落后,现在记住还来得及呢~ 1.connote:v.意味着,暗指 例如:The word "food ...

  2. pat乙级相当于什么水平_英语四六级/专四/专八相当于美国人什么水平?

    大学英语四六级.专四.专八相当于托福雅思什么水平? 美国人的英语水平如何? 如何将词汇量提升到2万,甚至3万? 一起了解一下. 从词汇量要求上来看: ● 大学英语四级→作为大学入门的一门英语水平测试, ...

  3. 2020电力计算机英语翻译,2020专八翻译50篇练习(一)

    2020专八翻译50篇练习(一) 2020专八翻译题型是难点,从修辞.语义表达到句式结构都有更高的要求,考生平日需要多练习多掌握翻译的理论和方法技巧,新东方在线英语专八频道为大家分享专八翻译50篇练习 ...

  4. 老师不能被计算机取代的英文作文,2019专八作文范文赏析:老师不能被取代

    2019专八作文范文赏析:老师不能被取代 专八复习冲刺阶段,英语作文该怎么备考才能得高分呢?背些不同主题的范文,或许可以帮到你,下面是新东方在线英语专八频道整理的一系列英语专八作文范文. Teache ...

  5. 计算机英语翻译3000字,英语专四作文满分范文(二十八):计算机翻译

    英语专四作文满分范文(二十八):计算机翻译 2015年专四考试预计4月18日开考,考生们现在应该进入紧张的冲刺复习阶段,专四作文是很多同学感到头疼的,在这里新东方在线整理了英语专四作文满分范文供考生们 ...

  6. 英语八年级上册计算机的事实,人教版英语|八年级上册各单元必考知识点汇总,收藏!...

    原标题:人教版英语|八年级上册各单元必考知识点汇总,收藏! 今天颜老师给大家总结了人教版八年级上册各单元所有重难点和必考点,包括重点单词.短语.句型及其用法和语法考点,快期中考试了大家收藏起来好好学吧 ...

  7. html语言单词背不下来,专八词汇背不下来?来看看这七种记忆方法

    专八词汇背不下来?来看看这七种记忆方法 01 结合构词法记忆单词 前缀记忆,英语单词前缀很多. 常用前缀有: anti-(反对,防止),co-(共同),de-(离开,除去),dis-(否定,相反), ...

  8. 法语语言考试C1,法语考试大比拼:专八与Dalf C1,哪个更难?

    法专学生学习法语的道路上,有两门考试是通往高阶之路的证明:专八和Dalf C1.法语专业八级考试是面对法语专业本科学生的最高等级考试,它的难度较大,考查范围也较广.而Dalf C1是法国教育署对外法语 ...

  9. 电子计算机时代 英语,2018年英语专四作文范文:计算机时代

    2018年英语专四作文范文:计算机时代 1.近年来,计算机的应用越来越广泛 2.计算机能做许多有益的事 3.计算机也有许多副作用 范文: In recent years, computers have ...

最新文章

  1. ui-router中使用ocLazyLoad和resolve
  2. FPGA的设计艺术(3)静态时序分析
  3. java自定义sql查询插件,Mybatis插件plugin应用测试,替换查询sql
  4. 图像特征提取:图像的矩特征
  5. 芬兰计算机研究生申请表,芬兰的研究生申请技巧
  6. redis(16)--sentinel
  7. aotu.js 动态运行脚本_素材丨一键生成动态LOGO,3000+个样式随你选!
  8. 深度学习数据集制作_深度学习时代的数据驱动建模之探讨
  9. 微信公众号关闭iOS端虚拟支付业务;苹果「Apple 登录」存安全漏洞;谷歌推迟发布Android 11 Beta| 极客头条...
  10. 足球比赛两强相遇概率
  11. Sencha touch 开发指南
  12. 百度云服务器BCC中安装pycharm
  13. 解决报错(Navigation cancelled from “/roleList“ to “/userlist“ with a new navigation.)_@jie
  14. imp导入时 出现IMP-00017:由于 ORACLE 错误 6550, 以下语句失败: 解决方法
  15. C++ reverse()函数用法详解(深入了解,一文学会)
  16. 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback
  17. mysql备库是什么_mysql如何避免备库出
  18. toad for mysql_toad for mysql
  19. Exception in thread “main“ java.lang.UnsupportedClassVersionError: org/apache
  20. 电子沙盘数字沙盘开发教程第26课:三维数字沙盘M3D GIS导航数据开发代码说明

热门文章

  1. 云服务器架设网站教程_阿里云服务器购买流程详细教程及注意事项
  2. SpringBoot项目瘦身指南,大厂如何面试看出你的水平
  3. chmod命令用于更改文件或目录的所有者_Linux 修改权限命令 chmod 用法示例
  4. jupyter一直*_不用下载安装,你的机器人可以直接在浏览器里跳舞丨Jupyter-ROS
  5. python文件审计系统_Python代码审计实战案例总结之CRLF和任意文件读取
  6. html贪吃蛇怎么加蛇尾,贪吃蛇制作移动+pc
  7. linux arm寄存器,ARM寄存器总结
  8. mysql udf http,mysql下mysql-udf-http效率测试小记
  9. android小灯泡实验代码,typecho常用代码片段收集
  10. channelinactive触发后不关闭channel_golang chan 最详细原理剖析,全面源码分析!看完不可能不懂的!...