导语 :一年一度的全国机器翻译大赛(CCMT 2019)于7月20日公布了比赛结果,来自TEG的腾讯民汉翻译团队自去年拿下英汉翻译冠军之后,再一次载誉而归。团队经过多日奋战,最终在30个参赛单位的角逐中脱颖而出,以绝对优势获得三个民族语种中“维吾尔-汉"、“蒙古-汉”任务冠军。而在一个月前国家部委举办的企业级机器翻译系统评测(非受限数据集)中,腾讯民汉翻译团队参加了两个项目,获得了藏语-汉语冠军,维吾尔语-汉语亚军的成绩,这些成绩彰显了腾讯在民族语言技术领域的核心竞争力。

第十五届全国机器翻译大赛(China Conference on Machine Translation,CCMT2019)由中国中文信息学会主办,旨在为国内外机器翻译界同行提供一个平台,加强国内外同行的学术交流,促进中国机器翻译事业,迄今为止已连续成功召开十四届。CCMT不仅是国内机器翻译领域最具影响力、最权威的学术和评测活动,而且也代表着汉语与民族语言翻译技术的最高水准,对民族语言技术发展具有重要意义。

长风破浪会有时,维蒙双冠出镜心

在本次大赛中,参赛队伍的数量再创新高,包括NICT、中科院自动化所、中科院计算所、北大、北航、上交大、华为、OPPO等30多个国内外知名高校和企业;尤以CCMT每年的特色项目——中国的三大少数民族语种维吾尔语,藏语和蒙古语三个方向的翻译任务竞争最为激烈。这次腾讯民汉翻译团队只参加了这三个项目,并且顶住压力,在维吾尔语-汉语,蒙古语-汉语任务中获得冠军,超越了去年的成绩。此次比赛为受限数据集,即必须使用组委会提供训练数据,这也就意味着,参赛各个单位必须以技术进行实力的角逐。

而在较早前,腾讯民汉翻译团队与腾讯翻译君团队强强联手,在国家部委举办的企业级机器翻译系统评测(非受限数据集)中,代表腾讯公司取得总成绩第一。其中腾讯民汉翻译团队参加了两个项目,最终结果为藏语-汉语冠军,维吾尔语-汉语亚军。而翻译君团队则获得了俄、法、韩、越、英等语种的前二名,为公司争取了荣誉。

下表列出本次CCMT大赛维吾尔语到汉语前10名系统得分情况:

Fig.1 CCMT 2019 维汉评测主系统评测结果(仅列出前10)

下表列出本次CCMT大赛蒙古语到汉语前10名系统得分情况:

Fig.2 CCMT 2019 蒙汉评测主系统评测结果(仅列出前10)

注:为表示对参评单位的尊重,和各单位对共同促进机器翻译产学研落地做出的努力,评测结果中已隐去参评单位信息。

打造民族巴别塔,科技向善暖民心

此次团队在CCMT比赛能取得冠军,也得益于其特色产品“腾讯民汉翻译”,这款轻量级的小程序上实现了to C高并发的实时语音同声翻译,以及全自动图像拍照翻译。并支持蒙,藏(安多,康巴,卫藏),维,哈,朝,彝,壮等多种少数民族语言。上线半年以来,这款小众产品截至目前累计用户已经接近30万多,周留存率达到18%。在新疆驻村干部,语言学习者,旅游者中,获得了良好的口碑,也逐渐渗透到了少数民族同胞的生活当中,切切实实地解决了数十万民族同胞们日常跨语种实时交流、办公、学习的问题。

以下是民族语和汉语的同声传译:

以下是民族语和汉语全自动化拍照翻译,用户不用选择语种和图像方向,随心想拍就拍:

事实上,这款产品背后的腾讯民族语言音视图文技术已经得到众多组织和机构的认可,并在国内外各大学术和产业竞赛中获奖无数。如2018年全国维吾尔语分词大赛(MLWS) 第1名;2018年世界机器翻译大赛(WMT 18)第2名;2018年全国民汉CWMT翻译比赛总成绩第1名;2018年世界东方语种识别大赛第2名;2019年国家部委机器翻译评测藏语第1名,维语第2名;2019年ICDAR 多语种OCR识别竞赛第2名等等。在6月中国人工智能协会举办的中国人工智能峰会(CAIS 2019)上,腾讯民汉翻译也从50多个项目评选中脱颖而出,获得“紫金技术创新奖”。

腾讯民汉翻译获得“紫金技术创新奖”

宝剑锋从磨砺出,梅花香自苦寒来

在比赛过程中,腾讯民汉翻译团队以公司为家,鏖战了几个昼夜,将腾讯民汉翻译在产品中长期磨砺出来的一系列技术积累和丰富经验,结合2019年最前沿的机器翻译算法,研发出一整套民族语言翻译的技术参赛方案,如下图所示:

Fig. 3 提交系统的技术路线图

1. 系统主干模型

在模型的选择上,团队采用基于自注意力的Transformer框架作为基准模型结构,在此基础上为了能使模型有更好的性能表现,还做了以下几方面的改进:1)团队使用了更大的模型参数,将模型维度以及前馈网络层(FFN Layer)分别增大至1024维和4096维。更大的模型代表着更大的模型容量以及更强的表达能力;2)将前馈网络层的ReLU激活函数更换为Swish激活函数,试验结果表明Swish激活函数的使用带来了性能上的提升;3)将Transformer网络层中的Layer Normalization前置,即使用Pre-Layer Normlaization。以下为模型结构图:

Fig. 4 模型结构图

2. 低资源数据扩充算法

在数据增强方面,反向翻译(Back-translation)过程中不仅采用了束搜索的方法,同时不受限采样(unlimited sampling)、受限top-k采样(limited top-k samplling) 等方法的使用也增加了伪数据的多样性。在资源稀缺的情况下,为提高伪数据的质量,团队尝试了迭代的反向翻译(Iterative Back-translation)技术,通过多轮迭代达到了正反向模型性能相互促进的目的。此外,团队首次采用了带标签的反向翻译(Tagged Back-translation),该方法通过分别对真实数据和伪数据打特定标签的方式,使得模型能够更有效的分辨这两类数据。在数据选取(Data Selection)方面,该团队采用了最新的n-gram语言模型打分方法,即对训练集和测试集计算n-gram语言模型得分,后通过得分差从训练集选择与测试集相似的子集合。除此之外,在业界首次将最新的BERT框架引入到数据选取方法上。更具体的,在NLP团队的自研BERT框架基础上,通过增加两层前馈神经网络层,训练出具有高准确性的分类模型。下图列出反向翻译实验结果:

Fig. 5 反向实验结果

3. 模型蒸馏和训练

在训练方面,为了保证模型能够充分收敛,以校验集上的BLEU分作为标准采用Early-stop方法,在模型连续5至10次不能有性能上的提升时结束训练。同时,采用Optimizer-delay的方法模拟多卡数据并行以增加Batch大小,进一步提升了模型性能。另外,团队还尝试使用了Custom Embedding、Guided Alignment、Data Weighting等训练方法。其中,Custom Embedding方法在源和目标单语数据上使用word2vec工具预先训练好词向量,并将训练结果初始化给翻译模型,翻译模型进一步以训练或固定词向量的方法进行训练。Guided Alignment方法则使用传统的词对齐信息引导神经机器翻译模型中的注意力机制。Data Weighting方法可以给训练集中的句子或短语给予一定的权重,使权重较高的句子或短语能对模型有更大的影响。团队在使用大量伪数据和真实数据合并的数据进行预训练时对真实数据赋予更高的权重,同时适当降低了伪数据的权重,从而达到模型更偏向真实数据的目的。在机器翻译中,模型蒸馏是使用Teacher模型将训练数据的源语言进行解码,生成目标端是伪数据但源端为真实数据的新平行语料,Student模型使用该语料进行学习的方法。不同于反向翻译,模型蒸馏方法希望通过这种方式使Student模型学习Teacher模型的分布。在本次大赛中,民汉团队将模型蒸馏的方法应用在模型微调训练阶段,并在生成伪数据的方式上使用了以下几种方法:

  • Teacher模型解码时使用束搜索生成Top1译文供Student模型训练(Knowladge Distillation, KD);

  • Teacher模型输出nbest结果,并通过计算句子级的BLEU分选择与原始目标端句子最相似的译文供Student模型训练(Interpolation, Inter);

  • 将上述两个方法有效融合,在KD的基础上进一步使用Inter方法进行微调(KD+Inter);

  • 将单个Teacher模型升级为多个Teachter融合模型进行解码(Ensemble Distillation, ED);

4. 解码和调优

在解码部分,团队使用了分数平均的模型融合方法,并对输出nbest进行了重排序。模型融合方面使用了3至14个不等的模型进行融合。重排序方面除标准模型输出分(L2R)外,还包括从右至左翻译模型打分(R2L)、反向翻译模型打分(T2S)、n-gram语言模型打分(LM)、长度惩罚(WP)、正反向对其概率(FAP/RAP)以及翻译覆盖度(Translation Coverage)等特征,最终通过MIRA来对每个特征的权重进行调优。下图为提交系统结果:

Fig. 6 提交系统结果

本次比赛中,大部分技术都已经反哺在“腾讯民汉翻译”产品中。

小结

我们深知,获得比赛冠军只是AI在民族语言落地的一小步。而如何将技术和人民群众的对于语言的需求和痛点结合,打造改善民族地区千万人群生活的产品,构建民族语言的终极巴别塔,才是团队持之以恒的追求。用技术改善生活,用实力落地情怀,是TEG er不变的信念与追求。

科技向善,我们一直在路上。

参考文献

[1] Hu, B., Han, A., Huang, S.: TencentFmRD Neural Machine Translation for WMT18

[2] Hu, B., Han, A., Huang, S.: TencentFmRD Neural Machine Translation System

[3] Sennrich, R., Haddow, B., Birch, A.:Improving Neural Machine Translation Models with Monolingual Data.

[4] Edunov, S., Ott, M., Auli, M., Grangier, D.,: Understanding Back-Translation at Scale.

[5] Imamura, K., Fujita, A., Sumita, E.:Enhancement of encoder and attention using target monolingual corpora in neural machine translation.

[6] Hoang, V. C. D., Koehn, P., Haari, G., Cohn, T.:Iterative Back-Translation for Neural Machine Translation.

[7] Kim, Y., Rush, A., M.:Sequence-Level Knowledge Distillation.

[8] Freitag, M., Al-Onaizan, Y., Sankaran, B.:Ensemble distillation for neural machine translation.

腾讯民汉翻译征战全国机器翻译大赛夺得双冠相关推荐

  1. 获“CAIS紫金奖”,腾讯民汉翻译践行“科技向善”

    6月28日,中国人工智能峰会(CAIS 2019)上,腾讯民汉翻译从诸多项目评选中脱颖而出,获得"紫金技术创新奖". "CAIS紫金奖"颁奖现场 作为一款定位于 ...

  2. 科技感+高颜值,讯飞双屏翻译机推出冬奥定制礼盒

    离2022年北京冬奥会开幕越来越近了,今年冬奥会又恰逢春节假期,期间亲朋好友欢乐相聚互赠礼物是一定要有的.这个时候,如果你准备一款冬奥相关的定制礼盒,那你或许就会博得满堂彩.作为本次冬奥会官方语音转换 ...

  3. 专访腾讯徐汉彬:日请求高达3.5亿+平台的架构设计及演变

    专访腾讯徐汉彬:日请求高达3.5亿+平台的架构设计及演变 发表于11小时前| 2426次阅读| 来源CSDN| 3 条评论| 作者钱曙光 SDCCSDCC讲师专访腾讯徐汉彬架构WebPHP width ...

  4. 腾讯在汉投资10亿 建设华中地区最大研发中心

    2012年08月28日02:04长江商报 常燕 陈晴 昨日上午,腾讯无线互联网技术研发总部在汉正式动工,项目一期投资10亿,用地总面积5.6平方公里,预计2014年建成投入使用. 一向十分低调.甚少出 ...

  5. WMT 2022国际机器翻译大赛发榜,微信翻译斩获三项任务冠军

    近日,WMT 2022国际机器翻译大赛的榜单停止提交结果并发布排名.其中,微信翻译团队在对话翻译和生物医学领域翻译的激烈竞争中脱颖而出,斩获三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医 ...

  6. php灵云翻译,灵云维汉友谊桥:业界领先维汉翻译技术

    灵云维汉友谊桥:业界领先维汉翻译技术 2019年07月03日 17:20作者:黄页编辑:黄页 分享 新疆是个好地方,很多内地人去新疆旅游,也有很多新疆同胞来内地学习.工作.如何听懂对方的语言,是维汉同 ...

  7. [翻译]《高级英汉翻译理论与实践》摘录

    前言 最近尝试了给一个小视频英语字幕做翻译,翻译结果放到了 github 上面.随后想了解更多翻译知识,就入手了一本书--叶子南教授的<高级英汉翻译理论与实践>.这虽然是本教材书,但是语言 ...

  8. 第十六届全国大学生智能汽车竞赛 讯飞智慧餐厅组别 全国选拔赛成绩公布说明

    第十六届全国大学生智能汽车竞赛 讯飞智慧餐厅组别 全国选拔赛成绩公布说明 简 介: 本文给出了2021年第十六届全国大学生智能车迅飞智慧餐厅分赛区比赛获奖成绩与奖项设置.后面给出进入全国总决赛名单分配 ...

  9. 讯飞智慧餐厅(全国赛区)比赛通知

    讯飞智慧餐厅(全国赛区)比赛通知 各参赛高校:   为加强大学生创新精神.协作精神和工程实践能力的培养,提高学生解决实际问题的能力,推进高等教育教学改革,选拔参加第十六届全国大学生智能汽车竞赛的队伍, ...

最新文章

  1. extra加ing_英语词汇学各个章节的内容
  2. python requests库用法_python之requests库的使用
  3. 如何防止果照外泄?自己先上传就OK!扎克伯格这波操作给网友整不会了
  4. 如何使用Elasticsearch groovy script脚本更新数据
  5. LabelImg操作及快捷键
  6. flash player 11 相关资源
  7. yagmail和keyring的安装与注册
  8. 学习操作系统心得体会
  9. 如何制作多语种发音词典?多语种发音词典的制作方法!
  10. 一、首页、详情页、文章编辑页制作《iVX低代码/无代码个人博客制作》
  11. U盘量产工具_修复、U盘写保护无法格式化、U盘文件乱码格式
  12. 符号函数sgn python_sgn符号函数matlab
  13. Arduino(关于驱动步进电机的学习)
  14. 12306排队是什么意思_12306订单请求排队中是什么意思
  15. 仿个人税务 app html5_全城警惕!假个税APP正在抢你的钱!
  16. docker之卷10
  17. Python拆分PPT文件的方法
  18. java 公交管理系统 代码_基于jsp的公交管理系统-JavaEE实现公交管理系统 - java项目源码...
  19. 21华为杯数学建模B题--空气质量二次预测
  20. 严重性代码说明项目文件行禁止显示状态错误LNK2019无法解析的外部符号 main,函数 “int __cdecl invoke_main(void)“ (? invoke_main@@YAHX

热门文章

  1. R语言实战(七)图形进阶
  2. ES6笔记(1) -- 环境配置支持
  3. jbpm系列之五--使用decision节点判断分支情况
  4. Maven搭建简单的SS项目
  5. python-爬虫(1)
  6. CodeForces - 1497D Genius(dp)
  7. 2020ICPC(小米邀请赛2) - Data Structure Problem(线段树+树状数组)
  8. HDU - 4687 Boke and Tsukkomi(一般图最大匹配-带花图)
  9. (HDU4324)判断一个图中是否存在两点的出度相同
  10. MFC中修改静态文本框中文字的字体、颜色