文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding

主要思想:将五笔作为中文字模型特征用于翻译模型

背景:有人使用了词子序列(sub-word)作为基本单位,用以规避典外词汇(Out Of Vocabulary, OOV)带来的问题,缩小了词表,并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中,取得了优于字模型(character-level models)的效果。将二者思想结合起来,就有了这篇文章。

特征提取:在五笔输入法中,每个字或词映射为不超过5个(一般是4个)符号编码,比如“毫无理由”,逐字键入,应当映射为毫ypt无fq理gj由mh,如下图

ypt

fq
gj
mh
五笔的键位分布参考
https://www.52wubi.com/wbbmcx/search.php

但文章并没有将字的五笔输入序列直接作为特征,而是采用了基于共现符号对的压缩编码方式BPE(Byte-pair encoding)将之再编码。

BPE的基本思想是这样的,对于一些序列,比如字母序列-词,将最高频的连续共现对用新符号替代。比如对具有4个序列的语料:low, lowest, newer, wider进行替代合并的规则衍变过程为:
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示词尾,这样,合并的结果就是:
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)

用该算法对“毫无理由”的五笔特征(ypt, fq, gj, mh)进行处理,得到:y@@,pt,fq,gj,mh,四个序列变成了5个序列,嗯,文章没有解释这两个@是怎么来的。

翻译模型的结构是经典的RNN+Attention:


评估指标采用了机器翻译普遍采用的BLEU。文章的方法(wubi)在测试集上取得了优于其他方法的结果,尽管在验证集(开发集dev)上的结果有时差于其他模型。

wubi右边的数字代表这次结果用的BPE次数。

文章选取了不同BPE处理次数的结果进行比较,当处理次数(也即图中的词表大小)在2000-3000时,结果是比较好的:


其他:
比较了不同切词算法对结果的影响,总的来说,以词为单位的模型,切词质量影响较大,质量越高,效果越好。

从训练时间上来看,全字模型时间最长,其次是字子序列(文章的模型),最快的是基于词的模型。

字子序列中英翻译模型(五笔特征)相关推荐

  1. 大学英语综合教程三 Unit 5 课文内容英译中 中英翻译

    大学英语综合教程三 Unit 5 课文内容英译中 中英翻译   大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...

  2. 微软机器翻译系统:中-英翻译水平可“与人类媲美”

    本文经授权转载自公众号「微软研究院AI头条」. 继在语音识别和机器阅读领域取得的"过人"成绩,由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队宣布,其研发的机器翻译系统在通用新闻 ...

  3. 大学英语综合教程一 Unit1至Unit8 课文内容英译中 中英翻译

    大学英语综合教程一 Unit1至Unit8 课文内容英译中 中英翻译   大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的 ...

  4. AI一分钟 | 腾讯将成立机器人实验室;机器翻译重大突破:中英翻译已达人类水平

    整理 | 阿司匹林 一分钟AI 腾讯AI Lab宣布与施普林格·自然集团旗下的自然科研正式达成战略合作,并宣布即将成立机器人实验室"Robotics X". 微软与雷德蒙研究院研发 ...

  5. 中英翻译机c语言实验报告引言,课程设计--C语言关键字中英翻译机.doc

    课程设计--C语言关键字中英翻译机.doc 课 程 设 计 报 告学院.系 吉林大学珠海学院计算机科学与技术系专业名称 计算机科学与技术课程设计科目 C 语言程序课程设计所在班级 4 班学生学号 04 ...

  6. 大学英语综合教程四 Unit 3 课文内容英译中 中英翻译

    大学英语综合教程四 Unit 3 课文内容英译中 中英翻译   大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...

  7. 大学英语综合教程四 Unit 4 课文内容英译中 中英翻译

    大学英语综合教程四 Unit 4 课文内容英译中 中英翻译   大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...

  8. c语言关键字中英翻译机课程设计,课程设计--C语言关键字中英翻译机.doc

    课程设计--C语言关键字中英翻译机 课 程 设 计 报 告 学院.系:吉林大学珠海学院计算机科学与技术系专业名称:计算机科学与技术课程设计科目C语言程序课程设计所在班级:4班学生学号:学生姓名:曾伟雄 ...

  9. c语言关键字翻译课程设计,课程的设计C语言关键字中英翻译机.doc

    课程的设计C语言关键字中英翻译机 课 程 设 计 报 告 学院.系:吉林大学珠海学院计算机科学与技术系专业名称:计算机科学与技术课程设计科目C语言程序课程设计所在班级:4班学生学号:学生姓名:曾伟雄指 ...

  10. c语言关键词中英翻译机编程,C语言关键字中英翻译机.doc

    C语言关键字中英翻译机 中 北 大 学 课程设计报告 学 院.系:软件学院专 业:软件工程学 生 姓 名:学 号:设 计 题 目:C语言关键字中英翻译机 起 迄 日 期: 2011年5月30日~ 20 ...

最新文章

  1. Win10系统如何将M4A音乐格式转换成MP3格式
  2. PTP4L命令手册(谷歌翻译)
  3. jzoj100029. 【NOIP2017提高A组模拟7.8】陪审团(贪心,排序)
  4. 潜伏者(洛谷-P1071)
  5. MySQL-8.0 | 数据字典最强解读
  6. python切换虚拟环境和全局_为什么python虚拟环境启动后依然使用全局的python和pip...
  7. 非spring托管对象如何获取到spring托管对象
  8. 多组input文件,每组 multiple选择多张图片上传可增删其中任意一张图片,用formData对象实现(ajax,sync: false同步)
  9. 课后作业1:字串加密
  10. 排查DHCP(动态获取IP)服务器故障的经验 (好文推荐)
  11. 所有文件夹都变成1KB文件夹快捷方式病毒的解决方法
  12. dx10游戏测试软件,GPU评测:3DMark与DX10/11游戏评测
  13. ioDraw - 好用的流程图绘制软件
  14. python简单小游戏代码教程-python简单小游戏代码 怎么用Python制作简单小游戏
  15. matlab怎么解非满秩矩阵,在numpy或matlab中由满秩非方矩阵求可逆方阵
  16. 企业邮箱密码怎么找回?
  17. ubuntu服务器安装及网络配置
  18. findfont: Font family [‘Times New Roman‘] not found. Falling back to DejaVu Sans.字体安装
  19. 读王垠《一种新的操作系统设计》
  20. ODBC驱动的官网下载地址

热门文章

  1. 82_Linux检测指定ip指定端口是否开放
  2. 简单数论入门和基础数学知识(未完)
  3. linux主机使用rdesktop连接windows进行usb重定向
  4. plc vb c语言编程,[转载]VB6.0在PLC和上位机通讯中的应用【工控老鬼分享】
  5. SiteSucker Pro for Mac 4.3 强大的扒站神器
  6. 计算机学院毕业生德育总结,毕业生德育答辩总结_相关文章专题_写写帮文库
  7. SpringBoot 整合QUARTZ 并嵌入可视化界面
  8. 利用四阶龙格库塔法(Runge-Kutta methods)求解常微分方程并用其迭代式用MATLAB绘制分叉混沌图
  9. 批量保存打开的网页到本地
  10. 基于matlab实现人脸识别解析