字子序列中英翻译模型(五笔特征)
文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding
主要思想:将五笔作为中文字模型特征用于翻译模型
背景:有人使用了词子序列(sub-word)作为基本单位,用以规避典外词汇(Out Of Vocabulary, OOV)带来的问题,缩小了词表,并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中,取得了优于字模型(character-level models)的效果。将二者思想结合起来,就有了这篇文章。
特征提取:在五笔输入法中,每个字或词映射为不超过5个(一般是4个)符号编码,比如“毫无理由”,逐字键入,应当映射为毫ypt无fq理gj由mh,如下图
ypt
fq
gj
mh
五笔的键位分布参考
https://www.52wubi.com/wbbmcx/search.php
但文章并没有将字的五笔输入序列直接作为特征,而是采用了基于共现符号对的压缩编码方式BPE(Byte-pair encoding)将之再编码。
BPE的基本思想是这样的,对于一些序列,比如字母序列-词,将最高频的连续共现对用新符号替代。比如对具有4个序列的语料:low, lowest, newer, wider进行替代合并的规则衍变过程为:
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示词尾,这样,合并的结果就是:
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)
用该算法对“毫无理由”的五笔特征(ypt, fq, gj, mh)进行处理,得到:y@@,pt,fq,gj,mh,四个序列变成了5个序列,嗯,文章没有解释这两个@是怎么来的。
翻译模型的结构是经典的RNN+Attention:
评估指标采用了机器翻译普遍采用的BLEU。文章的方法(wubi)在测试集上取得了优于其他方法的结果,尽管在验证集(开发集dev)上的结果有时差于其他模型。
wubi右边的数字代表这次结果用的BPE次数。
文章选取了不同BPE处理次数的结果进行比较,当处理次数(也即图中的词表大小)在2000-3000时,结果是比较好的:
其他:
比较了不同切词算法对结果的影响,总的来说,以词为单位的模型,切词质量影响较大,质量越高,效果越好。
从训练时间上来看,全字模型时间最长,其次是字子序列(文章的模型),最快的是基于词的模型。
字子序列中英翻译模型(五笔特征)相关推荐
- 大学英语综合教程三 Unit 5 课文内容英译中 中英翻译
大学英语综合教程三 Unit 5 课文内容英译中 中英翻译 大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...
- 微软机器翻译系统:中-英翻译水平可“与人类媲美”
本文经授权转载自公众号「微软研究院AI头条」. 继在语音识别和机器阅读领域取得的"过人"成绩,由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队宣布,其研发的机器翻译系统在通用新闻 ...
- 大学英语综合教程一 Unit1至Unit8 课文内容英译中 中英翻译
大学英语综合教程一 Unit1至Unit8 课文内容英译中 中英翻译 大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的 ...
- AI一分钟 | 腾讯将成立机器人实验室;机器翻译重大突破:中英翻译已达人类水平
整理 | 阿司匹林 一分钟AI 腾讯AI Lab宣布与施普林格·自然集团旗下的自然科研正式达成战略合作,并宣布即将成立机器人实验室"Robotics X". 微软与雷德蒙研究院研发 ...
- 中英翻译机c语言实验报告引言,课程设计--C语言关键字中英翻译机.doc
课程设计--C语言关键字中英翻译机.doc 课 程 设 计 报 告学院.系 吉林大学珠海学院计算机科学与技术系专业名称 计算机科学与技术课程设计科目 C 语言程序课程设计所在班级 4 班学生学号 04 ...
- 大学英语综合教程四 Unit 3 课文内容英译中 中英翻译
大学英语综合教程四 Unit 3 课文内容英译中 中英翻译 大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...
- 大学英语综合教程四 Unit 4 课文内容英译中 中英翻译
大学英语综合教程四 Unit 4 课文内容英译中 中英翻译 大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客 本文 ...
- c语言关键字中英翻译机课程设计,课程设计--C语言关键字中英翻译机.doc
课程设计--C语言关键字中英翻译机 课 程 设 计 报 告 学院.系:吉林大学珠海学院计算机科学与技术系专业名称:计算机科学与技术课程设计科目C语言程序课程设计所在班级:4班学生学号:学生姓名:曾伟雄 ...
- c语言关键字翻译课程设计,课程的设计C语言关键字中英翻译机.doc
课程的设计C语言关键字中英翻译机 课 程 设 计 报 告 学院.系:吉林大学珠海学院计算机科学与技术系专业名称:计算机科学与技术课程设计科目C语言程序课程设计所在班级:4班学生学号:学生姓名:曾伟雄指 ...
- c语言关键词中英翻译机编程,C语言关键字中英翻译机.doc
C语言关键字中英翻译机 中 北 大 学 课程设计报告 学 院.系:软件学院专 业:软件工程学 生 姓 名:学 号:设 计 题 目:C语言关键字中英翻译机 起 迄 日 期: 2011年5月30日~ 20 ...
最新文章
- Win10系统如何将M4A音乐格式转换成MP3格式
- PTP4L命令手册(谷歌翻译)
- jzoj100029. 【NOIP2017提高A组模拟7.8】陪审团(贪心,排序)
- 潜伏者(洛谷-P1071)
- MySQL-8.0 | 数据字典最强解读
- python切换虚拟环境和全局_为什么python虚拟环境启动后依然使用全局的python和pip...
- 非spring托管对象如何获取到spring托管对象
- 多组input文件,每组 multiple选择多张图片上传可增删其中任意一张图片,用formData对象实现(ajax,sync: false同步)
- 课后作业1:字串加密
- 排查DHCP(动态获取IP)服务器故障的经验 (好文推荐)
- 所有文件夹都变成1KB文件夹快捷方式病毒的解决方法
- dx10游戏测试软件,GPU评测:3DMark与DX10/11游戏评测
- ioDraw - 好用的流程图绘制软件
- python简单小游戏代码教程-python简单小游戏代码 怎么用Python制作简单小游戏
- matlab怎么解非满秩矩阵,在numpy或matlab中由满秩非方矩阵求可逆方阵
- 企业邮箱密码怎么找回?
- ubuntu服务器安装及网络配置
- findfont: Font family [‘Times New Roman‘] not found. Falling back to DejaVu Sans.字体安装
- 读王垠《一种新的操作系统设计》
- ODBC驱动的官网下载地址
热门文章
- 82_Linux检测指定ip指定端口是否开放
- 简单数论入门和基础数学知识(未完)
- linux主机使用rdesktop连接windows进行usb重定向
- plc vb c语言编程,[转载]VB6.0在PLC和上位机通讯中的应用【工控老鬼分享】
- SiteSucker Pro for Mac 4.3 强大的扒站神器
- 计算机学院毕业生德育总结,毕业生德育答辩总结_相关文章专题_写写帮文库
- SpringBoot 整合QUARTZ 并嵌入可视化界面
- 利用四阶龙格库塔法(Runge-Kutta methods)求解常微分方程并用其迭代式用MATLAB绘制分叉混沌图
- 批量保存打开的网页到本地
- 基于matlab实现人脸识别解析