一些开源的统计机器翻译系统简要介绍
最近打算深入了解一下机器翻译系统的具体功能模块,以东北大学的Niutrans为蓝本,其用户手册里有一些对其他开源的统计机器翻译系统的介绍,觉得也不错,就简要地记一下发在这里。
Moses:Edinburgh大学SMT小组开发。最新版本的同时支持基于短语的以及基于句法的模型(从短语,规则的提取到解码)。提供了分解的翻译模型,使得信息在不同层之间利用。还有混淆网络以及词格作为输入的使用,减弱了在ambiguous upstream 系1-best输出的错误。此外Moses的package提供了很多有用的脚本和工具,用以支持附加的特征。
Joshua:另一种state-of-the-art(顶尖)的开源SMT系统,Johns HopkinsUniversity开发的。其基础模型是[Chiang,2005]提出来的基于层次短语的模型。相比于基础模型,
Joshua 提供了一些有趣的特征,比如有语法的解码,利用map-reduce进行的平行训练以及多种的解码。由于它是以Java实现的,所以扩展性比较好,能用在不同的平台运行和开发。对于新想法以及当前先进的结果,用Java实现也比较简便(相比于C/C++)。
SilkRoad:就是丝路系统。这是一个基于短语的SMT系统,由中国的五个大学和研究机构研发(中科院自动化所,软件所,计算所,厦门大学,哈工大)。丝路系统是亚洲第一个开源的SMT系统。首要目标是支持中-外翻译,当然也有其他语言对的翻译。它有一些有用的组件,比如分词模块,可以让用户很容易地建立中-外翻译系统。此外,丝路系统支持有多重的解码以及规则提取,利用不同组合的支系统,为实验提供多样的选项。
SAMT:SAMT是一个由卡内基梅隆大学机器翻译小组研发的增强句法的SMT系统。它利用目标树减少了翻译规则。其亮点是提供了简单有效的方式去利用SMT中的句法信息,并且在一些工作中都显示出不错的效果。因为其是由hadoop实现的,所以可以从对大数据集的分布式处理中受益。
Cdec:这是一种powerful的decoder。可以用作一种校准或者一种SMT的学习框架。很快,因为是用C++开发的。
Phrasal:由斯坦福自然语言处理小组开发。作为对传统的基于短语模型的补充,它也支持基于非层次短语的模型,是对基于短语翻译到非连续短语的扩展。所以,能对不可见的数据提供更好的普遍化的方法,甚至处理在层次模型中(比如在Joshua中)miss的cases。[A large-scale statistical machine translation system written in Java. http://www-nlp.stanford.edu/wiki/Software/Phrasal]
Jane:另一种用C++实现的基于短语和基于层次短语的模型。支持很多有趣的特征(比如MIRA对于权值的调整),在一些工作中也取得了显著的结果。
一些开源的统计机器翻译系统简要介绍相关推荐
- 最新的统计机器翻译系统教程(不定期更新)
本文目标: 基于moses,Giza++和IRSTLM搭建自己的统计机器翻译系统 简单了解统计机器翻译的基本知识原理 提供前人已总结的优质资源和资料 ps:为了保证内容质量以及简单易懂性,我将分多次更 ...
- MOSES统计机器翻译系统实现过程
MOSES安装以及初级说明 作为初学者对MOSES现在也没有什么深入的了解就在这里嫌丑,浅显的介绍一下. 首先是moses的官网:http://www.statmt.org/moses/ 里面资料很详 ...
- MOSES统计机器翻译系统实验过程
MOSES安装以及初级说明 作为初学者对MOSES现在也没有什么深入的了解就在这里嫌丑,浅显的介绍一下. 首先是moses的官网:http://www.statmt.org/moses/ 里面资料很详 ...
- Ubuntu10.10 32位系统下moses统计机器翻译系统使用命令记录
准备语料 /disknew/zw/moses/work/corpus translated.ench 1035224句已分词 数据预处理 过滤掉长句子 /tools/moses-scripts/scr ...
- 神经机器翻译系统资料
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统 ...
- 统计机器翻译(SMT)工具Moses在Ubuntu上的安装及使用(安装篇)
统计机器翻译(SMT)工具Moses在Ubuntu上的安装及使用(安装篇) 前言 Ubuntu配置 1.关闭系统自动休眠(可选) 2.更换软件源 Moses安装 1.安装相关依赖包: 2.检查gcc和 ...
- 《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译
2.27 利用深度学习改进统计机器翻译 利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对 ...
- NiuTrans 统计机器翻译开源系统
NiuTrans统计机器翻译开源系统由东北大学自然语言处理实验室开发.该系统使用C++/C编程语言进行编码,具有运行速度快.使用内存少等优点.目前NiuTrans支持基于(层次)短语的模型. NiuT ...
- Piwik——最好用的开源网站统计系统
Piwik--最好用的开源网站统计系统 前段时间一直在寻找开源的网站统计系统,在网上发现了开源的Piwik,它简洁强大,有时一个开源的系统,可以部署在任何PHP+MYSQL上,可以说是最好用的网站统计 ...
- 统计机器翻译 NiuTrans 开源软件
NiuTrans统计机器翻译开源系统由东北大学自然语言处理实验室开发.该系统使用C++/C编程语言进行编码,具有运行速度快.使用内存少等优点.目前NiuTrans支持基于(层次)短语的模型. NiuT ...
最新文章
- 距离度量:闵氏、欧式、马氏、余弦、汉明等
- 悔不当初:回顾进化之路
- ShopEx文章页增加上一篇下一篇功能
- 代码注释(图案:女孩儿)
- 图片服务 - thumbor可用的探测器
- Python标准库zlib提供的数据压缩功能
- php图片生成缩略图_php实现根据url自动生成缩略图的方法
- C#全局钩子参考文章
- 图画日记怎么画_一年级数学图画日记
- 如何使用启动盘启动计算机,电脑重装系统怎么设置用U盘启动盘引导?
- 支付行业常见信息安全合规认证小记
- 转录组分析_转录组分析的正确姿势
- Unable to install breakpoint in
- C语言训练-3426-小金追呀追不上妹子
- 演讲或报告拖延症的终结者,专克各种会议拖延 ppt 演讲 计时器
- python学习笔记之自定义函数
- 【Unity游戏开发笔记】手游-涂鸦弹跳开发分析
- 走出软件作坊:三五个人十来条枪 如何成为开发正规军 链接[收藏]
- 人脸核身 微信h5_微信小程序人脸核身---快速入门到实战(附开发工具类,复制即用)...
- SwiftUI @State @Published @ObservedObject 深入理解和使用
热门文章
- CentOS 5.5 使用 EPEL 和 RPMForge 软件库
- Spring MVC JSON自己定义类型转换
- JavaScript Date(日期)对象
- idea创建Maven项目后启动报404
- Spring搭建MVC WEB项目[转]
- Microsoft Endpoint Protection for Windows Azure客户技术预览版可供免费下载
- Vertex Shader-顶点着色入门
- 用Java操作Office 2007
- uni-app两种方法解决跨域问题【已验证】
- 点击微信网页的a标签直接跳转到淘宝APP打开怎么实现的?附:动图演示效果