到目前为止,多个开源的SMT系统已经开发出来,在完成许多翻译任务中有着先进惊人的性能,如中国的英语和阿拉伯语的英文翻译。这些系统中的一些重点使用基于短语的模型(如摩西),且多年来已经已被广泛用于社区,而其他人试图用层次模型(如Joshua)处理不同语音之间的句法结构的变化。虽然这些系统和其使用的方法都能得到很有竞争力的翻译质量,但是他们的侧重点不一样,也有着不同的长处和弱点。以下我将对目前开源的SMT系统做个介绍。

一、Moses

摩西是一个由英国爱丁堡大学的SMT先锋团队[科恩等人,2007]开发的翻译系统。摩西的最新版本支持许多特征和功能。例如,它支持基于短语和基于语法基础的模型(从短语/规则提取解码)。同时,它提供的因素翻译模型(factoredtranslationmodel)使得系统能够使用在不同层次的多种信息。此外,混淆网络(confusionnetwork)和字格(wordlattices)可以用来作为输入,用以减小系统的最佳输出误差。此外,摩西包提供了许多有用的脚本和工具,以支持更多的功能。

http://www.statmt.org/moses/

二、Joshua

Joshua是一个由约翰霍普金斯大学[李等人的语言和语音处理,2009]的语言语音处理中心开发的目前很先进的开源的SMT系统。Joshua中使用到的模型是分层的基于短语的模型[Chiang,2005]中提出的。除基本模型之外,它提供了一些有趣的特性,如SCFGs解码(语法注释),多方法译码和并行训练与Map-reduce。Joshua系统使用Java语言实现,在多平台上都有良好的可扩展性和可移植性。同时,使用Java也为试验新的思路和推进当前最先进的结果提供了更为简单的方法(相比C/C++而言)

http://joshua.sourceforge.net/Joshua/Welcome.html

三、SilkRoad

丝绸之路是一个基于短语的SMT系统,由中国的五所大学和中科院(cas-ict,cas-ia,cas-is,厦门大学和哈工大)研发。丝绸之路系统是亚洲地区最早开源的机器翻译系统,起初的目标是完成中文和其他语种之间的翻译。后增强为对其他语对也可以翻译。它有几个非常有用的部分,例如分词模块,使得用户可以轻松地构建中国对外翻译系统。此外,其提供对多个解码器和规则提取的支持,可自行重组为多个各式各样的小系统。

http://www.nlp.org.cn/project/project.php?projid=14

四、SAMT

SAMT的是一个由卡内基梅隆大学[zollmann和Venugopal,2006]研发的syntax-augmented的SMT系统。翻译使用目标树来生成规则,虽然没有严格尊重目标语法在解码。该系统的亮点是,它提供了一个简单又有效方法利用SMT句法信息,在好几个翻译任务中都有较好的结果,在有些情况下甚至优于层次短语的系统,又因为SAMT是在Hadoop中实现的,它可以从分布式处理大数据集的跨越计算机集群中得到帮助。

http://www.cs.cmu.edu/zollmann/samt/

五、cdec

cdec是由克里斯Dyer和他的合作者[戴尔等人开发的一个强大的解码器,2010]。cdec的主要特征是采用了一种通用的翻译模型的内部表示,为试验各种模型和算法提供了框架结构。所以CDEC也可用于SMTaligner或更一般的学习框架。Cdec解码器因为是使用C++完成的,其速度非常之快。

http://cdec-decoder.org/index.php?title=MainPage

六、Phrasal

Phrasal是一个由斯坦福大学的自然语言处理组[Cer等人,2010]开发的系统。除了传统的基于短语模型,它也支持非分层的基于短语的翻译模型,这种扩展对非连续的短语翻译有帮助。以这种方式,它可以更好地泛化看不见的数据,甚至可以处理分层处理模型(例如Joshua)没有处理到的情形。

http://nlp.stanford.edu/phrasal/

七、Jane

Jane是一个C++实现的基于短语的层次基于短语模型的系统。它是由亚琛工业大学大学自然语言技术和模式识别组[维拉尔等人,2010]研发的。Jane支持许多有趣的功能(如Mira权重调整),其翻译结果也是非常有竞争力的。

http://www-i6.informatik.rwth-aachen.de/jane/

基于统计的开源翻译系统介绍相关推荐

  1. NLP——8.基于统计的翻译系统

    基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好. 首先看看一共需要以下三个模型: 语言模型:用来评估这句话的通畅程度. 1 ...

  2. kaggle信用卡欺诈看异常检测算法——无监督的方法包括: 基于统计的技术,如BACON *离群检测 多变量异常值检测 基于聚类的技术;监督方法: 神经网络 SVM 逻辑回归...

    使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...

  3. 鸿蒙开源源码,基于鸿蒙系统开源项目OpenHarmony源码静态分析

    #ifndef __scc #define __scc(X) ((long) (X)) // 转为long类型 typedef long syscall_arg_t; #endif #define _ ...

  4. 《中国人工智能学会通讯》——6.16 基于统计的推理方法

    6.16 基于统计的推理方法 前面提到,知识图谱中基于统计的推理方法一般指关系机器学习方法,一个比较好的综述论文可以参考文献 [17].下面介绍一些典型的方法. 实体关系学习方法 实体关系学习的目的是 ...

  5. 基于统计学习---面向新闻的发生地与提及地检测

    基于统计学习---面向新闻的发生地与提及地检测 一.摘要 二.流程 2.1- 数据构建及数据预处理 2.2- 全国5级地址实体二叉树 2.3- 命名实体识别相关算法 2.4- 新闻中特征信息分析 2. ...

  6. 毕业设计之基于springboot的开源商城系统

    一.介绍 本项目是一个基于springboot的开源商城系统 ,前后端分离. 二.功能模块 平台端 管理端 用户手机端 首页 会员 订单 商品 促销 店铺 运营 统计 设计 三.技术架构 前端 vue ...

  7. 基于规则经验主义和基于统计的自然语言处理方法的比较

    这学期为了逼着自己学,选了门NLP的课,之前一直没了解过,上了两次课后让写点看法,不才写就此文.就权当我为这门课攒个人品啦! /************************************ ...

  8. Android是基于Linux的开源操作系统也是Linux内核

    Android是基于Linux的开源操作系统也是Linux内核 亿仁网 发布时间: 18-08-2023:46山西亿仁电子商务官方帐号 Android是基于Linux的开源操作系统,主要用于嵌入式设备 ...

  9. 网易云信亮相LiveVideoStackCon2022,解构基于WebRTC的开源低延时播放器实践

    8 月 5 日- 6 日,LiveVideoStackCon 2022 音视频技术大会上海站隆重召开,作为音视频领域颇具影响力的技术大会,此次大会吸引了众多行业专家,融汇新概念.新技术.新趋势和新思想 ...

  10. 基于Linux搭建开源配置管理中心apollo

    基于Linux搭建开源配置管理中心apollo 什么是apollo Apollo(阿波罗)是一款可靠的分布式配置管理中心,诞生于携程框架研发部,能够集中化管理应用不同环境.不同集群的配置,配置修改后能 ...

最新文章

  1. 学计算机如何防辐射,长期对电脑怎么防辐射
  2. 特征工程(feature engineering)是什么?特征工程(feature engineering)包含哪些方面?
  3. matlab---边缘之sobel简单实例
  4. 计算机硬件技术 实验的软件,计算机硬件技术基础软件实验讲义.doc
  5. 使用单例模式建立一个数据库连接简单示例
  6. 模型训练:数据预处理和预载入
  7. [论文阅读] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
  8. angularjs应用总结
  9. 谈谈目前我对区块链(Blockchain)的认识
  10. WinCE Display驱动开发介绍(转载)
  11. iphone4 通讯录数据库文件!
  12. Style transfer系列论文之——Image Style Transfer Using Convolutional Neural Networks,CVPR, 2016
  13. 鼠标右键菜单管理,自己就是右键管家,右键菜单清理
  14. 真核有参转录组测序标准分析
  15. 2021-04-30
  16. 微信小程序--优购页面制作
  17. 更新linux yum源,CentOS 更新yum源
  18. 超级爆笑:2008高考各省零分作文大全
  19. 【主板上各种接口和附属部件科普】
  20. 【可达编程】 P0815 歌手大赛

热门文章

  1. python playsound播放时关闭_使用playsound modu停止音频
  2. Capte4 布朗运动和伊藤公式
  3. coap协议开发实例C语言,CoAP协议及开源实现
  4. 2022 star*CTF-Writeup
  5. 【MM32F5270开发板试用】+RFID门禁
  6. java 微服务架构图_图解微服务架构演进
  7. STM32----矩阵按键
  8. Pycharm破解(学习python的day01)
  9. 微信小程序点击事件传递参数的方法
  10. 如何修改远程服务器登录密码