一.生成bpe模型和词典

subword-nmt learn-joint-bpe-and-vocab --input corpus.path -s 30000 --output en.bpe --wirte-vovocabulary dict.en.txt
#corpus.path:语料路径
#en.bpe:bpe模型
#dict.en.txt:英文词典

二.根据bpe模型对语料进行切分

subword-nmt apply-bpe -c en.bpe < corpus.path > corpus.bpe
#corpus.bpe:bpe后的语料

三.使用fairseq根据词典和语料训练模型

1.将corpus切分出训练集、验证集、测试集

sed -n 1,1000000p corpus.bpe > train.en

2.执行preprocess文件

python $FILE/preprocess.py \--source-lang en --target-lang zh \--trainpref $DATA/train --validpref $DATA \--destdir $DATA/preprocess \--srcdict dict.en.txt \--tgtdict dict.zh.txt \

subword-nmt 基本使用相关推荐

  1. 输出不详宗教预言,Google翻译为何“水逆”了?

    最近,一些网友使用的 Google 翻译"水逆"了. 在 Reddit 上,有网友截图显示,在 Google 翻译中当某些语种的词汇翻译成英语时,输出的却是毫无由头的宗教语言.比如 ...

  2. lstm 文本纠错_工业界纠错系统

    本篇文章,主要来唠嗑下工业界的纠错系统怎么设计?包括:基于规则的纠错系统(简单的英文纠错.复杂的中文纠错).基于NN的纠错系统.当然,在成熟的工业界纠错系统中,最好是结合规则&&NN方 ...

  3. error 系统错误 错误码10007_工业界纠错系统

    本篇文章,主要来唠嗑下工业界的纠错系统怎么设计?包括:基于规则的纠错系统(简单的英文纠错.复杂的中文纠错).基于NN的纠错系统.当然,在成熟的工业界纠错系统中,最好是结合规则&&NN方 ...

  4. 爱丁堡大学神经机器翻译系统 nematus 使用笔记

    *博客地址:http://blog.csdn.net/wangxinginnlp/article/details/64921476 *由于没有step by step instruction,被代码搞 ...

  5. [机器翻译] 记一次多语言机器翻译模型的训练

    文章目录 前言 数据准备 数据下载 数据预处理(iwslt14_preprocess_subwordnmt_old_version) 模型训练 补充 补充一:Key error while acces ...

  6. NLP入门 | 通俗讲解Subword Models

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:芙蕖,Datawhale优秀学习者,东北石油大学 对于英文来说,文 ...

  7. CS224n笔记——Subword Model(十二)

    系列文章 Lecture 1: Introduction and Word Lecture 2: Word Vectors and Word Senses Lecture 12: Subword Mo ...

  8. Information from parts of words: Subword Models

    1. 有关语言学(linguistics)的启发 语音学(Phonetics)是一种非常基本的理论,只要是正常人,有着相同的人体器官和相同的发声结构,就会遵循着相同的发声规则和原理. 语音体系(Pho ...

  9. NLP学习-Task 3: 子词模型Subword Models

    NLP学习 更新流程↓ Task 1: 简介和词向量Word Vectors Task 2: 词向量和词义Word Senses Task 3: 子词模型Subword Models Task 4: ...

  10. cs224n学习笔记 03:Subword Models(fasttext附代码)

    课程内容 语言学的一点小知识 词级字符级模型 n-gram思想 FastText模型 1 .人类语言声音:语音学和音系学 语音学是音流,这是属于物理层面的东西 词法学:一个n-grams的代替方案 在 ...

最新文章

  1. C++智能指针剖析(上)std::auto_ptr与boost::scoped_ptr
  2. linux推出mysql对话_以及如何配置它以与Linux平台上的MySQL数据库对话
  3. 自定义方法中英文字符截取
  4. 图片识别不了小程序怎么办_图片转文字【微信小程序】
  5. 计算机系统是连续系统,连续系统的计算机模拟
  6. 父组件访问子组件中的数据(父子组件通信案例:父组件访问子组件$refs[‘子组件‘],子组件传递数据给父组件(父组件中使用v-model))
  7. http状态码批量查询工具V2.0
  8. GPU Pro 2 ------ Volume Decals
  9. Linux最大能创建多少用户,如何在Linux中创建多个用户帐户?
  10. 下列网络设备中,能够抑制网络风暴的是( )
  11. Go语言优秀Web框架
  12. thinkjdbc 关闭_ThinkJD: ThinkJD,又名ThinkJDBC,一个强大的开源JDBC/ORM操作库,让你尽可能简洁地用一行代码搞定数据库操作。...
  13. 传世经典书丛-UNIX编程艺术
  14. Rust : 异步编程
  15. 《云数据中心构建实战:核心技术、运维管理、安全与高可用》——2.4 云计算的发展历程与未来趋势...
  16. 新闻丨智链万源受邀参加世界动物福利科学大会
  17. lc用U盘更新固件_索尼X9000H/X9100H系列机型更新HDMI2.1固件
  18. Linux下格式化sd卡和重新分区
  19. 求矩形槽内电位分布matlab,MATLAB超松弛迭代法求解接地金属槽内电位分布
  20. HTTP gzip压缩

热门文章

  1. 3322域名更新程序
  2. plt.imshow与plt.show区别之交互与阻塞模式
  3. TZOJ--4997: Waiting for Change (模拟)
  4. php 实现快递鸟API接口签名 快递查询对接更高效
  5. 韵达小程序服务器异常,微信小程序快递助手服务端API接入韵达快递返回9300501错误...
  6. 3DSMAX选中物体进行旋转,但物体旋转不了。平移以及缩放是可以的
  7. php empty w3school,w3school的PHP教程提炼(一)PHP基础
  8. 1198 今天星期几
  9. 一加5t升级 android p,第三方速度够快,一加1、一加5和一加5T火速升级AndroidP
  10. 棋牌游戏 投资风险 政策_机会,风险和政策