

1 相关工具及目录结构

1.1 相关工具

jieba是使用pip install安装外,其他几个工具都是建议直接克隆库到自己的用户目录中,方便使用其脚本(moses/subword-nmt),或未来可能要自己拓展其中的模型(fairseq)

  1. Moses (一个SMT工具,在这里只会用到一些预处理脚本,如:tokenisation, truecasing, cleaning), 这是文档,安装指令如下:
git clone https://github.com/moses-smt/mosesdecoder.git
  1. subword-nmt (使用BPE算法生成子词的预处理脚本),安装指令如下:
git clone https://github.com/rsennrich/subword-nmt.git
  1. jieba (中文分词组件),安装指令如下:
pip install jieba
  1. fairseq (一个基于PyTorch的序列建模工具), 这是文档,安装指令如下:
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install --editable ./

1.2 目录结构与初始化

1.2.1 目录结构

提前组织一个目录结构的好处是可以让后面的一系列操作更加统一、规范化。下表中~代表linux系统中我的用户目录, v15news目录名代表此次我使用的数据集名称

├── mosesdecoder
├── subword-nmt
├── fairseq
└── nmt├── data└── v15news├── result          # 用于存放翻译结果└── data-bin        # 用于存放二进制文件├── models                  # 用于保存过程中的model文件和checkpoint└── v15news└── checkpoints     # 保存checkpoints├── utils                   # 一些其他工具├── split.py            # 用于划分train,valid,test└── cut2.py             # 用于划分src,tgt└── scripts                 # 一些脚本

1.2.2 用于初始化的bash文件

这个文件是在上述目录结构的基础下,定义了一些后面需要用到的变量(主要是各种脚本的路径),包括tokenizer.perl, truecase.perl等,可以在linux中使用bash xx.sh运行,也可以把这些内容直接全部复制到linux命令行中按回车


2 数据的准备

2.1 平行语料


  1. NEU nlp lab 开源语料 (10w,国内政治新闻领域)
  2. WMT新闻翻译任务News Commentary语料 (32w左右,国际新闻领域。其实News Commentary每年都有新闻数据集,但是基本没啥变化,每次在前一年的基础上加几百句,所以这里的链接直接指向最新的WMT20)
  3. NIST数据集 (200w左右,需要购买)
  4. United Nations Parallel Corpus (1500w左右,联合国文件领域)

我本人使用过语料1、3,其中3是跟已购买的师兄要的,不向外提供。其实初次训练建议使用语料1,规模小训练快,能够快速体验整个流程。当然,中英还有很多其他语料,见参考资料1, 2

2.2 数据预处理

2.2.1 数据格式


└── nmt├── data└── v15news     └── news-commentary-v15.en-zh.tsv


1929 or 1989?    1929年还是1989年?
PARIS – As the economic crisis deepens and widens, the world has been searching for historical analogies to help us understand what has been happening. 巴黎-随着经济危机不断加深和蔓延,整个世界一直在寻找历史上的类似事件希望有助于我们了解目前正在发生的情况。
At the start of the crisis, many people likened it to 1982 or 1973, which was reassuring, because both dates refer to classical cyclical downturns. 一开始,很多人把这次危机比作1982年或1973年所发生的情况,这样得类比是令人宽心的,因为这两段时期意味着典型的周期性衰退。

2.2.2 切分


import sys'''
python cut2.py fpath new_data_dir
'''def cut2(fpath, new_data_dir, nsrc='zh', ntgt='en'):fp = open(fpath, encoding='utf-8')src_fp = open(new_data_dir + 'raw.' + nsrc, 'w', encoding='utf-8')tgt_fp = open(new_data_dir + 'raw.' + ntgt, 'w', encoding='utf-8')for line in fp.readlines():tgt_line, src_line = line.replace('\n', '').split('\t')src_fp.write(src_line + '\n')tgt_fp.write(tgt_line + '\n')src_fp.close()tgt_fp.close()if __name__ == '__main__':      cut2(fpath=sys.argv[1], new_data_dir=sys.argv[2], nsrc='zh', ntgt='en')


python ${utils}/cut2.py ${data_dir}/news-commentary-v15.en-zh.tsv ${data_dir}/

后注: 在linux里可以直接用cut实现 cut -f 1 fpath > new_data_dir/raw.en | cut -f 2 fpath > new_data_dir/raw.zh


├── data└── v15news     ├── news-commentary-v15.en-zh.tsv├── raw.zh└── raw.en

2.2.3 normalize-punctuation(可选)

标点符号的标准化,同时对双语文件(raw.en, raw.zh)处理,使用命令:

perl ${NORM_PUNC} -l en < ${data_dir}/raw.en > ${data_dir}/norm.en
perl ${NORM_PUNC} -l zh < ${data_dir}/raw.zh > ${data_dir}/norm.zh


├── data└── v15news     ...├── norm.zh└── norm.en


# raw.en
“We can’t waste time,” he says.
Yet, according to the political economist Moeletsi Mbeki, at his core, “Zuma is a conservative.”# norm.en
"We can't waste time," he says.
Yet, according to the political economist Moeletsi Mbeki, at his core, "Zuma is a conservative."

2.2.4 中文分词


python -m jieba -d " " ${data_dir}/norm.zh > ${data_dir}/norm.seg.zh


├── data└── v15news     ...└── norm.seg.zh


# norm.zh
一开始,很多人把这次危机比作1982年或1973年所发生的情况,这样得类比是令人宽心的,因为这两段时期意味着典型的周期性衰退。# norm.seg.zh
1929 年 还是 1989 年 ?
巴黎 - 随着 经济危机 不断 加深 和 蔓延 , 整个 世界 一直 在 寻找 历史 上 的 类似 事件 希望 有助于 我们 了解 目前 正在 发生 的 情况 。
一 开始 , 很多 人 把 这次 危机 比作 1982 年 或 1973 年 所 发生 的 情况 , 这样 得 类比 是 令人 宽心 的 , 因为 这 两段 时期 意味着 典型 的 周期性 衰退 。

2.2.5 tokenize

对上述处理后的双语文件(norm.en, norm.seg.zh)进行标记化处理,有很多功能(1.将英文单词标点符号用空格分开 2.将多个连续空格简化为一个空格 3.将很多符号替换成转义字符,如:把"替换成&quot;、把can't替换成can &apos;t),使用命令:

${TOKENIZER} -l en < ${data_dir}/norm.en > ${data_dir}/norm.tok.en
${TOKENIZER} -l zh < ${data_dir}/norm.seg.zh > ${data_dir}/norm.seg.tok.zh


├── data└── v15news     ...├── norm.tok.en└── norm.seg.tok.zh


# norm.seg.zh
目前 的 趋势 是 , 要么 是 过度 的 克制 ( 欧洲   )   ,   要么 是 努力 的 扩展 ( 美国   )   。
而 历史 是 不 公平 的 。   尽管 美国 要 为 当今 的 全球 危机 负 更 大 的 责任 , 但 美国 可能 会 比 大多数 国家 以 更 良好 的 势态 走出 困境 。# norm.seg.tok.zh
目前 的 趋势 是 , 要么 是 过度 的 克制 ( 欧洲 ) , 要么 是 努力 的 扩展 ( 美国 ) 。
而 历史 是 不 公平 的 。 尽管 美国 要 为 当今 的 全球 危机 负 更 大 的 责任 , 但 美国 可能 会 比 大多数 国家 以 更 良好 的 势态 走出 困境 。# norm.en
"We can't waste time," he says.
Of course, the fall of the house of Lehman Brothers has nothing to do with the fall of the Berlin Wall.
Second, Zoellick should ask why the Bank spends only 2.5% of its budget on the "knowledge bank" research function that it trumpets so proudly in its external relations materials, while it spends three times that amount on maintaining its executive board.# norm.tok.en
&quot; We can &apos;t waste time , &quot; he says .
Of course , the fall of the house of Lehman Brothers has nothing to do with the fall of the Berlin Wall .
Second , Zoellick should ask why the Bank spends only 2.5 % of its budget on the &quot; knowledge bank &quot; research function that it trumpets so proudly in its external relations materials , while it spends three times that amount on maintaining its executive board .

2.2.6 truecase


${TRAIN_TC} --model ${model_dir}/truecase-model.en --corpus ${data_dir}/norm.tok.en
${TC} --model ${model_dir}/truecase-model.en < ${data_dir}/norm.tok.en > ${data_dir}/norm.tok.true.en


├── data└── v15news...└── norm.tok.true.en
├── models└── v15news└── truecase-model.en


# norm.tok.en
PARIS - As the economic crisis deepens and widens , the world has been searching for historical analogies to help us understand what has been happening .
At the start of the crisis , many people likened it to 1982 or 1973 , which was reassuring , because both dates refer to classical cyclical downturns .
When the TTIP was first proposed , Europe seemed to recognize its value .
Europe is being cautious in the name of avoiding debt and defending the euro , whereas the US has moved on many fronts in order not to waste an ideal opportunity to implement badly needed structural reforms .# norm.tok.true.en
Paris - As the economic crisis deepens and widens , the world has been searching for historical analogies to help us understand what has been happening .
at the start of the crisis , many people likened it to 1982 or 1973 , which was reassuring , because both dates refer to classical cyclical downturns .
when the TTIP was first proposed , Europe seemed to recognize its value .
Europe is being cautious in the name of avoiding debt and defending the euro , whereas the US has moved on many fronts in order not to waste an ideal opportunity to implement badly needed structural reforms .

2.2.7 bpe

对上述处理后的双语文件(norm.tok.true.en, norm.seg.tok.zh)进行子词处理(可以理解为更细粒度的分词),使用命令:

python ${BPEROOT}/learn_joint_bpe_and_vocab.py --input ${data_dir}/norm.tok.true.en  -s 32000 -o ${model_dir}/bpecode.en --write-vocabulary ${model_dir}/voc.en
python ${BPEROOT}/apply_bpe.py -c ${model_dir}/bpecode.en --vocabulary ${model_dir}/voc.en < ${data_dir}/norm.tok.true.en > ${data_dir}/norm.tok.true.bpe.enpython ${BPEROOT}/learn_joint_bpe_and_vocab.py --input ${data_dir}/norm.seg.tok.zh  -s 32000 -o ${model_dir}/bpecode.zh --write-vocabulary ${model_dir}/voc.zh
python ${BPEROOT}/apply_bpe.py -c ${model_dir}/bpecode.zh --vocabulary ${model_dir}/voc.zh < ${data_dir}/norm.seg.tok.zh > ${data_dir}/norm.seg.tok.bpe.zh


├── data└── v15news...├── norm.seg.tok.bpe.zh└── norm.tok.true.bpe.en
├── models└── v15news...├── voc.zh├── voc.en├── bpecode.zh└── bpecode.en


# norm.seg.tok.zh
从 一流 的 麻省理工学院 的 媒体 实验室 到 哈佛大学 的 数学 和 经济系 , 亚洲 人 - 尤其 是 中国 和 印度人 - 到处 都 是 , 犹如 公元前 一 世纪 在 雅典 的 罗马 人 一样 : 他们 对 那里 学到 太 多 东西 的 人们 充满 了 敬佩 , 而 他们 将 在 今后 几十年 打败 他们 学习 的 对象 。
这 不仅 加大 了 预防 危机 的 难度 - - 尤其 因为 它 为 参与者 提供 了 钻空子 和 逃避责任 的 机会 - - 还 使得 人们 越来越 难以 采取措施 来 应对 危机 。
它们 将 通胀 目标 设定 在 2 % 左右 - - 这 意味着 当 波涛汹涌 时 他们 根本 没有 多少 施展 空间 。# norm.seg.tok.bpe.zh
从 一流 的 麻省理工学院 的 媒体 实验室 到 哈佛大学 的 数学 和 经济@@ 系 , 亚洲 人 - 尤其 是 中国 和 印度人 - 到处 都 是 , 犹如 公元前 一 世纪 在 雅典 的 罗马 人 一样 : 他们 对 那里 学到 太 多 东西 的 人们 充满 了 敬佩 , 而 他们 将 在 今后 几十年 打败 他们 学习 的 对象 。
这 不仅 加大 了 预防 危机 的 难度 - - 尤其 因为 它 为 参与者 提供 了 钻@@ 空子 和 逃避@@ 责任 的 机会 - - 还 使得 人们 越来越 难以 采取措施 来 应对 危机 。
它们 将 通胀 目标 设定 在 2 % 左右 - - 这 意味着 当 波@@ 涛@@ 汹涌 时 他们 根本 没有 多少 施展 空间 。# norm.tok.true.en
indeed , on the surface it seems to be its perfect antithesis : the collapse of a wall symbolizing oppression and artificial divisions versus the collapse of a seemingly indestructible and reassuring institution of financial capitalism .
as a visiting professor at Harvard and MIT , I am getting a good preview of what the world could look like when the crisis finally passes .
one senses something like the making of an American-Asian dominated universe .# norm.tok.true.bpe.en
indeed , on the surface it seems to be its perfect anti@@ thesis : the collapse of a wall symboli@@ zing oppression and artificial divisions versus the collapse of a seemingly inde@@ struc@@ tible and reassuring institution of financial capitalism .
as a visiting professor at Harvard and MIT , I am getting a good pre@@ view of what the world could look like when the crisis finally passes .
one senses something like the making of an American-@@ Asian dominated universe .


2.2.8 clean

对上述处理后的双语文件(norm.tok.true.bpe.en, norm.seg.tok.bpe.zh)进行过滤(可以过滤最小长度最大长度之间的句对,这样能够有效过滤空白行。还可以过滤长度比不合理的句对),使用命令:

mv ${data_dir}/norm.seg.tok.bpe.zh ${data_dir}/toclean.zh
mv ${data_dir}/norm.tok.true.bpe.en ${data_dir}/toclean.en
${CLEAN} ${data_dir}/toclean zh en ${data_dir}/clean 1 256


├── data└── v15news...├── clean.zh└── clean.en


# norm.tok.true.bpe.en
30 we can only hope that , in the end , the consequences of 2009 similarly prove to be far less dramatic than we now - intuitively and in our historical refle@@ xes - feel them to be .
32 one Hund@@ red Years of Ine@@ p@@ titude# clean.en
30 we can only hope that , in the end , the consequences of 2009 similarly prove to be far less dramatic than we now - intuitively and in our historical refle@@ xes - feel them to be .
31 one Hund@@ red Years of Ine@@ p@@ titude
32 Berlin - The global financial and economic crisis that began in 2008 was the greatest economic stre@@ ss-@@ test since the Great Depression , and the greatest challenge to social and political systems since World War II .# norm.seg.tok.bpe.zh
30 我们 只能 希望 2009 年 的 危机 同样 地 最后 被 证明 是 远远 低于 我们 现在 以 直觉 和 历史 回顾 的 方式 � � 感觉 到 的 那么 剧烈 。
32 百年 愚@@ 顽# clean.zh
30 我们 只能 希望 2009 年 的 危机 同样 地 最后 被 证明 是 远远 低于 我们 现在 以 直觉 和 历史 回顾 的 方式 � � 感觉 到 的 那么 剧烈 。
31 百年 愚@@ 顽
32 柏林 - - 2008 年 爆发 的 全球 金融 和 经济危机 是 自大 萧条 以来 最 严峻 的 一次 经济 压力 测试 , 也 是 自 二战 以来 社会 和 政治 制度 所 面临 的 最 严重 挑战 。

2.2.9 split

最后,双语文件(clean.zh, clean.en)都需要按比例划分出训练集、测试集、开发集(所以共6个文件,为方便区分,直接以 ‘train.en’, ‘valid.zh’ 这样的格式命名),附自己写的脚本(~/nmt/utils/split.py):

import random
import sys'''
python split.py src_fpath tgt_fpath new_data_dir
'''def split(src_fpath, tgt_fpath, nsrc='zh', ntgt='en', ratio=(0.9, 0.05, 0.05), new_data_dir=''):src_fp = open(src_fpath, encoding='utf-8')tgt_fp = open(tgt_fpath, encoding='utf-8')src_train, src_test, src_val = open(new_data_dir + 'train.' + nsrc, 'w', encoding='utf-8'), \open(new_data_dir + 'test.' + nsrc, 'w', encoding='utf-8'), open(new_data_dir + 'valid.' + nsrc, 'w', encoding='utf-8')tgt_train, tgt_test, tgt_val = open(new_data_dir + 'train.' + ntgt, 'w', encoding='utf-8'), \open(new_data_dir + 'test.' + ntgt, 'w', encoding='utf-8'), open(new_data_dir + 'valid.' + ntgt, 'w', encoding='utf-8')src, tgt = src_fp.readlines(), tgt_fp.readlines()for s, t in zip(src, tgt):rand = random.random()if 0 < rand <= ratio[0]:src_train.write(s)tgt_train.write(t)elif ratio[0] < rand <= ratio[0] + ratio[1]:src_test.write(s)tgt_test.write(t)else:src_val.write(s)tgt_val.write(t)src_fp.close()tgt_fp.close()src_train.close()src_test.close()src_val.close()tgt_train.close()tgt_test.close()tgt_val.close()if __name__ == '__main__':      split(src_fpath=sys.argv[1], tgt_fpath=sys.argv[2], nsrc='zh', ntgt='en', ratio=(0.95, 0.025, 0.025), new_data_dir=sys.argv[3])


python ${utils}/split.py ${data_dir}/clean.zh ${data_dir}/clean.en ${data_dir}/


├── data└── v15news...├── test.en├── test.zh├── train.en├── train.zh├── valid.en└── valid.zh

3 训练过程

3.1 生成词表及二进制文件

首先用预处理后的六个文件(train.zh, valid.en等),使用fairseq-preprocess命令生成词表训练用的二进制文件

fairseq-preprocess --source-lang ${src} --target-lang ${tgt} \--trainpref ${data_dir}/train --validpref ${data_dir}/valid --testpref ${data_dir}/test \--destdir ${data_dir}/data-bin


├── data└── v15news...└── data-bin├── dict.zh├── dict.en├── preprocess.log├── train.zh-en.zh.idx...└── valid.zh-en.en.bin


3.2 训练


CUDA_VISIBLE_DEVICES=0,1,2,3 nohup fairseq-train ${data_dir}/data-bin --arch transformer \--source-lang ${src} --target-lang ${tgt}  \--optimizer adam  --lr 0.001 --adam-betas '(0.9, 0.98)' \--lr-scheduler inverse_sqrt --max-tokens 4096  --dropout 0.3 \--criterion label_smoothed_cross_entropy  --label-smoothing 0.1 \--max-update 200000  --warmup-updates 4000 --warmup-init-lr '1e-07' \--keep-last-epochs 10 --num-workers 8 \--save-dir ${model_dir}/checkpoints &

我自己训练时是在3块GTX TITAN X卡上跑了6个小时,共跑了49个epoch,但是在第22个epoch的时候已经收敛(只需要看验证集上的ppl的变化即可)

epoch 020 | valid on 'valid' subset | loss 4.366 | nll_loss 2.652 | ppl 6.29 | wps 50387.3 | wpb 8026 | bsz 299.8 | num_updates 14400 | best_loss 4.366
epoch 021 | valid on 'valid' subset | loss 4.36 | nll_loss 2.647 | ppl 6.27 | wps 51992.7 | wpb 8026 | bsz 299.8 | num_updates 15120 | best_loss 4.36
epoch 022 | valid on 'valid' subset | loss 4.361 | nll_loss 2.644 | ppl 6.25 | wps 49009.9 | wpb 8026 | bsz 299.8 | num_updates 15840 | best_loss 4.36
epoch 023 | valid on 'valid' subset | loss 4.369 | nll_loss 2.65 | ppl 6.28 | wps 51878.9 | wpb 8026 | bsz 299.8 | num_updates 16560 | best_loss 4.36
epoch 023 | valid on 'valid' subset | loss 4.369 | nll_loss 2.65 | ppl 6.28 | wps 51878.9 | wpb 8026 | bsz 299.8 | num_updates 16560 | best_loss 4.36


├── models└── v15news...└── checkpoints├── checkpoint40.pt...├── checkpoint49.pt├── checkpoint_best.pt└── checkpoint_last.pt

3.3 解码




3.3.1 生成式解码


fairseq-generate ${data_dir}/data-bin \--path ${model_dir}/checkpoints/checkpoint_best.pt \--batch-size 128 --beam 8 > ${data_dir}/result/bestbeam8.txt

选取一部分结果展示如下 (S: 源句子,T: 目标句子,H/D: 预测的句子及其生成概率的log,句子质量越好,其生成概率越接近1,其log越接近0。P: 每一个词的生成概率的log。其中,H=∑PnH=\frac{\sum P}{n}H=n∑P​):

S-537    西班牙 的 人权 困境
T-537   Spain &apos;s Human-Rights Dilemma
H-537   -0.16863664984703064    Spain &apos;s Human Rights Quandary
D-537   -0.16863664984703064    Spain &apos;s Human Rights Quandary
P-537   -0.0973 -0.1385 -0.1464 -0.0123 -0.4252 -0.4299 -0.0110 -0.0884S-5516   这是 不可 接受 的 。
T-5516  that is unacceptable .
H-5516  -0.35840675234794617    this is unacceptable .
D-5516  -0.35840675234794617    this is unacceptable .
P-5516  -0.7625 -0.5517 -0.2005 -0.1513 -0.1261S-676    与 最初 版本 的 破产法 相 比较 , 2006 年 的 法律 是 牢牢 扎根 于 市场经济 的 。
T-676   compared with the original bankruptcy code , the 2006 code is firmly rooted in the needs of a market economy .
H-676   -0.624997079372406  in contrast to the original bankruptcy law , the law of 2006 was firmly rooted in the market economy .
D-676   -0.624997079372406  in contrast to the original bankruptcy law , the law of 2006 was firmly rooted in the market economy .
P-676   -1.4995 -0.9434 -0.1292 -0.3479 -0.9758 -0.6600 -0.9037 -0.1836 -0.4983 -1.6406 -0.3142 -0.0344 -0.1685 -1.0289 -1.0286 -0.1917 -1.5369 -0.6586 -0.1119 -0.1333 -0.1361S-432    用 缅因州 共和党 参议员 苏珊 · 柯林斯 ( Susan Collins ) 的话 说 , 政府 关门 对 其 缅因州 阿卡迪亚 国家 公园 ( Acadia National Park ) 周边 &quot; 所有 小企业 都 造成 了 伤害 &quot; , &quot; 这是 完全 错误 的 。 &quot; 是 她 首先 提出 了 和解 协议 纲要 并 送交 参议院 。
T-432   in the words of Senator Susan Collins , a Republican from Maine who first put together the outlines of a deal and took it to the Senate floor , the shutdown &quot; hurt all the small businesses &quot; around Acadia National Park in her home state , &quot; and that is plain wrong . &quot;
H-432   -0.7003933787345886 in the words of Susan Collins , a Republican senator from Maine , it would be a mistake to shut down the government &apos;s &quot; all small business &quot; around the Maine National Park , where she proposed a settlement and delivered it to the Senate .
D-432   -0.7003933787345886 in the words of Susan Collins , a Republican senator from Maine , it would be a mistake to shut down the government &apos;s &quot; all small business &quot; around the Maine National Park , where she proposed a settlement and delivered it to the Senate .
P-432   -1.2762 -0.3546 -0.0142 -0.1261 -0.0058 -0.7617 -0.1695 -0.2992 -0.0777 -0.3016 -0.4818 -0.0061 -0.0308 -0.3509 -2.5533 -1.5254 -0.2761 -1.1667 -0.6169 -0.6285 -1.2463 -0.0973 -1.4414 -0.3324 -0.2302 -0.3312 -0.6847 -1.0005 -0.1812 -2.9048 -0.3072 -1.8045 -0.0473 -0.8421 -0.4715 -0.6841 -1.1902 -1.6192 -0.3370 -2.3317 -0.3701 -0.2508 -3.0284 -0.2336 -1.1318 -0.3904 -0.1124 -0.0262 -0.2203 -0.1480

3.3.2 交互式解码


fairseq-interactive ${data_dir}/data-bin \--input ${data_dir}/test.zh \--path ${model_dir}/checkpoints/checkpoint_best.pt \--batch-size 1 --beam 8 --remove-bpe > ${data_dir}/result/bestbeam8.txt

3.4 后处理及评价

3.4.1 抽取译文


grep ^H ${data_dir}/result/bestbeam8.txt | cut -f3- > ${data_dir}/result/predict.tok.true.bpe.en
grep ^T ${data_dir}/result/bestbeam8.txt | cut -f2- > ${data_dir}/result/answer.tok.true.bpe.en


# predict.tok.true.bpe.en
the subsidy .
this is unacceptable .
there is even worse .
this must change .# answer.tok.true.bpe.en
removal of subsidies .
that is unacceptable .
it gets worse .
this must change .

3.4.1 去除bpe符号


sed -r 's/(@@ )| (@@ ?$)//g' < ${data_dir}/result/predict.tok.true.bpe.en  > ${data_dir}/result/predict.tok.true.en
sed -r 's/(@@ )| (@@ ?$)//g' < ${data_dir}/result/answer.tok.true.bpe.en  > ${data_dir}/result/answer.tok.true.en


# answer.tok.true.bpe.en
a World of Under@@ investment
that needs to change .
revolts of the Righ@@ teous
Russia &apos;s Economic Imperi@@ alism
shock and Pan@@ ic# answer.tok.true.en
a World of Underinvestment
that needs to change .
revolts of the Righteous
Russia &apos;s Economic Imperialism
shock and Panic

3.4.2 detruecase


${DETC} < ${data_dir}/result/predict.tok.true.en > ${data_dir}/result/predict.tok.en
${DETC} < ${data_dir}/result/answer.tok.true.en > ${data_dir}/result/answer.tok.en


# predict.tok.true.en
the subsidy .
this is unacceptable .
there is even worse .
this must change .# predict.tok.en
The subsidy .
This is unacceptable .
There is even worse .
This must change .

3.4.3 评价


${MULTI_BLEU} -lc ${data_dir}/result/answer.tok.en < ${data_dir}/result/predict.tok.en


BLEU = 28.81, 61.8/35.4/22.8/15.2 (BP=0.976, ratio=0.977, hyp_len=187605, ref_len=192093)
It is not advisable to publish scores from multi-bleu.perl.  The scores depend on your tokenizer, which is unlikely to be reproducible from your paper or consistent across research groups.  Instead you should detokenize then use mteval-v14.pl, which has a standard tokenization.  Scores from multi-bleu.perl can still be used for internal purposes when you have a consistent tokenizer.


# Option 1: Pass the reference file as a positional argument to sacreBLEU
sacrebleu ref.detok.txt -i output.detok.txt -m bleu -b -w 4
20.7965# Option 2: Redirect the system into STDIN (Compatible with multi-bleu.perl way of doing things)
cat output.detok.txt | sacrebleu ref.detok.txt -m bleu -b -w 4

3.mteval-v14:Usage: $0 -r <ref_file> -s <src_file> -t <tst_file>

3.4.4 detokenize


${DETOKENIZER} -l en < ${data_dir}/result/predict.tok.en > ${data_dir}/result/predict.en


# predict.tok.en
what &apos;s wrong with protectionism ?
The &quot; establishment &quot; and counterinsurgency strategy , introduced by President Barack Obama &apos;s military surge in 2010 , was intended to reverse the war .# predict.en
What's wrong with protectionism?
The "establishment" and counterinsurgency strategy, introduced by President Barack Obama's military surge in 2010, was intended to reverse the war.

4 问题集锦

4.1 fairseq框架相关

4.1.1 多GPU训练报错


CUDA_VISIBLE_DEVICES=0,1,2,3 fairseq-train ...


Error: mkl-service + Intel(R) MKL: MKL_THREADING_LAYER=INTEL is incompatible with libgomp.so.1 library.Try to import numpy first or set the threading layer accordingly. Set MKL_SERVICE_FORCE_INTEL to force it.
Traceback (most recent call last):...site-packages/torch/multiprocessing/spawn.py", line 111, in joinraise Exception(
Exception: process 2 terminated with exit code 1

直接使用如下命令export MKL_THREADING_LAYER=GNU,再重新运行训练命令即可。具体原因见issue1, issue2

最近又遇到了这个问题,使用上面的命令无效了,但是直接pip install numpy==1.20就解决了


  1. 如何使用fairseq复现Transformer NMT
  2. 手把手教你用fairseq训练一个NMT机器翻译系统 - 胤风
  3. 使用Fairseq进行机器翻译 - DonngZH
  4. 利用Fairseq训练新的机器翻译模型 - 冬色
  5. Findings of the 2019 Conference on Machine Translation (WMT19)
  6. The NiuTrans Machine Translation System for WMT18, WMT19, WMT20
  7. Baidu Neural Machine Translation Systems for WMT19
  8. Evaluation Matrix - Submitter of best systems for test sets;


  1. 最简版Seq2Seq的英法机器翻译实践和详细代码解释

    Seq2Seq的英法机器翻译实践 本文的内容主要是基于英法平行语料库来实现一个简单的英法翻译模型.没有使用注意力机制和双向LSTM等技术,主要是为了掌握基本的Seq2Seq结构和TensorFlow函 ...

  2. 谷歌新作:视觉Transformer超越ResNet!!!从头开始训练!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 When Vision Transformers Outperform ResNets without ...

  3. 如何使用Transformers和Tokenizers从头开始训练新的语言模型

    文章目录 前言 1. 下载数据集 2.训练一个分词器(tokenizer) 3. 从零开始训练语言模型 定义这个模型的配置文件 建立训练数据集 检查LM是否受过训练 总结 huggingface教程翻 ...

  4. 从头开始训练一个依存分析器

    文章目录 从头开始训练一个依存分析器 重要概念 关系标签 标注关系 应用场景 一.自定义模型 1.导入所需要的包与模块 2.导入训练样本 二.训练模型 1.模型参数的注解(语种.输出目录以及训练迭代次 ...

  5. 从头开始训练一个 NER 标注器

    文章目录 从头开始训练一个 NER 标注器 一.自定义模型 1.导入所需要的包与模块 2.导入训练样本 二.训练模型 1.对现有的模型进行优化 2.创建内置管道组件 3.添加train data的标签 ...

  6. 从头开始训练一个词性标注模型

    文章目录 从头开始训练一个词性标注模型 自定义模型 一.导入所需要的包与模块 二.自定义词性 三.词性标注 训练模型 一.模型参数的注解(语种.输出目录以及训练迭代次数) 二.创建一个空白的语言模型 ...

  7. pytorch:如何从头开始训练一个CNN网络?

    文章目录 前言 一.CNN? 二.用单批量测试模型 1.引入库 2.读入数据集 3. 建造Module实例 4. 训练 总结 前言 在刚开始学习Deep Learning时,一件几乎不可能的事情就是知 ...

  8. mini-imagenet数据处理过程_从头开始训练

    mini-imagenet miniImageNet包含100类共60000张彩色图片,其中每类有600个样本,每张图片的大小被resize到了84×84.这里,这个数据集的训练集和测试集的类别划分为 ...

  9. 从头开始训练自己的 Tesseract 5 LSTM 识别库(超详细)

    最新工作中涉及到OCR的内容,用了百度的OCR精度不错,但是速度有点慢,看网上有提到Tesseract这一开源的项目,下载试了一试发现速度是比百度快不少,但是精度差很多,所以研究了下怎么可以提高识别的 ...


  1. 浅析网站搭建时所遇到的这样或那样的问题
  2. Java调用Oracle存储Package
  3. Acwing第 42 场周赛【完结】
  4. Python学习笔记字符串Str
  5. 配置svn 报错E200002解决办法
  6. 通用网站备案常见的备案场景及要求
  7. C语言6F多少,求助!!请人帮忙画C语言程序流程图.紧急!!!
  8. 写笔记插件_Java程序员笔记(知识)管理的一点经验
  9. 4G + 1G = 5G?
  10. 带参数的RedirectToAction
  11. Halcon 第二章『图像滤波』◆第5节:texture_laws算子(纹理过滤器)的计算原理
  12. 《辛德勒的名单》观后感
  13. 【按键】[独立按键] - 2:双击
  14. 一些浏览器HACKS
  15. 牛逼!java只能输入数字的正则
  16. 2022年上海应届生落户公司要求!打分不够72的同学可以考虑!
  17. 与其自怨自艾,不如夯实勤奋
  18. android陌陌权限申请实现,Hook实现Android 微信,陌陌 ,探探位置模拟
  19. C++项目之演讲比赛模拟
  20. WIN7计算机管理里没有便携设备,如何显示及删除Win7设备管理器中隐藏的已用过的硬件设备信息(图)...


  1. Linux对应的英文全称
  2. 用ChatGPT讲一个关于猴子的故事
  3. 3.8-7.25 partB
  4. ESP32S3蓝牙学习系列---Beacon信标之Eddystone
  5. #sora#笔记——工作流
  6. 如何添加pwa网站到桌面
  7. 秒杀设计 mysql_秒杀项目-数据库表设计
  8. 飞天小狐(GMS2)ARPG学习笔记 2
  9. 配置微型计算机实验报告,微型计算机原理实验报告.docx
  10. 复旦大学信息科学与工程考研经验