1.BPE是干什么用的?

WordPiece字面理解是把word拆成piece一片一片,其实就是这个意思。
WordPiece的一种主要的实现方式叫做BPE(Byte-Pair Encoding)双字节编码。
“loved”,“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思,但是如果我们以单词为单位,那它们就算不一样的词,在英语中不同后缀的词非常的多,就会使得词表变的很大,训练速度变慢,训练的效果也不是太好。
BPE算法通过训练,能够把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分,这样可以把词的本身的意思和时态分开,有效的减少了词表的数量。

BPE的作用如下:

1.传统词表示方法无法很好的处理未知或罕见的词汇(OOV问题:out of vocabulary)

2.传统词tokenization方法不利于模型学习词缀之前的关系

3.Character embedding作为OOV的解决方法粒度太细

4.Subword粒度在词与字符之间,能够较好的平衡OOV问题

2.BPE算法

1.准备足够大的训练语料

2.确定期望的subword词表大小

3.将单词拆分为字符序列并在末尾添加后缀“ </ w>”,统计单词频率。本阶段的subword的粒度是字符。例如,“ low”的频率为5,那么我们将其改写为“ l o w </ w>”:5
(备注:为什么加入"< /w >"在解码阶段有说明)

4.统计每一个连续字节对的出现频率,选择最高频者合并成新的subword

5.重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

例子

{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i d e s t </w>': 3}Iter 1, 最高频连续字节对"e""s"出现了6+3=9次,合并成"es"。输出:
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i d es t </w>': 3}Iter 2, 最高频连续字节对"es""t"出现了6+3=9, 合并成"est"。输出:
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i d est </w>': 3}Iter 3, 以此类推,最高频连续字节对为"est""</w>" 输出:
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}Iter n, 继续迭代直到达到预设的subword词表大小或下一个最高频的字节对出现频率为1

说明
每次合并后词表可能出现3种变化:

+1,表明加入合并后的新字词,同时原来在2个子词还保留(2个字词不是完全同时连续出现)

+0,表明加入合并后的新字词,同时原来2个子词中一个保留,一个被消解(一个字词完全随着另一个字词的出现而紧跟着出现)

-1,表明加入合并后的新字词,同时原来2个子词都被消解(2个字词同时连续出现)

实际上,随着合并的次数增加,词表大小通常先增加后减小。

3.BPE代码实现


import re, collectionsdef get_stats(vocab):pairs = collections.defaultdict(int)for word, freq in vocab.items():symbols = word.split()for i in range(len(symbols)-1):pairs[symbols[i],symbols[i+1]] += freqreturn pairsdef merge_vocab(pair, v_in):v_out = {}bigram = re.escape(' '.join(pair))p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')for word in v_in:w_out = p.sub(''.join(pair), word)v_out[w_out] = v_in[word]return v_outvocab = {'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i d e s t </w>': 3}
num_merges = 1000
for i in range(num_merges):pairs = get_stats(vocab)if not pairs:breakbest = max(pairs, key=pairs.get)vocab = merge_vocab(best, vocab)print(best)# print output
# ('e', 's')
# ('es', 't')
# ('est', '</w>')
# ('l', 'o')
# ('lo', 'w')
# ('n', 'e')
# ('ne', 'w')
# ('new', 'est</w>')
# ('low', '</w>')
# ('w', 'i')
# ('wi', 'd')
# ('wid', 'est</w>')
# ('low', 'e')
# ('lowe', 'r')
# ('lower', '</w>')

编码:构建完词表之后,对词表按照长度进行排序。对于要预训练的text,先将其按照词表的顺序进行分解(即编码)。
如下例子:


# 给定单词序列
[“the</w>, “highest</w>, “mountain</w>]# 假设已有排好序的subword词表
[“errrr</w>, “tain</w>, “moun”, “est</w>, “high”, “the</w>, “a</w>]# 迭代结果
"the</w>" -> ["the</w>"]
"highest</w>" -> ["high", "est</w>"]
"mountain</w>" -> ["moun", "tain</w>"]

解码

# 编码序列
[“the</w>, “high”, “est</w>, “moun”, “tain</w>]# 解码序列
“the</w> highest</w> mountain</w>

直接拼接起来,"< /w >"就可以隔离开不同的单词。所以,加入"< /w >"是为了在解码阶段隔离开不同的单词。

4.适用范围

BPE一般适用在欧美语言,因为欧美语言大多是字符形式,涉及前缀、后缀的单词比较多。而中文的汉字一般不用BPE进行编码,因为中文是字无法进行拆分。对中文的处理通常只有分词分字两种。理论上分词效果更好,更好的区别语义。分字效率高、简洁,因为常用的字不过3000字,词表更加简短。
参考链接:
一文读懂BERT中的WordPiece
NLP Subword三大算法原理:BPE、WordPiece、ULM

WordPiece、BPE详解及代码相关推荐

  1. 调包侠福音!机器学习经典算法开源教程(附参数详解及代码实现)

    Datawhale 作者:赵楠.杨开漠.谢文昕.张雨 寄语:本文针对5大机器学习经典算法,梳理了其模型.策略和求解等方面的内容,同时给出了其对应sklearn的参数详解和代码实现,帮助学习者入门和巩固 ...

  2. 粒子群(pso)算法详解matlab代码,粒子群(pso)算法详解matlab代码

    粒子群(pso)算法详解matlab代码 (1)---- 一.粒子群算法的历史 粒子群算法源于复杂适应系统(Complex Adaptive System,CAS).CAS理论于1994年正式提出,C ...

  3. 图像质量损失函数SSIM Loss的原理详解和代码具体实现

    本文转自微信公众号SIGAI 文章PDF见: http://www.tensorinfinity.com/paper_164.html http://www.360doc.com/content/19 ...

  4. python 自动化-Python API 自动化实战详解(纯代码)

    主要讲如何在公司利用Python 搞API自动化. 1.分层设计思路 dataPool :数据池层,里面有我们需要的各种数据,包括一些公共数据等 config :基础配置 tools : 工具层 co ...

  5. 数学建模——智能优化之遗传算法详解Python代码

    数学建模--智能优化之遗传算法详解Python代码 import numpy as np import matplotlib.pyplot as plt from matplotlib import ...

  6. 数学建模——主成分分析算法详解Python代码

    数学建模--主成分分析算法详解Python代码 import matplotlib.pyplot as plt #加载matplotlib用于数据的可视化 from sklearn.decomposi ...

  7. 数学建模——智能优化之模拟退火模型详解Python代码

    数学建模--智能优化之模拟退火模型详解Python代码 #本功能实现最小值的求解#from matplotlib import pyplot as plt import numpy as np imp ...

  8. 数学建模——智能优化之粒子群模型详解Python代码

    数学建模--智能优化之粒子群模型详解Python代码 import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplo ...

  9. 数学建模——支持向量机模型详解Python代码

    数学建模--支持向量机模型详解Python代码 from numpy import * import random import matplotlib.pyplot as plt import num ...

  10. 数学建模——一维、二维插值模型详解Python代码

    数学建模--一维.二维插值模型详解Python代码 一.一维插值 # -*-coding:utf-8 -*- import numpy as np from scipy import interpol ...

最新文章

  1. mysql 协议说明_MySQL认证协议_MySQL
  2. 【错误记录】Android 可执行权限报错 ( Cannot run program “/data/user/0/cn.e/ffmpeg“: error=13,Permission denied )
  3. C# 系统应用之获取Windows最近使用记录
  4. filegee为啥没变动也更新_2020/10/07|02=下一步行动|evernote更新以及后续影响
  5. 如何在MacBook连接鼠标时,停用内置触控式轨迹板?
  6. 数学建模亚太赛优秀论文_泰迪杯数据分析职业技术大赛总结暨亚太地区大学生数学建模经验分享会...
  7. 10个用Console来Debug的高级技巧
  8. 我与WCF有个约会之牵手篇-第一个WCF示例程序
  9. 数据结构与算法之图入门
  10. 1042 Shuffling Machine
  11. 杀毒软件 对应的进程名称
  12. apktool 回编译说文件名或扩展名太长
  13. import.os 文件操作
  14. HTML5期末大作业:动物主题网站设计——酷酷动物主题响应式网页(5页) 大学生动物主题网页作品 动物网页设计作业模板 学生网页制作源代码下载
  15. 工作这些年 (zz)
  16. 如何获取微信公众平台图文消息的永久链接
  17. linux hosts文件的修改------利用root权限来vim /etc/hosts
  18. Linux终端程序用c语言实现改变输出的字的颜色 (转)
  19. 百度网盘被和谐文件一键清理不能下载违规信息空间删除
  20. 苹果id界面无法打开解决方法「iphone技巧」

热门文章

  1. 百度语音识别结合云知声离线TTSDemo(AS)
  2. 照片删除格式化恢复后损坏的碎片重组修复数据恢复方法
  3. 【超详细word排版】页眉:宋体五号,居中排列。左面页眉为论文题目,右面页眉为章次和章标题。页眉底划线的宽度为0.75磅。 页码:宋体小五号,排在页眉行的最外侧,不加任何修饰。
  4. 【Laravel系列6.3】框架启动与服务容器源码
  5. excel文件的工作表保护密码忘记了
  6. 2016用户体验行业调查报告
  7. 让婚纱照带上异域风情!
  8. html5音频剪辑,访谈类音频剪辑的5个小贴士
  9. 数据库的挂起(suspending)和恢复(resuming)
  10. 关于Kali使用aireplay-ng时出现设备繁忙的解决(转自 zpblog.cn)