BERT 模型是一种 NLP 预训练技术,本文不介绍 BERT 的原理,主要关注如何快速上手使用 BERT 模型生成词向量用于下游任务。

Google 已经公开了 TensorFlow 版本的[预训练模型和代码]
(https://github.com/google-research/bert),可以用于生成词向量,但是还有更简单的方法:直接调用封装好的库 bert-as-service 。


使用 bert-as-service 生成词向量
bert-as-service 是腾讯 AI Lab 开源的一个 BERT 服务,它让用户可以以调用服务的方式使用 BERT 模型而不需要关注 BERT 的实现细节。bert-as-service 分为客户端和服务端,用户可以从 python 代码中调用服务,也可以通过 http 的方式访问。

安装
使用 pip 命令进行安装,客户端与服务端可以安装在不同的机器上:

pip install bert-serving-server # 服务端
pip install bert-serving-client # 客户端,与服务端互相独立

其中,服务端的运行环境为 Python >= 3.5 和 Tensorflow >= 1.10

客户端可以运行于 Python 2 或 Python 3

下载预训练模型
根据 NLP 任务的类型和规模不同,Google 提供了多种预训练模型供选择:

BERT-Base, Chinese: 简繁体中文, 12-layer, 768-hidden, 12-heads, 110M parameters
BERT-Base, Multilingual Cased: 多语言(104 种), 12-layer, 768-hidden, 12-heads, 110M parameters
BERT-Base, Uncased: 英文不区分大小写(全部转为小写), 12-layer, 768-hidden, 12-heads, 110M parameters
BERT-Base, Cased: 英文区分大小写, 12-layer, 768-hidden, 12-heads , 110M parameters
也可以使用中文效果更好的哈工大版 BERT:

Chinese-BERT-wwm
以上列出了几个常用的预训练模型,可以到 这里 查看更多。

解压下载到的 .zip 文件以后,会有 6 个文件:

TensorFlow 模型文件(bert_model.ckpt) 包含预训练模型的权重,模型文件有三个
字典文件(vocab.txt) 记录词条与 id 的映射关系
配置文件(bert_config.json ) 记录模型的超参数
启动 BERT 服务
使用 bert-serving-start 命令启动服务:
bert-serving-start -model_dir /tmp/english_L-12_H-768_A-12/ -num_worker=2
其中,-model_dir 是预训练模型的路径,-num_worker 是线程数,表示同时可以处理多少个并发请求
如果启动成功,服务器端会显示:

在客户端获取句向量
可以简单的使用以下代码获取语料的向量表示:

from bert_serving.client import BertClient
bc = BertClient()
doc_vecs = bc.encode(['First do it', 'then do it right', 'then do it better'])```doc_vecs 是一个 numpy.ndarray ,它的每一行是一个固定长度的句子向量,长度由输入句子的最大长度决定。如果要指定长度,可以在启动服务使用 max_seq_len 参数,过长的句子会被从右端截断。BERT 的另一个特性是可以获取一对句子的向量,句子之间使用 ||| 作为分隔,例如:```cpp
bc.encode(['First do it ||| then do it right'])

获取词向量
启动服务时将参数 pooling_strategy 设置为 None :

bert-serving-start -pooling_strategy NONE -model_dir /tmp/english_L-12_H-768_A-12/
这时的返回是语料中每个 token 对应 embedding 的矩阵

bc = BertClient()
vec = bc.encode(['hey you', 'whats up?'])vec  # [2, 25, 768]
vec[0]  # [1, 25, 768], sentence embeddings for `hey you`
vec[0][0]  # [1, 1, 768], word embedding for `[CLS]`
vec[0][1]  # [1, 1, 768], word embedding for `hey`
vec[0][2]  # [1, 1, 768], word embedding for `you`
vec[0][3]  # [1, 1, 768], word embedding for `[SEP]`
vec[0][4]  # [1, 1, 768], word embedding for padding symbol
vec[0][25]  # error, out of index!

远程调用 BERT 服务
可以从一台机器上调用另一台机器的 BERT 服务:

# on another CPU machine
from bert_serving.client import BertClient
bc = BertClient(ip='xx.xx.xx.xx')  # ip address of the GPU machine
bc.encode(['First do it', 'then do it right', 'then do it better'])

这个例子中,只需要在客户端 pip install -U bert-serving-client

其他
配置要求
BERT 模型对内存有比较高的要求,如果启动时一直卡在 load graph from model_dir 可以将 num_worker 设置为 1 或者加大机器内存。

处理中文是否要提前分词
在计算中文向量时,可以直接输入整个句子不需要提前分词。因为 Chinese-BERT 中,语料是以字为单位处理的,因此对于中文语料来说输出的是字向量。

举个例子,当用户输入:

bc.encode(['hey you', 'whats up?', '你好么?', '我 还 可以'])

实际上,BERT 模型的输入是:

tokens: [CLS] hey you [SEP]
input_ids: 101 13153 8357 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0tokens: [CLS] what ##s up ? [SEP]
input_ids: 101 9100 8118 8644 136 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0tokens: [CLS] 你 好 么 ? [SEP]
input_ids: 101 872 1962 720 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0tokens: [CLS] 我 还 可 以 [SEP]
input_ids: 101 2769 6820 1377 809 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

在英语中词条化后的 ##something 是什么
当某个词在不在词典中时,使用最长子序列的方法进行词条化,例如:

input = "unaffable"
tokenizer_output = ["un", "##aff", "##able"]

参考资料
https://github.com/google-research/bert
https://github.com/hanxiao/bert-as-service

self.graph_path, self.bert_config = pool.apply(optimize_graph, (self.args,))
TypeError: ‘NoneType’ object is not iterable

from google.protobuf.pyext import _message ImportError: DLL load failed: 找不到指定的程序。
这些错误都是因为没用bert 原生的预训练模型

bert-as-service使用相关推荐

  1. bert as service

    BERT 模型是一种 NLP 预训练技术,本文不介绍 BERT 的原理,主要关注如何快速上手使用 BERT 模型生成词向量用于下游任务. Google 已经公开了 TensorFlow 版本的预训练模 ...

  2. 基于BERT预训练的中文命名实体识别TensorFlow实现

    BERT-BiLSMT-CRF-NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tun ...

  3. 干货 | 谷歌BERT模型fine-tune终极实践教程

    作者 | 奇点机智 从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封 ...

  4. BERT-BiLSTM-CRF基于BERT预训练的中文命名实体识别TensorFlow实现

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx Tensorflow solution of NER task Using BiLSTM-CR ...

  5. 谷歌BERT模型fine-tune终极实践教程

    从11月初开始,Google Research就陆续开源了BERT的各个版本.Google此次开源的BERT是通过TensorFlow高级API-- tf.estimator进行封装(wrapper) ...

  6. BERT相关论文、文章和代码资源汇总

    转自:http://www.52nlp.cn/tag/transformer BERT相关论文.文章和代码资源汇总 4条回复 BERT最近太火,蹭个热点,整理一下相关的资源,包括Paper, 代码和文 ...

  7. 中文语料的 Bert finetune

    Finetune Bert for Chinese NLP 问题被证明同图像一样,可以通过 finetune 在垂直领域取得效果的提升.Bert 模型本身极其依赖计算资源,从 0 训练对大多数开发者都 ...

  8. listary 指定目录搜索_everything

    20211009 https://zhuanlan.zhihu.com/p/225414423 listary详细使用 20210710 everything搜索文件,结果出现相同的2个重复情况,路径 ...

  9. dataframe sample 采样,抽样

    20220324 https://blog.csdn.net/DSTJWJW/article/details/90667570 不重复随机抽样 20211223 # 读取数据集 test_data_a ...

  10. Hopfiled 神经网络实例解释

    Hopfiled 神经网络入门 进击吧程序猿 2018-01-01 23:04:27 本文参考 Hinton 的机器学习课程,总结了 Hopfield 神经网络,整个学习的脉络是:Hopfield 网 ...

最新文章

  1. arcgis和matlab,ArcGIS和MATLAB应用并不困难
  2. 【C 语言】文件操作 ( 文件加密解密 | 加密解密原理 | 对称加密原理 | 非密钥整数倍长度的数据加密处理 )
  3. Ubuntu 16.04系统下配置cocos2dx-3.10
  4. pca图像压缩python_基于PCA的图像降维及图像重构
  5. 弹出层中都可以用的复制功能
  6. gradle 替换java类_Gradle字符串替换
  7. 输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序。...
  8. Mysql: mysqlbinlog命令查看日志文件
  9. JavaSE环境搭建
  10. linux勒索病毒如何恢复数据,勒索病毒和相应的解密工具
  11. 半导体芯片行业的运作模式是什么(IDM/Fabless/Foundry模式)
  12. 大数据精准营销数据分析处理(一)
  13. python笔记-爬取猎聘网招聘信息
  14. js 实现在线考试切屏代码
  15. Ubuntu安装“启动引导器”的设备选哪一项,选默认还是选/boot分区?
  16. 【vconsole】vconsole网页调试
  17. 接受-拒绝采样算法详细证明
  18. 黑马程序员C++笔记
  19. Google账户设置
  20. P2895 [USACO08FEB]Meteor Shower S

热门文章

  1. 2022-2028年中国轻型客车行业投资分析及前景预测报告
  2. java操作跨页的word cell,“excle如何打印不出现断行“EXCEL中,如何不跨页断行打印或显示,谢谢...
  3. git shanchu stash_git stash用法
  4. python 如何获取当前系统的时间
  5. Attention机制_pytorch
  6. Hexo集成Algolia实现搜索功能
  7. 王道考研 计算机网络笔记 第二章:物理层
  8. MindSpore循环神经网络
  9. 参数服务器训练基本理论
  10. cuDNN 功能模块解析