获得Bert预训练好的中文词向量

安装肖涵博士的bert-as-service：
pip install bert-serving-server
pip install bert-serving-client
下载训练好的Bert中文词向量：
https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
启动bert-as-service：
找到bert-serving-start.exe所在的文件夹（我直接用的anaconda prompt安装的，bert-serving-start.exe在F:\anaconda\Scripts目录下。）找到训练好的词向量模型并解压，路径如下：G:\python\bert_chinese\chinese_L-12_H-768_A-12
打开cmd窗口，进入到bert-serving-start.exe所在的文件目录下，然后输入：
bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
即可启动bert-as-service（num_worker好像是BERT服务的进程数，例num_worker = 2，意味着它可以最高处理来自 2个客户端的并发请求。）
启动后结果如下：

此窗口不要关闭，然后在编译器中即可使用。
获取Bert预训练好的中文词向量：
from bert_serving.client import BertClient
bc = BertClient()
print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
print(bc.encode([“none 没有偷东西”]))#获取分词后的句子向量表示

结果如下：其中每一个向量均是768维。

可以看出分词并不会对句子的向量产生影响。
参考文章：
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

获得Bert预训练好的中文词向量相关推荐

调用预训练好的XLnet词向量
调用XLnet模型训练好的词向量做W2V的方法如下: 1.pip install pytorch_transformers 2.下载预训练模型 3.如下Getw2v()代码块获取词向量 4. 使用词向 ...
Bert 得到中文词向量
通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中得到中文词向量 ...
github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
(给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...
java加载中文词向量_Chinese Word Vectors：目前最全的中文预训练词向量集合
对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...
使用transformers框架导入bert模型提取中文词向量
导言在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...
BERT 预训练学习（数据：样本构建、输入格式；算法：transformer、mlm和nsp任务）
任务:MLM完形填空.下一句预测数据:构建样本数据及label,输入格式参考: 1)**https://github.com/DA-southampton/TRM_tutorial/tree/ma ...
ELMO中文词向量训练及使用的完整流程
笔者最近在学习elmo中文的词向量训练及使用,由于网上相关资料比较缺乏,也比较零碎,没有完整的从中文词向量的训练到使用的介绍,学起来困难较多.经过漫长的尝试,笔者终于将整套流程走通,相信应该是目前最完 ...
天池零基础入门NLP竞赛实战：Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类
Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类因为天池这个比赛的数据集是脱敏的,无法利用其它已经预训练好的模型,所以需要针对这个数据集自己从头预训练一个模型. 我们利用H ...
RoBERTa：一种鲁棒地优化BERT预训练的方法
RoBERTa:一种鲁棒地优化BERT预训练的方法文章目录 RoBERTa:一种鲁棒地优化BERT预训练的方法前言背景实验静态 VS 动态 Masking 输入形式与NSP任务更大的bat ...

获得Bert预训练好的中文词向量

获得Bert预训练好的中文词向量相关推荐

最新文章

热门文章