获得Bert预训练好的中文词向量
- 安装肖涵博士的bert-as-service:
pip install bert-serving-server
pip install bert-serving-client - 下载训练好的Bert中文词向量:
https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip - 启动bert-as-service:
找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12
打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:
bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。)
启动后结果如下:
此窗口不要关闭,然后在编译器中即可使用。 - 获取Bert预训练好的中文词向量:
from bert_serving.client import BertClient
bc = BertClient()
print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示
结果如下:其中每一个向量均是768维。
可以看出分词并不会对句子的向量产生影响。
参考文章:
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html
获得Bert预训练好的中文词向量相关推荐
- 调用预训练好的XLnet词向量
调用XLnet模型训练好的词向量做W2V的方法如下: 1.pip install pytorch_transformers 2.下载预训练模型 3.如下Getw2v()代码块获取词向量 4. 使用词向 ...
- Bert 得到中文词向量
通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中 得到中文词向量 ...
- github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
(给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...
- java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合
对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...
- 使用transformers框架导入bert模型提取中文词向量
导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...
- BERT 预训练学习(数据:样本构建、输入格式;算法:transformer、mlm和nsp任务)
任务:MLM完形填空.下一句预测 数据:构建样本数据及label,输入格式 参考: 1)**https://github.com/DA-southampton/TRM_tutorial/tree/ma ...
- ELMO中文词向量训练及使用的完整流程
笔者最近在学习elmo中文的词向量训练及使用,由于网上相关资料比较缺乏,也比较零碎,没有完整的从中文词向量的训练到使用的介绍,学起来困难较多.经过漫长的尝试,笔者终于将整套流程走通,相信应该是目前最完 ...
- 天池零基础入门NLP竞赛实战:Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类
Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类 因为天池这个比赛的数据集是脱敏的,无法利用其它已经预训练好的模型,所以需要针对这个数据集自己从头预训练一个模型. 我们利用H ...
- RoBERTa:一种鲁棒地优化BERT预训练的方法
RoBERTa:一种鲁棒地优化BERT预训练的方法 文章目录 RoBERTa:一种鲁棒地优化BERT预训练的方法 前言 背景 实验 静态 VS 动态 Masking 输入形式与NSP任务 更大的bat ...
最新文章
- 企业级 SpringBoot 教程 (三)SpringBoot用JdbcTemplates访问Mysql
- TAJ齐发力 互联网巨头抢滩“区块链+票据”市场
- ASP对很长的文章做分页输出
- python模块:命名空间与重载模块
- java 编程思想笔记(七)——异常
- 华为泛BYOD融合网络解决方案实践与演示
- 【iOS越狱开发】如何将应用打包成.ipa文件
- windows 使用ACR122U-A9设备读写M1卡
- 三菱驱动器参数表_三菱伺服驱动器参数都设置什么啊详细点谢谢
- 微软自带dns服务器,win10微软设置哪个DNS服务器地址最快
- 2015.11--360校招面试-后台C++开发工程师
- 麻将项目开发--bug mj157
- 通过Docker容器搭建私有网盘(NextCloud)
- jsp + servlet 通过a 标签下载文件
- 一文读懂CentOS 8 安装JDK 11:配置JAVA_HOME环境变量
- 实习面经-2018阿里c++研发面经
- 微博相互关注互粉mysql表实现_相互关注互粉mysql实现
- 移动UI设计-菜单篇
- 新基建专题报告:未来发展方向及重点产业分析
- Leetcode每日一题:561. 数组拆分 I