1. 安装肖涵博士的bert-as-service:
    pip install bert-serving-server
    pip install bert-serving-client
  2. 下载训练好的Bert中文词向量:
    https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
  3. 启动bert-as-service:
    找到bert-serving-start.exe所在的文件夹(我直接用的anaconda prompt安装的,bert-serving-start.exe在F:\anaconda\Scripts目录下。)找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12
    打开cmd窗口,进入到bert-serving-start.exe所在的文件目录下,然后输入:
    bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
    即可启动bert-as-service(num_worker好像是BERT服务的进程数,例num_worker = 2,意味着它可以最高处理来自 2个客户端的并发请求。)
    启动后结果如下:

    此窗口不要关闭,然后在编译器中即可使用。
  4. 获取Bert预训练好的中文词向量:
    from bert_serving.client import BertClient
    bc = BertClient()
    print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
    print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
    print(bc.encode([“none 没有 偷 东西”]))#获取分词后的句子向量表示

结果如下:其中每一个向量均是768维。



可以看出分词并不会对句子的向量产生影响。
参考文章:
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

获得Bert预训练好的中文词向量相关推荐

  1. 调用预训练好的XLnet词向量

    调用XLnet模型训练好的词向量做W2V的方法如下: 1.pip install pytorch_transformers 2.下载预训练模型 3.如下Getw2v()代码块获取词向量 4. 使用词向 ...

  2. Bert 得到中文词向量

    通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中 得到中文词向量 ...

  3. github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量

    (给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...

  4. java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合

    对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...

  5. 使用transformers框架导入bert模型提取中文词向量

    导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...

  6. BERT 预训练学习(数据:样本构建、输入格式;算法:transformer、mlm和nsp任务)

    任务:MLM完形填空.下一句预测 数据:构建样本数据及label,输入格式 参考: 1)**https://github.com/DA-southampton/TRM_tutorial/tree/ma ...

  7. ELMO中文词向量训练及使用的完整流程

    笔者最近在学习elmo中文的词向量训练及使用,由于网上相关资料比较缺乏,也比较零碎,没有完整的从中文词向量的训练到使用的介绍,学起来困难较多.经过漫长的尝试,笔者终于将整套流程走通,相信应该是目前最完 ...

  8. 天池零基础入门NLP竞赛实战:Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类

    Task4-基于深度学习的文本分类3-基于Bert预训练和微调进行文本分类 因为天池这个比赛的数据集是脱敏的,无法利用其它已经预训练好的模型,所以需要针对这个数据集自己从头预训练一个模型. 我们利用H ...

  9. RoBERTa:一种鲁棒地优化BERT预训练的方法

    RoBERTa:一种鲁棒地优化BERT预训练的方法 文章目录 RoBERTa:一种鲁棒地优化BERT预训练的方法 前言 背景 实验 静态 VS 动态 Masking 输入形式与NSP任务 更大的bat ...

最新文章

  1. 企业级 SpringBoot 教程 (三)SpringBoot用JdbcTemplates访问Mysql
  2. TAJ齐发力 互联网巨头抢滩“区块链+票据”市场
  3. ASP对很长的文章做分页输出
  4. python模块:命名空间与重载模块
  5. java 编程思想笔记(七)——异常
  6. 华为泛BYOD融合网络解决方案实践与演示
  7. 【iOS越狱开发】如何将应用打包成.ipa文件
  8. windows 使用ACR122U-A9设备读写M1卡
  9. 三菱驱动器参数表_三菱伺服驱动器参数都设置什么啊详细点谢谢
  10. 微软自带dns服务器,win10微软设置哪个DNS服务器地址最快
  11. 2015.11--360校招面试-后台C++开发工程师
  12. 麻将项目开发--bug mj157
  13. 通过Docker容器搭建私有网盘(NextCloud)
  14. jsp + servlet 通过a 标签下载文件
  15. 一文读懂CentOS 8 安装JDK 11:配置JAVA_HOME环境变量
  16. 实习面经-2018阿里c++研发面经
  17. 微博相互关注互粉mysql表实现_相互关注互粉mysql实现
  18. 移动UI设计-菜单篇
  19. 新基建专题报告:未来发展方向及重点产业分析
  20. Leetcode每日一题:561. 数组拆分 I

热门文章

  1. php artisan实现机制,源码解读:php artisan serve
  2. 《鸟哥的Linux私房菜 基础学习篇(第三版)》习题与解析(一)
  3. c语言大小箱子,基于C语言箱子游戏.doc
  4. Android开发技术周报 Issue#27
  5. simulink实现ESO(扩张状态观测器)
  6. 电视剧《花千骨》开机 霍建华赵丽颖演绎绝美爱情
  7. Pytest(17)运行未提交的git(pytest-picked)
  8. 网页集成支付宝扫码登录
  9. JAVA 淘宝扫码登陆以及下单流程
  10. Linux 分区、格式化4T大容量存储分区