使用中文预训练模型 bert-wwm 获得字向量和词向量

  • 1.下载
  • 2.解压
  • 3.使用bert获得字向量和词向量

通过下载模型的形式,要比直接调用库的快很多。

1.下载

链接:github (使用宽带打不开的话可尝试手机热点)
打开以后是这样滴:

我下载了这个版本的PyTorch,大小不到 0.5G(并不知道有什么区别,随便下的)

2.解压

解压之后里面有三个文件,需要把 bert_config.json 改名为 config.json

3.使用bert获得字向量和词向量

import torch
from transformers import BertTokenizer,BertModeltokenizer = BertTokenizer.from_pretrained('bert') # 包含上面三个文件的文件夹目录
model = BertModel.from_pretrained('bert')
input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0)  # Batch size 1
print(input_ids)
outputs = model(input_ids)
# last_hidden_states = outputs[0]  # The last hidden-state is the first element of the output tuple
sequence_output = outputs[0]
pooled_output = outputs[1]
print(sequence_output)
print(sequence_output.shape)    ## 字向量
print(pooled_output.shape)      ## 句向量

输出结果:

tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415,  102]])
tensor([[[-0.5152, -0.0859,  0.8517,  ..., -0.0063, -0.4380, -0.0603],[ 0.2122, -0.4674,  0.7332,  ..., -0.0799, -0.2016,  0.6670],[ 0.1858, -0.6106, -0.0027,  ..., -0.2438, -0.1905,  0.4633],...,[ 0.1136,  0.2130,  1.3360,  ..., -0.1908,  0.3598,  0.0100],[-0.2338, -0.1829,  0.8073,  ..., -0.1682,  0.5623,  0.1589],[-0.1665,  0.2620,  1.2459,  ..., -0.2552, -0.1596,  0.0035]]],grad_fn=<NativeLayerNormBackward>)
torch.Size([1, 8, 768])
torch.Size([1, 768])

参考:https://blog.csdn.net/sarracode/article/details/109060358

使用中文预训练模型 bert-wwm 获得字向量和词向量相关推荐

  1. 在线部分:werobot服务、主要逻辑服务、句子相关模型服务、BERT中文预训练模型+微调模型(目的:比较两句话text1和text2之间是否有关联)、模型在Flask部署

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...

  2. bert中文预训练模型_HFL中文预训练系列模型已接入Transformers平台

    哈工大讯飞联合实验室(HFL)在前期陆续发布了多个中文预训练模型,目前已成为最受欢迎的中文预训练资源之一.为了进一步方便广大用户的使用,借助Transformers平台可以更加便捷地调用已发布的中文预 ...

  3. 组队学习-NLP实践-中文预训练模型泛化能力挑战赛(文本分类,bert)

    组队学习-NLP实践-中文预训练模型泛化能力挑战赛 Docker 安装与使用 阿里云镜像仓库 baseline 本机运行并提交 Docker 安装与使用 参考:https://mp.weixin.qq ...

  4. 【论文泛读】ChineseBERT:融合字形与拼音信息的中文预训练模型

    本次分享的论文ChineseBERT来自于ACL 2021会议,论文全名为ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin I ...

  5. ACL 2021 | ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转载自:PaperWeekly 中文预训练模型 自 BERT 以来, ...

  6. 【ACL2021】ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:PaperWeekly 中文预训练模型 自 BERT 以来,大规模预训练模型已成为自然语言处理研究的一大重点,无论是训练更大的模型,如 BER ...

  7. 中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 改进策略简单有效.收敛速度快,同时小数据效果出色. 这就是中文预训练模型ZEN. 在中文任务中,ZEN不仅性能优于BERT,也比之前中文预 ...

  8. 天池NLP中文预训练模型赛来了!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办单位:阿里云,CLUE,乐言科技 自从2017年具有划时代意义的Tr ...

  9. 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 2018年以来,以BERT.GPT等为代表的大规模预训练模型,带来了 ...

最新文章

  1. 导入python库linux_Linux下Python安装PyMySQL成功,但无法导入的问题
  2. 打印出如下图案(菱形)
  3. LeetCode - 413. Arithmetic Slices - 含中文题意解释 - O(n) - ( C++ ) - 解题报告
  4. Netty实战项目:Spring boot 程序的聊天程序
  5. 如何通过NTFS for Mac 15格式化连接的移动磁盘
  6. [转载] 我的Android进阶之旅:经典的大牛博客推荐
  7. linux安装Java环境
  8. c++,kmin,kmax
  9. 家长警惕 这4类孩子最易反复感冒
  10. 微信小程序时区时间转换
  11. php 原生session,$_SESSION
  12. 7、基于STM32的智能风扇√★
  13. 基于springboot的中医健康管理系统
  14. 微信支付-签名生成工具-Java
  15. 由浅入深,聊聊 LeakCanary 的那些事
  16. Python基础之概述和安装配置
  17. Python-图片格式转化(jip,png,jieg转化为PDF,PDF转jip,png,jieg)
  18. 调息之法-整理的两篇有关养生的小文章
  19. 达梦单机DMHS搭建(dm8-dm8)
  20. 谁能够深层次分析一下美剧迷失到底讲的是什么

热门文章

  1. 因子完备数c语言,编写函数输出完备数及其所有约数
  2. 学生逃课问题的系统分析
  3. 网络安全9大思维的实战检验
  4. 虾皮面试真题:虾皮后端15连问!
  5. note20220411
  6. android 进程被回收,Android开发进阶:Activity和进程的回收和状态恢复
  7. PD3.1 140W双C快充解决方案
  8. python将后宫佳丽三千做成照片墙
  9. JavaScript操作DOM对象 Day05
  10. 数据集-故障诊断:西储大学轴承的各项数据以及数据说明