使用中文预训练模型 bert-wwm 获得字向量和词向量
使用中文预训练模型 bert-wwm 获得字向量和词向量
- 1.下载
- 2.解压
- 3.使用bert获得字向量和词向量
通过下载模型的形式,要比直接调用库的快很多。
1.下载
链接:github (使用宽带打不开的话可尝试手机热点)
打开以后是这样滴:
我下载了这个版本的PyTorch,大小不到 0.5G(并不知道有什么区别,随便下的)
2.解压
解压之后里面有三个文件,需要把 bert_config.json 改名为 config.json
3.使用bert获得字向量和词向量
import torch
from transformers import BertTokenizer,BertModeltokenizer = BertTokenizer.from_pretrained('bert') # 包含上面三个文件的文件夹目录
model = BertModel.from_pretrained('bert')
input_ids = torch.tensor(tokenizer.encode("自然语言处理")).unsqueeze(0) # Batch size 1
print(input_ids)
outputs = model(input_ids)
# last_hidden_states = outputs[0] # The last hidden-state is the first element of the output tuple
sequence_output = outputs[0]
pooled_output = outputs[1]
print(sequence_output)
print(sequence_output.shape) ## 字向量
print(pooled_output.shape) ## 句向量
输出结果:
tensor([[ 101, 5632, 4197, 6427, 6241, 1905, 4415, 102]])
tensor([[[-0.5152, -0.0859, 0.8517, ..., -0.0063, -0.4380, -0.0603],[ 0.2122, -0.4674, 0.7332, ..., -0.0799, -0.2016, 0.6670],[ 0.1858, -0.6106, -0.0027, ..., -0.2438, -0.1905, 0.4633],...,[ 0.1136, 0.2130, 1.3360, ..., -0.1908, 0.3598, 0.0100],[-0.2338, -0.1829, 0.8073, ..., -0.1682, 0.5623, 0.1589],[-0.1665, 0.2620, 1.2459, ..., -0.2552, -0.1596, 0.0035]]],grad_fn=<NativeLayerNormBackward>)
torch.Size([1, 8, 768])
torch.Size([1, 768])
参考:https://blog.csdn.net/sarracode/article/details/109060358
使用中文预训练模型 bert-wwm 获得字向量和词向量相关推荐
- 在线部分:werobot服务、主要逻辑服务、句子相关模型服务、BERT中文预训练模型+微调模型(目的:比较两句话text1和text2之间是否有关联)、模型在Flask部署
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...
- bert中文预训练模型_HFL中文预训练系列模型已接入Transformers平台
哈工大讯飞联合实验室(HFL)在前期陆续发布了多个中文预训练模型,目前已成为最受欢迎的中文预训练资源之一.为了进一步方便广大用户的使用,借助Transformers平台可以更加便捷地调用已发布的中文预 ...
- 组队学习-NLP实践-中文预训练模型泛化能力挑战赛(文本分类,bert)
组队学习-NLP实践-中文预训练模型泛化能力挑战赛 Docker 安装与使用 阿里云镜像仓库 baseline 本机运行并提交 Docker 安装与使用 参考:https://mp.weixin.qq ...
- 【论文泛读】ChineseBERT:融合字形与拼音信息的中文预训练模型
本次分享的论文ChineseBERT来自于ACL 2021会议,论文全名为ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin I ...
- ACL 2021 | ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转载自:PaperWeekly 中文预训练模型 自 BERT 以来, ...
- 【ACL2021】ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型
点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:PaperWeekly 中文预训练模型 自 BERT 以来,大规模预训练模型已成为自然语言处理研究的一大重点,无论是训练更大的模型,如 BER ...
- 中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品
允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 改进策略简单有效.收敛速度快,同时小数据效果出色. 这就是中文预训练模型ZEN. 在中文任务中,ZEN不仅性能优于BERT,也比之前中文预 ...
- 天池NLP中文预训练模型赛来了!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办单位:阿里云,CLUE,乐言科技 自从2017年具有划时代意义的Tr ...
- 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 2018年以来,以BERT.GPT等为代表的大规模预训练模型,带来了 ...
最新文章
- 导入python库linux_Linux下Python安装PyMySQL成功,但无法导入的问题
- 打印出如下图案(菱形)
- LeetCode - 413. Arithmetic Slices - 含中文题意解释 - O(n) - ( C++ ) - 解题报告
- Netty实战项目:Spring boot 程序的聊天程序
- 如何通过NTFS for Mac 15格式化连接的移动磁盘
- [转载] 我的Android进阶之旅:经典的大牛博客推荐
- linux安装Java环境
- c++,kmin,kmax
- 家长警惕 这4类孩子最易反复感冒
- 微信小程序时区时间转换
- php 原生session,$_SESSION
- 7、基于STM32的智能风扇√★
- 基于springboot的中医健康管理系统
- 微信支付-签名生成工具-Java
- 由浅入深,聊聊 LeakCanary 的那些事
- Python基础之概述和安装配置
- Python-图片格式转化(jip,png,jieg转化为PDF,PDF转jip,png,jieg)
- 调息之法-整理的两篇有关养生的小文章
- 达梦单机DMHS搭建(dm8-dm8)
- 谁能够深层次分析一下美剧迷失到底讲的是什么