调gensim库,word2vec模型的保存和加载
一、模型的保存
模型保存可以有很多种格式,根据格式的不同可以分为2种,一种是保存为.model的文件,一种是非.model文件的保存。我常用的保存格式是.model和.vector直接上代码和结果:
1、保存为model文件
#数据的读入
file=open('opos.txt')
ops=[]
for line in file.readlines():
# print(line)curLine=line.strip().split(" ")
# floatLine=list(map(float,curLine))#这里使用的是map函数直接把数据转化成为float类型ops.append(curLine[:])
# print('ops:',ops)
#模型的训练
from gensim.models.word2vec import Word2Vec
w2vModel = Word2Vec(sentences=ops, hs=0, negative=5, min_count=5, window=5, iter=2, size=300)
保存方法一:
# 保存方法一
w2vModel.save('w2vModel.model')
# 方式二
w2vModel.wv.save_word2vec_format('word2vec.vector')
w2vModel.wv.save_word2vec_format('word2vec.bin')
函数的形式调用word2vec模型进行训练
from gensim.models.word2vec import Word2Vec
def train_W2V(sentenList, embedSize=300, epoch_num=1):w2vModel = Word2Vec(sentences=sentenList, hs=0, negative=5, min_count=5, window=5, iter=epoch_num, size=embedSize)return modelw2vModel = train_W2V(ops, embedSize=300, epoch_num=2)
print(w2vModel)
# 保存方法一
w2vModel.save('w2vModel2.model')
# 方式二
w2vModel.save_word2vec_format('word2vec2.vector')
w2vModel.save_word2vec_format('word2vec2.bin')
假如函数没有return返回值
注意使用的API不同,一个是model.save() 一个是 model.wv.save_word2vec_format()。结果如图:.vector和.bin文件直接可以用txt打开可视,它们的内存占用要少一些,加载的时间要多一点。
二、模型的加载
#加载方式1
import time
t1 = time.time()
model = Word2Vec.load('w2vModel.model')
t2 = time.time()
print(model)
print(".molde load time %.4f"%(t2-t1))
from gensim.models import KeyedVectors
#加载方式2
t1 = time.time()
model = KeyedVectors.load_word2vec_format('word2vec.vector')
t2 = time.time()
print(len(model.vectors))
print(".vector load time %.4f" % (t2 - t1))
这两种方式的加载在获取词向量的时候应该是差别不大,区别就是.model可以继续训练,.vector的文件不能继续训练。加载速度也可以见,前者比后者快很多。前者时间为0.0020秒后者0.03秒,相差十多倍。
参考链接:
https://blog.csdn.net/HUSTHY/article/details/103164934
调gensim库,word2vec模型的保存和加载相关推荐
- word2vec模型训练保存加载及简单使用
目录 word2vec模型训练保存加载及简单使用 一 word2vec简介 二.模型训练和保存及加载 模型训练 模型保存和加载 模型的增量训练 三.模型常用API 四.文本相似度计算--文档级别 wo ...
- PyTorch学习笔记2:nn.Module、优化器、模型的保存和加载、TensorBoard
文章目录 一.nn.Module 1.1 nn.Module的调用 1.2 线性回归的实现 二.损失函数 三.优化器 3.1.1 SGD优化器 3.1.2 Adagrad优化器 3.2 分层学习率 3 ...
- 线性回归之模型的保存和加载
线性回归之模型的保存和加载 1 sklearn模型的保存和加载API from sklearn.externals import joblib [目前这行代码报错,直接写import joblib ...
- numpy将所有数据变为0和1_PyTorch 学习笔记(二):张量、变量、数据集的读取、模组、优化、模型的保存和加载...
一. 张量 PyTorch里面最基本的操作对象就是Tensor,Tensor是张量的英文,表示的是一个多维的矩阵,比如零维就是一个点,一维就是向量,二维就是一般的矩阵,多维就相当于一个多维的数组,这和 ...
- PyTorch | 模型的保存和加载
PyTorch | 模型的保存和加载 一.模型参数的保存和加载 二.完整模型的保存和加载 一.模型参数的保存和加载 torch.save(module.state_dict(), path):使用mo ...
- pytorch模型的保存和加载、checkpoint
pytorch模型的保存和加载.checkpoint 其实之前笔者写代码的时候用到模型的保存和加载,需要用的时候就去度娘搜一下大致代码,现在有时间就来整理下整个pytorch模型的保存和加载,开始学习 ...
- paddlepaddle模型的保存和加载
导读 深度学习中模型的计算图可以被分为两种,静态图和动态图,这两种模型的计算图各有优劣. 静态图需要我们先定义好网络的结构,然后再进行计算,所以静态图的计算速度快,但是debug比较的困难,因为只有当 ...
- tensorflow 模型的保存和加载
为了让训练结果可以复用,需要将训练得到的神经网络模型持久化,也就是把模型的参数保存下来,并保证可以持久化后的模型文件中还原出保存的模型. 1. 保存模型 tensorflow提供了一个API可以方便的 ...
- PyTorch基础-模型的保存和加载-09
模型的保存 import numpy as np import torch from torch import nn,optim from torch.autograd import Variable ...
最新文章
- linux批量用户创建,linux 批量用户的创建
- 图形脚本语言sikuli
- [转]MySQL数据库优化总结
- linux下ls出现文件的后缀有@,* ,/之类的解释
- MoCoV3:何恺明团队新作!解决Transformer自监督训练不稳定问题!
- USACO-Section1.4 Ski Course Design (枚举)
- 【工具相关】Web-Sublime Text2的用法(一)
- JavaScript高级程序设计(第3版).pdf
- linux centos系统清理垃圾,centos 清理内存缓存
- 2022道路运输企业安全生产管理人员考试模拟100题及在线模拟考试
- SecureCRT 64位/32位 8.3.3 中文破解版(附上1.解决SecureCRT乱码问题2.解决Hostname lookup failed: host not found问题)
- 手机端链接拼多多的商品主图和视频抓取方法
- 奉劝那些想把编程学好的学弟学妹们!呕心沥血,袒露心声,掏心掏肺
- 《上帝给我一个任务,叫我牵一只蜗牛去散步》
- 论文阅读:Improved Denoising Diffusion Probabilistic Models
- JavaWeb新闻发布系统案例3
- 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!
- SHT30使用的学习过程1SHT30工作模式介绍
- java拼图游戏系统总体方案_基于JAVA的拼图游戏的设计与实现(含录像)
- vim编辑修改二进制文件以及对于二进制文件中幻数测试