调gensim库，word2vec模型的保存和加载

一、模型的保存
模型保存可以有很多种格式，根据格式的不同可以分为2种，一种是保存为.model的文件，一种是非.model文件的保存。我常用的保存格式是.model和.vector直接上代码和结果：
1、保存为model文件

#数据的读入
file=open('opos.txt')
ops=[]
for line in file.readlines():
#     print(line)curLine=line.strip().split(" ")
#     floatLine=list(map(float,curLine))#这里使用的是map函数直接把数据转化成为float类型ops.append(curLine[:])
# print('ops:',ops)
#模型的训练
from gensim.models.word2vec import Word2Vec
w2vModel = Word2Vec(sentences=ops, hs=0, negative=5, min_count=5, window=5, iter=2, size=300)

保存方法一：

# 保存方法一
w2vModel.save('w2vModel.model')

# 方式二
w2vModel.wv.save_word2vec_format('word2vec.vector')
w2vModel.wv.save_word2vec_format('word2vec.bin')

函数的形式调用word2vec模型进行训练

from gensim.models.word2vec import Word2Vec
def train_W2V(sentenList, embedSize=300, epoch_num=1):w2vModel = Word2Vec(sentences=sentenList, hs=0, negative=5, min_count=5, window=5, iter=epoch_num, size=embedSize)return modelw2vModel = train_W2V(ops, embedSize=300, epoch_num=2)
print(w2vModel)

# 保存方法一
w2vModel.save('w2vModel2.model')

# 方式二
w2vModel.save_word2vec_format('word2vec2.vector')
w2vModel.save_word2vec_format('word2vec2.bin')

假如函数没有return返回值
注意使用的API不同，一个是model.save() 一个是 model.wv.save_word2vec_format()。结果如图：.vector和.bin文件直接可以用txt打开可视，它们的内存占用要少一些，加载的时间要多一点。
二、模型的加载

#加载方式1
import time
t1 = time.time()
model = Word2Vec.load('w2vModel.model')
t2 = time.time()
print(model)
print(".molde load time %.4f"%(t2-t1))

 from gensim.models import KeyedVectors
#加载方式2
t1 = time.time()
model = KeyedVectors.load_word2vec_format('word2vec.vector')
t2 = time.time()
print(len(model.vectors))
print(".vector load time %.4f" % (t2 - t1))

这两种方式的加载在获取词向量的时候应该是差别不大，区别就是.model可以继续训练，.vector的文件不能继续训练。加载速度也可以见，前者比后者快很多。前者时间为0.0020秒后者0.03秒，相差十多倍。

参考链接：
https://blog.csdn.net/HUSTHY/article/details/103164934

调gensim库，word2vec模型的保存和加载相关推荐

word2vec模型训练保存加载及简单使用
目录 word2vec模型训练保存加载及简单使用一 word2vec简介二.模型训练和保存及加载模型训练模型保存和加载模型的增量训练三.模型常用API 四.文本相似度计算--文档级别 wo ...
PyTorch学习笔记2：nn.Module、优化器、模型的保存和加载、TensorBoard
文章目录一.nn.Module 1.1 nn.Module的调用 1.2 线性回归的实现二.损失函数三.优化器 3.1.1 SGD优化器 3.1.2 Adagrad优化器 3.2 分层学习率 3 ...
线性回归之模型的保存和加载
线性回归之模型的保存和加载 1 sklearn模型的保存和加载API from sklearn.externals import joblib [目前这行代码报错,直接写import joblib ...
numpy将所有数据变为0和1_PyTorch 学习笔记（二）：张量、变量、数据集的读取、模组、优化、模型的保存和加载...
一. 张量 PyTorch里面最基本的操作对象就是Tensor,Tensor是张量的英文,表示的是一个多维的矩阵,比如零维就是一个点,一维就是向量,二维就是一般的矩阵,多维就相当于一个多维的数组,这和 ...
PyTorch | 模型的保存和加载
PyTorch | 模型的保存和加载一.模型参数的保存和加载二.完整模型的保存和加载一.模型参数的保存和加载 torch.save(module.state_dict(), path):使用mo ...
pytorch模型的保存和加载、checkpoint
pytorch模型的保存和加载.checkpoint 其实之前笔者写代码的时候用到模型的保存和加载,需要用的时候就去度娘搜一下大致代码,现在有时间就来整理下整个pytorch模型的保存和加载,开始学习 ...
paddlepaddle模型的保存和加载
导读深度学习中模型的计算图可以被分为两种,静态图和动态图,这两种模型的计算图各有优劣. 静态图需要我们先定义好网络的结构,然后再进行计算,所以静态图的计算速度快,但是debug比较的困难,因为只有当 ...
tensorflow 模型的保存和加载
为了让训练结果可以复用,需要将训练得到的神经网络模型持久化,也就是把模型的参数保存下来,并保证可以持久化后的模型文件中还原出保存的模型. 1. 保存模型 tensorflow提供了一个API可以方便的 ...
PyTorch基础-模型的保存和加载-09
模型的保存 import numpy as np import torch from torch import nn,optim from torch.autograd import Variable ...

调gensim库，word2vec模型的保存和加载

调gensim库，word2vec模型的保存和加载相关推荐

最新文章

热门文章