Python之word2vec用法说明
gensim版本很重要,和其他安装依赖包有关系,而且进行了修改和改进。
通过一下命令查看版本
pip list | grep gensim
#导入模块
from gensim.models import Word2Vec
#模型生成
model = Word2Vec(sentence,vector_size=100, min_count=1,sg=1)
#模型保存
model.wv.save_word2vec_format('word2vec.txt',binary=False)
#循环遍历生成序列
参数说明:
- sentence:语料库,也即将用到的数据集的内容。
- sg:训练算法:1表示skip-gram,否则CBOW,默认sg=0为CBOW算法。
skip-gram (训练速度慢,对罕见字有效),CBOW(训练速度快)。一般选择Skip-gram模型
- vector_size:词向量的维度,默认为100.
这个维度的取值与我们的语料的大小相关,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度。值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间,不过见的比较多的也有300维的。
- min_count:忽略所有频率低于此值的单词。默认值为5。
在不同大小的语料集中,对于基准词频的需求也是不一样的。譬如在较大的语料集中,希望忽略那些只出现过一两次的单词,这里就可以通过设置min_count参数进行控制。一般而言,合理的参数值会设置在0~100之间。
- workers: 线程数
表示训练词向量时使用的线程数,默认是当前运行机器的处理器核数
- iter—epochs 迭代次数
影响训练次数,语料不够的情况下,可以调大迭代次数。spark 版本有bug,迭代次数超过1,训练得到的词向量维度值超大
- windows: 窗口大小
当前词与预测词的最大距离。
word2vec.txt文件里面会生成特征所对应的数字序列,遍历语料库,替换为数字序列即可。
注意,所有序列要进行长度的归一化,否则会报错,报错如下:
Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray).
Python之word2vec用法说明相关推荐
- 简单介绍Python中异常处理用法
这篇文章主要给大家分享的是 Python中异常处理用法,为了保证程序的健壮性与容错性,即在遇到错误时候程序不会崩溃,我们需要对异常进行处理,下面来看看文章对此的用法,需要的朋友可以参考一下 为了保证程 ...
- python的继承用法_【后端开发】python中继承有什么用法?python继承的用法详解
本篇文章给大家带来的内容是关于python中继承有什么用法?python继承的用法详解,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 面向对象三大特征 1.封装:根据职责将属性和方法 ...
- python matplotlib 简单用法
python matplotlib 简单用法 具体内容请参考官网 代码 import matplotlib.pyplot as plt import numpy as np # 支持中文 plt.rc ...
- (转)python requests 高级用法 -- 包括SSL 证书错误的解决方案
(转)python requests 高级用法 -- 包括SSL 证书错误的解决方案 参考文章: (1)(转)python requests 高级用法 -- 包括SSL 证书错误的解决方案 (2)ht ...
- python装饰器实例-Python装饰器用法实例总结
本文实例讲述了Python装饰器用法.分享给大家供大家参考,具体如下: 一.装饰器是什么 python的装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能, ...
- python所有函数用法_Python函数使用方法(高级用法)
前面章节,已经介绍了 Python 函数的所有基本用法和使用注意事项.但是,Python 函数的用法还远不止此,Python 函数还支持赋值.作为其他函数的参数以及作为其他函数的返回值. 首先,Pyt ...
- python的property用法_python @property的用法及含义全面解析
在接触python时最开始接触的代码,取长方形的长和宽,定义一个长方形类,然后设置长方形的长宽属性,通过实例化的方式调用长和宽,像如下代码一样. class Rectangle(object): de ...
- python竞赛_浅谈Python在信息学竞赛中的运用及Python的基本用法
浅谈Python在信息学竞赛中的运用及Python的基本用法 前言 众所周知,Python是一种非常实用的语言.但是由于其运算时的低效和解释型编译,在信息学竞赛中并不用于完成算法程序.但正如LRJ在& ...
- Python Matplotlib基本用法
Python Matplotlib基本用法 1. 认识Matploblib 1.1 Figure 1.2 Axes 1.3 Multiple Axes 1.4 Axes Vs .pyplot 2. 基 ...
最新文章
- ucontext实现的用户级多线程框架3(实现echo服务器)
- 女生适合发型测试软件,推荐10款适合女生用的APP,绝对让你感到惊艳
- JAVA_OA(十四)番外:JAVAWEB防止表单重复提交的方法整合(包括集群部署)
- 博导眼里本科生的科研能力:“他们还在玩泥巴”
- 常见的误解:这会创建多少个对象?
- 如何得知mysql表结构发生变化了呢?
- android 控件宽度自适应_Android中让图片自适应控件的大小的方法
- 20172310《程序设计与数据结构》(上)课程总结
- 电脑配置知识_电脑小知识:装机不求人!10 分钟电脑配置挑选速成攻略|硬盘|电脑|cpu|装机|固态硬盘|机械硬盘...
- mapper接口中的方法,example实例解析
- 利用after和before伪元素在文字两边写横线
- java中构造器的调用顺序
- 如何处理DDoS***
- SVN客户端安装及操作文档
- 计算机 仿真 流体力学剪切应力,基于影像的计算流体力学在冠状动脉疾病中的研究进展...
- 工具模板 | 用APOEM方法消除对用户行为的偏见
- Git 团队协作常用术语 WIP PTAL CC LGTM
- 互联网运营工作需要做什么?
- 灵活无成本的ITSM系统|ServiceHot ITSOM
- 精通正则表达式学习记录 第二章 入门示例扩展