gensim版本很重要,和其他安装依赖包有关系,而且进行了修改和改进。
通过一下命令查看版本

pip list | grep gensim

#导入模块
from gensim.models import Word2Vec
#模型生成
model = Word2Vec(sentence,vector_size=100, min_count=1,sg=1)
#模型保存
model.wv.save_word2vec_format('word2vec.txt',binary=False)
#循环遍历生成序列

参数说明:

  1. sentence:语料库,也即将用到的数据集的内容。
  2. sg:训练算法:1表示skip-gram,否则CBOW,默认sg=0为CBOW算法。

skip-gram (训练速度慢,对罕见字有效),CBOW(训练速度快)。一般选择Skip-gram模型

  1. vector_size:词向量的维度,默认为100.

这个维度的取值与我们的语料的大小相关,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度。值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间,不过见的比较多的也有300维的。

  1. min_count:忽略所有频率低于此值的单词。默认值为5。

在不同大小的语料集中,对于基准词频的需求也是不一样的。譬如在较大的语料集中,希望忽略那些只出现过一两次的单词,这里就可以通过设置min_count参数进行控制。一般而言,合理的参数值会设置在0~100之间。

  1. workers: 线程数

表示训练词向量时使用的线程数,默认是当前运行机器的处理器核数

  1. iter—epochs 迭代次数

影响训练次数,语料不够的情况下,可以调大迭代次数。spark 版本有bug,迭代次数超过1,训练得到的词向量维度值超大

  1. windows: 窗口大小

当前词与预测词的最大距离。

word2vec.txt文件里面会生成特征所对应的数字序列,遍历语料库,替换为数字序列即可。

注意,所有序列要进行长度的归一化,否则会报错,报错如下:

Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray).

Python之word2vec用法说明相关推荐

  1. 简单介绍Python中异常处理用法

    这篇文章主要给大家分享的是 Python中异常处理用法,为了保证程序的健壮性与容错性,即在遇到错误时候程序不会崩溃,我们需要对异常进行处理,下面来看看文章对此的用法,需要的朋友可以参考一下 为了保证程 ...

  2. python的继承用法_【后端开发】python中继承有什么用法?python继承的用法详解

    本篇文章给大家带来的内容是关于python中继承有什么用法?python继承的用法详解,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 面向对象三大特征 1.封装:根据职责将属性和方法 ...

  3. python matplotlib 简单用法

    python matplotlib 简单用法 具体内容请参考官网 代码 import matplotlib.pyplot as plt import numpy as np # 支持中文 plt.rc ...

  4. (转)python requests 高级用法 -- 包括SSL 证书错误的解决方案

    (转)python requests 高级用法 -- 包括SSL 证书错误的解决方案 参考文章: (1)(转)python requests 高级用法 -- 包括SSL 证书错误的解决方案 (2)ht ...

  5. python装饰器实例-Python装饰器用法实例总结

    本文实例讲述了Python装饰器用法.分享给大家供大家参考,具体如下: 一.装饰器是什么 python的装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能, ...

  6. python所有函数用法_Python函数使用方法(高级用法)

    前面章节,已经介绍了 Python 函数的所有基本用法和使用注意事项.但是,Python 函数的用法还远不止此,Python 函数还支持赋值.作为其他函数的参数以及作为其他函数的返回值. 首先,Pyt ...

  7. python的property用法_python @property的用法及含义全面解析

    在接触python时最开始接触的代码,取长方形的长和宽,定义一个长方形类,然后设置长方形的长宽属性,通过实例化的方式调用长和宽,像如下代码一样. class Rectangle(object): de ...

  8. python竞赛_浅谈Python在信息学竞赛中的运用及Python的基本用法

    浅谈Python在信息学竞赛中的运用及Python的基本用法 前言 众所周知,Python是一种非常实用的语言.但是由于其运算时的低效和解释型编译,在信息学竞赛中并不用于完成算法程序.但正如LRJ在& ...

  9. Python Matplotlib基本用法

    Python Matplotlib基本用法 1. 认识Matploblib 1.1 Figure 1.2 Axes 1.3 Multiple Axes 1.4 Axes Vs .pyplot 2. 基 ...

最新文章

  1. ucontext实现的用户级多线程框架3(实现echo服务器)
  2. 女生适合发型测试软件,推荐10款适合女生用的APP,绝对让你感到惊艳
  3. JAVA_OA(十四)番外:JAVAWEB防止表单重复提交的方法整合(包括集群部署)
  4. 博导眼里本科生的科研能力:“他们还在玩泥巴”
  5. 常见的误解:这会创建多少个对象?
  6. 如何得知mysql表结构发生变化了呢?
  7. android 控件宽度自适应_Android中让图片自适应控件的大小的方法
  8. 20172310《程序设计与数据结构》(上)课程总结
  9. 电脑配置知识_电脑小知识:装机不求人!10 分钟电脑配置挑选速成攻略|硬盘|电脑|cpu|装机|固态硬盘|机械硬盘...
  10. mapper接口中的方法,example实例解析
  11. 利用after和before伪元素在文字两边写横线
  12. java中构造器的调用顺序
  13. 如何处理DDoS***
  14. SVN客户端安装及操作文档
  15. 计算机 仿真 流体力学剪切应力,基于影像的计算流体力学在冠状动脉疾病中的研究进展...
  16. 工具模板 | 用APOEM方法消除对用户行为的偏见
  17. Git 团队协作常用术语 WIP PTAL CC LGTM
  18. 互联网运营工作需要做什么?
  19. 灵活无成本的ITSM系统|ServiceHot ITSOM
  20. 精通正则表达式学习记录 第二章 入门示例扩展

热门文章

  1. cdr软件百度百科_coreldraw是干嘛的?能做什么?cdr软件在哪儿下载?
  2. android手机如何截屏,安卓手机怎么截图? (全文)
  3. Composer中的ThingWorx模型定义—可视化
  4. 进程子进程 线程子线程结束问题
  5. 【翻译】配置RSVP-signaled LSP
  6. 对于人工智能的认识,我们需要更深入全面的理解
  7. Linux 下压缩包解压后目录的权限问题
  8. 微信公众号内,实现下载 PDF 文件。
  9. Windows和Xyplorer的完美结合
  10. win+e替换为xyplorer打开