用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

参数:

· sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
· size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
· window:表示当前词与预测词在一个句子中的最大距离是多少
· alpha: 是学习速率
· seed:用于随机数发生器。与初始化词向量有关。
· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
· sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)
· workers参数控制训练的并行数。
· hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(defau·t),则negative sampling会被使用。
· negative: 如果>0,则会采用negativesamp·ing,用于设置多少个noise words
· cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defau·t)则采用均值。只有使用CBOW的时候才起作用。
· hashfxn: hash函数来初始化权重。默认使用python的hash函数
· iter: 迭代次数,默认为5
· trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
· sorted_vocab: 如果为1(defau·t),则在分配word index 的时候会先对单词基于频率降序排序。
· batch_words:每一批的传递给线程的单词的数量,默认为10000=

Word2Vec模型配置参数相关推荐

  1. 生成路径 vs 设置_Simulink代码生成之模型配置

    欢迎关注我的微信公众号[新能源动力电池与BMS],头条号:[阿Q在江湖]:所有文章资料会在公众号首发. 本文已同步录制视频讲解:Simulink代码生成之模型配置_视频教程 - 知乎. PS:前段时间 ...

  2. NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

    使用 Gensim 来训练 word2vec 词向量模型的参数设置 文章目录 一.最小频次 min_count 二.词向量维度 size 三.并行处理核心数 workers 我们可以使用一些参数设置来 ...

  3. (E3)模型气象参数配置

    上一篇文章介绍了如何用SPACES软件创建模型,这篇文章介绍如何配置模型驱动参数. 打开ENVI-guide 创建新的模拟文件 基础设置 选择模型域 选择等级,初级比较简单,不予以介绍,中级和高级介绍 ...

  4. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

  5. 使用中文维基百科语料库训练一个word2vec模型

    本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...

  6. 使用中文维基百科语料库训练一个word2vec模型 12.1

    转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...

  7. 【地理人工智能交叉】通过整合兴趣点和Word2Vec模型感知城市土地利用的空间分布

    [IJGIS]Sensing spatial distribution of urban land use by integrating points-of-interest and Google W ...

  8. 5分钟掌握手动优化机器学习模型超参数

    机器学习算法具有超参数,可让这些算法针对特定的数据集进行量身定制. 尽管通常可以理解超参数的影响,但是可能不知道它们对数据集的特定影响以及它们在学习期间的交互作用.因此,作为机器学习项目的一部分,调整 ...

  9. nginx配置参数详解

    PS:Nginx使用有两三年了,现在经常碰到有新用户问一些很基本的问题,我也没时间一一回答,今天下午花了点时间,结合自己的使用经验,把Nginx的主要配置参数说明分享一下,也参考了一些网络的内容,这篇 ...

  10. php+php-fom+nginx配置参数调优详解

    文章目录 一.前言 1.mysql配置参数: 2.注意 二.php参数配置及讲解 1.phpini的基本设置 2.php参数设置 三.php-fpm设置 1.设置子进程数,增加并发量 2.防止频繁出现 ...

最新文章

  1. python基础与大数据_Python大数据基础与实战第10章数据可视化.pptx
  2. 逆向工程、协议分析和漏洞研究
  3. Android项目实战(十三):浅谈EventBus
  4. java web 服务器环境搭建之jdk安装
  5. Javascript获取类名方法
  6. Oracle之表示约束状态的关键字Enable/Disable/Validate/Novalidate
  7. 有序关系中的最大元与最小元
  8. C#------如何获取本机IP地址
  9. ubuntu16.04下ROS操作系统学习笔记(九)Moveit
  10. 我要做 Android 第三弹弹弹
  11. Platform SDK and SB2
  12. vue中如何使用h5自定义标签?
  13. 用命令行登录并操作数据库
  14. 加拿大前十大学计算机硕士学费,2018年加拿大各大学硕士学费一览表!
  15. PHP读取HTML生成doc
  16. java cxf encoded,java:JAXWS 2.0不支持Rpc / encoded wsdls
  17. A simple webframe base on web.py
  18. SEO、UEO未来谁更重要?
  19. mysql获取本月,本周,本季度初末数据
  20. PHP开发一个小型商务网站

热门文章

  1. 计算矩阵A与矩阵B的欧式距离
  2. [解决]Windows 8 丢失 MSVCR71.dll 或 MSVCP71.dll
  3. clustalX2使用以及相关的问题
  4. C语言数字图像处理---1.3 图像直方图
  5. 梦幻西游服务器多系统多开,梦幻西游:脚本多开屡禁不止,一组账号告诉你,少去找代练!...
  6. 蓝桥杯第十二届省赛JAVA C组 试题 F: 时间显示
  7. MySQL基础入门-创建表格系列操作
  8. android 墓碑日志,关于清明节扫墓的日记
  9. c++ 取模和求余运算
  10. 均值滤波器类型_[数字图像处理]图像去噪初步(1)--均值滤波器