在gensim中,word2vec相关的API都在gensim.models.word2vec中,与算法相关的参数在 gensim.models.word2vec.Word2Vec中。其具体参数说明如下:(个人翻译,如有出入欢迎指正)

class Word2Vec(BaseWordEmbeddingsModel):"""训练, 使用和评估https://code.google.com/p/word2vec/中描述的神经网络一旦你训练完一个模型 (不再更新,仅查询)只能在`~gensim.models.keyedvectors.KeyedVectors`的`self.wv`实例中存储并使用,这样可以节省内存该模型可以通过`~gensim.models.word2vec.Word2Vec.save`和`~gensim.models.word2vec.Word2Vec.load`方法来存储和加载训练后的单词向量还可以通过`self.wv.save_word2vec_format`原始word2vec实现方法和`gensim.models.keyedvectors.KeyedVectors.load_word2vec_format`来存储和加载。一些重要的属性如下:属性----------wv : :class:`~gensim.models.keyedvectors.Word2VecKeyedVectors`这个对象本质上包含单词和embeeding之间的映射。经过训练,可以通过各种方式直接用来查询这些embeeding。有关示例,请参见模块级文档说明。vocabulary : :class:`~gensim.models.word2vec.Word2VecVocab`该对象表示模型的词汇表(有时在gensim中称为Dictionary)。除了跟踪所有不同的单词之外,此对象还提供了其他功能,例如构造霍夫曼树(常用词更接近词根),或丢弃极为罕见的词。trainables : :class:`~gensim.models.word2vec.Word2VecTrainables`该对象表示用于训练embeeding的内部浅层神经网络。在两种可用的训练模式(CBOW或SG)中,网络的语义略有不同,但是您可以将其视为具有单个投影和隐藏层的NN,我们在语料库上对其进行训练。然后将权重用作我们的embeeding(这意味着隐藏层的大小等于特征“ self.size”的数量)。"""def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5,max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=(),max_final_vocab=None):"""参数----------sentences : 可迭代的对象, 可选的需要分析的预料。可迭代的"sentences" 可以是tokens列表集中的一个简单列表,但是对于较大的语料库,请考虑直接从磁盘/网络中流式传输"sentences"的可迭代项。如果您不提供“sentences”,则该模型将保持未初始化状态。如果您打算通过其他方式对其进行初始化,则可以这样做。corpus_file : 字符串类型, 可选的语料库文件的路经:`~gensim.models.word2vec.LineSentence`格式.您可以使用此参数代替“sentences”从而提高性能。仅需传递“sentences”或“ corpus_file”两个变量中的一个即可(或不传递任何一个,在这种情况下,模型将保持未初始化状态)size : 整型, 可选词向量的维数。window : 整型, 可选句子中当前词和预测词之间的最大距离。window越大,则与中心词较远的词也会产生上下文关系。min_count : 整型, 可选最小词频,忽略所有总频率低于此频率的单词。workers : 整型, 可选训练模型所采用的工作线程数量(=使用多核机器进行训练将更快)。sg : {0, 1}, 可选训练模型: 1表示skip-gram; 0表示CBOW.hs : {0, 1}, 可选如果为1, 将用hierarchical softmax 训练模型.如果为0, 并且`negative`不为0,则将采样负采样训练模型。negative : 整型, 可选如果大于0, 将使用负采样, negative的绝对值决定了"noise words"的个数应该被设置 (一般情况下取值范围为5-20).如果设置为0, no negative sampling is used.ns_exponent : float, optional"exponent"用于构造负采样分布。值1.0表示与频率成正比,值0.0表示对所有单词均匀采样,而负值对低频词的采样比对高频词的采样多。最初的Word2Vec文件选择了流行的默认值0.75。最近,Caselleles-Dupré,Lesaint和Royo-Letelier在https://arxiv.org/abs/1804.04212中建议,其他值对于"推荐类应用程序"可能会表现更好。cbow_mean : {0, 1}, optional如果为0, 在cbow做投影的时候则使用上下文词向量的总和. 如果为1, 则使用平均值, 仅在使用cbow时适用.alpha : float, optional在随机梯度下降法中的初始学习率(初始步长).min_alpha : float, optional最小的迭代步长值。随着训练的进行,学习率将线性下降到"min_alpha".seed : int, optional随机数生成器的种子。每个单词的初始向量都以单词的级联哈希值+`str(seed)`作为种子。请注意,如果需要运行结果完全重现,还必须将模型限制为单个工作线程(“workers = 1”),以消除OS线程调度中的排序抖动。(在Python3中,解释程序启动之间的可重复性还需要使用`PYTHONHASHSEED`环境变量来控制哈希随机化)。max_vocab_size : int, optional最大词汇数量,如果设置为`None` 表示不限制在词汇构造过程中限制RAM;如果许多的独特词,则可以修剪不常用的词。每1000万个字类型需要大约1GB的RAM。max_final_vocab : int, optional通过自动选择一个匹配的min_count将词汇表限制为目标词汇表大小。如果指定的min_count大于计算的min_count,则将使用指定的min_count。如果设置为`None` 表示不限制。sample : float, optional配置高频词被随机下采样的阈值,比较可靠的范围是(0,1e-5)。hashfxn : function, optional哈希函数用于随机初始化权重,以提高训练的可重复性。iter : int, optional语料库上的迭代次数trim_rule : function, optional词汇修剪规则,指定是否应保留某些单词,对其进行修剪或使用默认值处理(如果单词数<min_count则舍弃)。可以设置为None(将使用min_count,可以查看`〜gensim.utils .keep_vocab_item`),也可以是接受参数(word,count,min_count)并返回以下任意一种的可调用对象:attr:`gensim.utils.RULE_DISCARD` ,attr:`gensim.utils.RULE_KEEP`attr:`gensim.utils.RULE_DEFAULT`。如果给出规则,则该规则仅用于在build_vocab()期间修剪词汇,而不会存储为模型的一部分。输入参数具有以下类型:*`word`(str)-我们正在检查的单词*`count`(int)-语料库中单词的频率计数*`min_count`(int)-最小计数阈值。sorted_vocab:{0,1},可选如果为1,则在分配单词索引之前,按降序对词汇表进行排序。参见:`〜gensim.models.word2vec.Word2VecVocab.sort_vocab()`方法batch_words:int,可选传递给工作线程(以及cython例程)的示例批处理的目标大小(以字为单位)。(如果单个文本的长度超过10000个单词,则将传递较大的批处理,但是标准cython代码将截断到该最大值)。compute_loss:布尔值,可选如果为True,则计算并存储的损失值可以通过`〜gensim.models.word2vec.Word2Vec.get_latest_training_loss`方法检索查看。callbacks : iterable of :class:`~gensim.models.callbacks.CallbackAny2Vec`, optional在训练过程中的特定阶段执行的回调序列。例如--------初始化并训练一个`~gensim.models.word2vec.Word2Vec`模型.. sourcecode:: pycon>>> from gensim.models import Word2Vec>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]>>> model = Word2Vec(sentences, min_count=1)"""

gensim中word2vec API参数说明相关推荐

  1. Word2vec原理浅析及gensim中word2vec使用

    本文转载于以下博客链接:Word2vec原理浅析:https://blog.csdn.net/u010700066/article/details/83070102: gensim中word2vec使 ...

  2. gensim中word2vec

    用gensim学习word2vec 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative S ...

  3. gensim中word2vec使用

    https://blog.csdn.net/u010700066/article/details/83070102

  4. 自然语言处理库——Gensim之Word2vec

    Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达. 主要用于 ...

  5. 自然语言处理库—Gensim之Word2vec

    1. gensim概述 Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的 ...

  6. gensim中的word2vec使用

    介绍 一句话, G e n s i m Gensim Gensim中的word2vec类就是用来训练词向量的,这个类实现了词向量训练的两种基本模型 s k i p − g r a m skip-gra ...

  7. Word2Vec中的gensim报错from gensim.models.word2vec import Vocab报错问题

    Word2Vec中的gensim报错 一.from gensim.models.word2vec import Vocab报错问题 [error]提示没有vocab这个模块,这是原因gensim版本而 ...

  8. 【自然语言处理】Gensim中的Word2Vec

    Gensim中的Word2Vec BOW 和 TF-IDF 都只着重于词汇出现在文件中的次数,未考虑语言.文字有上下文的关联,针对上下文的关联,Google 研发团队提出了词向量 Word2vec,将 ...

  9. gensim中的word2vec的使用

    本着尊重原著的想法,我们先把一些引用的文章贴上来,供大家参考 word2vec的理论知识,这个真的蛮详细的,我表示没有耐心全部搞透啊!:https://blog.csdn.net/itplus/art ...

  10. 使用gensim中的Word2Vec报错ValueError

    你如果尚未解除过word2Vec,这一篇详解值得一看:<机器学习:gensim之Word2Vec 详解>,以下则主要是我自己项目中使用gensim的Word2Vec中所遇到的问题以及详解 ...

最新文章

  1. java语言避免了大多数的什么_Java 语言避免了大多数的▁错误。( )_学小易找答案...
  2. Java高级工程师实战经验图谱
  3. CSS2-3常见的demo列子总结
  4. 树莓派使用STEP4:安装vim
  5. System类,Math类
  6. Python字典类型内部做判断赋值
  7. 【转】Glut处理鼠标事件
  8. C# System.Drawing.SystemColors 系统颜色
  9. 泛型类,泛型接口,泛型方法,底层擦除机制,可变参数,限类型通配符,反编译xjad
  10. Perforce携手龙智成功举办2021年度中国用户大会助力中国企业“加速开发”
  11. xml.html一键解密工具,AutoJs一键解密
  12. c#进阶一:使用ILDASM来查看c#中间语言
  13. 为什么是“深度”学习而不是宽度?
  14. 简单工厂模式(静态工厂方法模式)
  15. 国产数据库-达梦数据库
  16. Mob 的分享的集成
  17. Wagtail 教程 2:简单博客实现
  18. 云控微信开发SDK使用教程--微信联系人标签新增,修改通知服务端
  19. 大过 泽风大过 兑上巽下
  20. Box2D 中文手册

热门文章

  1. 33张你没看过的酷炫化学动图, 秒懂化学反应原理!
  2. (一)来自 192.168.xx.xx的回复: TTL 传输中过期。
  3. form中action属性
  4. led大屏按实际尺寸设计画面_新手必知LED显示屏尺寸规格及计算方法
  5. 保护系统 WinXP故障恢复控制台完全指引
  6. 进入故障恢复控制台从此不需要密码
  7. 【Spring常见错误】java.lang.NoClassDefFoundError: redis/clients/jedis/UnifiedJedis
  8. 应用内添加原生广告,变现与用户体验可兼得
  9. KNN算法实现鸢尾花数据集分类 C语言实现(附数据集)
  10. 微信小程序-网易云音乐