gensim中word2vec API参数说明

在gensim中，word2vec相关的API都在gensim.models.word2vec中，与算法相关的参数在 gensim.models.word2vec.Word2Vec中。其具体参数说明如下：（个人翻译，如有出入欢迎指正）

class Word2Vec(BaseWordEmbeddingsModel):"""训练, 使用和评估https://code.google.com/p/word2vec/中描述的神经网络一旦你训练完一个模型 (不再更新,仅查询)只能在`~gensim.models.keyedvectors.KeyedVectors`的`self.wv`实例中存储并使用，这样可以节省内存该模型可以通过`~gensim.models.word2vec.Word2Vec.save`和`~gensim.models.word2vec.Word2Vec.load`方法来存储和加载训练后的单词向量还可以通过`self.wv.save_word2vec_format`原始word2vec实现方法和`gensim.models.keyedvectors.KeyedVectors.load_word2vec_format`来存储和加载。一些重要的属性如下：属性----------wv : :class:`~gensim.models.keyedvectors.Word2VecKeyedVectors`这个对象本质上包含单词和embeeding之间的映射。经过训练，可以通过各种方式直接用来查询这些embeeding。有关示例，请参见模块级文档说明。vocabulary : :class:`~gensim.models.word2vec.Word2VecVocab`该对象表示模型的词汇表（有时在gensim中称为Dictionary）。除了跟踪所有不同的单词之外，此对象还提供了其他功能，例如构造霍夫曼树（常用词更接近词根），或丢弃极为罕见的词。trainables : :class:`~gensim.models.word2vec.Word2VecTrainables`该对象表示用于训练embeeding的内部浅层神经网络。在两种可用的训练模式（CBOW或SG）中，网络的语义略有不同，但是您可以将其视为具有单个投影和隐藏层的NN，我们在语料库上对其进行训练。然后将权重用作我们的embeeding（这意味着隐藏层的大小等于特征“ self.size”的数量）。"""def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5,max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=(),max_final_vocab=None):"""参数----------sentences : 可迭代的对象, 可选的需要分析的预料。可迭代的"sentences" 可以是tokens列表集中的一个简单列表，但是对于较大的语料库，请考虑直接从磁盘/网络中流式传输"sentences"的可迭代项。如果您不提供“sentences”，则该模型将保持未初始化状态。如果您打算通过其他方式对其进行初始化，则可以这样做。corpus_file : 字符串类型, 可选的语料库文件的路经：`~gensim.models.word2vec.LineSentence`格式.您可以使用此参数代替“sentences”从而提高性能。仅需传递“sentences”或“ corpus_file”两个变量中的一个即可（或不传递任何一个，在这种情况下，模型将保持未初始化状态）size : 整型, 可选词向量的维数。window : 整型, 可选句子中当前词和预测词之间的最大距离。window越大，则与中心词较远的词也会产生上下文关系。min_count : 整型, 可选最小词频，忽略所有总频率低于此频率的单词。workers : 整型, 可选训练模型所采用的工作线程数量（=使用多核机器进行训练将更快）。sg : {0, 1}, 可选训练模型: 1表示skip-gram; 0表示CBOW.hs : {0, 1}, 可选如果为1, 将用hierarchical softmax 训练模型.如果为0, 并且`negative`不为0,则将采样负采样训练模型。negative : 整型, 可选如果大于0, 将使用负采样, negative的绝对值决定了"noise words"的个数应该被设置 (一般情况下取值范围为5-20).如果设置为0, no negative sampling is used.ns_exponent : float, optional"exponent"用于构造负采样分布。值1.0表示与频率成正比，值0.0表示对所有单词均匀采样，而负值对低频词的采样比对高频词的采样多。最初的Word2Vec文件选择了流行的默认值0.75。最近，Caselleles-Dupré，Lesaint和Royo-Letelier在https://arxiv.org/abs/1804.04212中建议，其他值对于"推荐类应用程序"可能会表现更好。cbow_mean : {0, 1}, optional如果为0, 在cbow做投影的时候则使用上下文词向量的总和. 如果为1, 则使用平均值, 仅在使用cbow时适用.alpha : float, optional在随机梯度下降法中的初始学习率（初始步长）.min_alpha : float, optional最小的迭代步长值。随着训练的进行，学习率将线性下降到"min_alpha".seed : int, optional随机数生成器的种子。每个单词的初始向量都以单词的级联哈希值+`str(seed)`作为种子。请注意，如果需要运行结果完全重现，还必须将模型限制为单个工作线程（“workers = 1”），以消除OS线程调度中的排序抖动。（在Python3中，解释程序启动之间的可重复性还需要使用`PYTHONHASHSEED`环境变量来控制哈希随机化）。max_vocab_size : int, optional最大词汇数量，如果设置为`None` 表示不限制在词汇构造过程中限制RAM；如果许多的独特词，则可以修剪不常用的词。每1000万个字类型需要大约1GB的RAM。max_final_vocab : int, optional通过自动选择一个匹配的min_count将词汇表限制为目标词汇表大小。如果指定的min_count大于计算的min_count，则将使用指定的min_count。如果设置为`None` 表示不限制。sample : float, optional配置高频词被随机下采样的阈值，比较可靠的范围是（0，1e-5）。hashfxn : function, optional哈希函数用于随机初始化权重，以提高训练的可重复性。iter : int, optional语料库上的迭代次数trim_rule : function, optional词汇修剪规则，指定是否应保留某些单词，对其进行修剪或使用默认值处理（如果单词数<min_count则舍弃）。可以设置为None（将使用min_count，可以查看`〜gensim.utils .keep_vocab_item`），也可以是接受参数（word，count，min_count）并返回以下任意一种的可调用对象：attr：`gensim.utils.RULE_DISCARD` ，attr：`gensim.utils.RULE_KEEP`attr：`gensim.utils.RULE_DEFAULT`。如果给出规则，则该规则仅用于在build_vocab（）期间修剪词汇，而不会存储为模型的一部分。输入参数具有以下类型：*`word`（str）-我们正在检查的单词*`count`（int）-语料库中单词的频率计数*`min_count`（int）-最小计数阈值。sorted_vocab：{0，1}，可选如果为1，则在分配单词索引之前，按降序对词汇表进行排序。参见：`〜gensim.models.word2vec.Word2VecVocab.sort_vocab（）`方法batch_words：int，可选传递给工作线程（以及cython例程）的示例批处理的目标大小（以字为单位）。（如果单个文本的长度超过10000个单词，则将传递较大的批处理，但是标准cython代码将截断到该最大值）。compute_loss：布尔值，可选如果为True，则计算并存储的损失值可以通过`〜gensim.models.word2vec.Word2Vec.get_latest_training_loss`方法检索查看。callbacks : iterable of :class:`~gensim.models.callbacks.CallbackAny2Vec`, optional在训练过程中的特定阶段执行的回调序列。例如--------初始化并训练一个`~gensim.models.word2vec.Word2Vec`模型.. sourcecode:: pycon>>> from gensim.models import Word2Vec>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]>>> model = Word2Vec(sentences, min_count=1)"""

gensim中word2vec API参数说明相关推荐

Word2vec原理浅析及gensim中word2vec使用
本文转载于以下博客链接:Word2vec原理浅析:https://blog.csdn.net/u010700066/article/details/83070102: gensim中word2vec使 ...
gensim中word2vec
用gensim学习word2vec 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative S ...
gensim中word2vec使用
https://blog.csdn.net/u010700066/article/details/83070102
自然语言处理库——Gensim之Word2vec
Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达. 主要用于 ...
自然语言处理库—Gensim之Word2vec
1. gensim概述 Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的 ...
gensim中的word2vec使用
介绍一句话, G e n s i m Gensim Gensim中的word2vec类就是用来训练词向量的,这个类实现了词向量训练的两种基本模型 s k i p − g r a m skip-gra ...
Word2Vec中的gensim报错from gensim.models.word2vec import Vocab报错问题
Word2Vec中的gensim报错一.from gensim.models.word2vec import Vocab报错问题 [error]提示没有vocab这个模块,这是原因gensim版本而 ...
【自然语言处理】Gensim中的Word2Vec
Gensim中的Word2Vec BOW 和 TF-IDF 都只着重于词汇出现在文件中的次数,未考虑语言.文字有上下文的关联,针对上下文的关联,Google 研发团队提出了词向量 Word2vec,将 ...
gensim中的word2vec的使用
本着尊重原著的想法,我们先把一些引用的文章贴上来,供大家参考 word2vec的理论知识,这个真的蛮详细的,我表示没有耐心全部搞透啊!:https://blog.csdn.net/itplus/art ...
使用gensim中的Word2Vec报错ValueError
你如果尚未解除过word2Vec,这一篇详解值得一看:<机器学习:gensim之Word2Vec 详解>,以下则主要是我自己项目中使用gensim的Word2Vec中所遇到的问题以及详解 ...

gensim中word2vec API参数说明

gensim中word2vec API参数说明相关推荐

最新文章

热门文章