Gensim库生成与导入W2V模型

语料目录

gensim函数库Word2Vec配置参数

gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

参数:

· sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。

· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。

· size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。

· window:表示当前词与预测词在一个句子中的最大距离是多少

· alpha: 是学习速率

· seed:用于随机数发生器。与初始化词向量有关。

· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5

· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。

· sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)

· workers参数控制训练的并行数。

· hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(defau·t),则negative sampling会被使用。

· negative: 如果>0,则会采用negativesamp·ing,用于设置多少个noise words

· cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defau·t)则采用均值。只有使用CBOW的时候才起作用。

· hashfxn: hash函数来初始化权重。默认使用python的hash函数

· iter: 迭代次数,默认为5

· trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。

· sorted_vocab: 如果为1(defau·t),则在分配word index 的时候会先对单词基于频率降序排序。

· batch_words:每一批的传递给线程的单词的数量,默认为10000

完整代码

import gensim
import pandas as pd'''W2V-msr 生成'''
corpus_msr = gensim.models.word2vec.Text8Corpus("./training/msr_training.utf8")  # 加载语料
model = gensim.models.word2vec.Word2Vec(corpus_msr, size=128, window=5, min_count=5, workers=4)
model.save('W2V_Danmu_msr')
print('W2V_Danmu_msr 生成完毕')'''W2V-pku 生成'''
corpus_pku = gensim.models.word2vec.Text8Corpus("./training/pku_training.utf8")  # 加载语料
model = gensim.models.word2vec.Word2Vec(corpus_pku, size=128, window=5, min_count=5, workers=4)
model.save('W2V_Danmu_pku')
print('W2V_Danmu_pku 生成完毕')'''W2V-msr 导入'''
model_msr = gensim.models.Word2Vec.load('W2V_Danmu_msr')
print()
print('---使用 W2V_Danmu_msr 模型---')
print(pd.Series(model_msr.most_similar('爸爸', topn=10)))'''W2V-pku 导入'''
model_pku = gensim.models.Word2Vec.load('W2V_Danmu_pku')
print()
print('---使用 W2V_Danmu_pku 模型---')
print(pd.Series(model_pku.most_similar('爸爸', topn=10)))

Gensim库生成与导入W2V模型_CodingPark编程公园相关推荐

  1. CPCY模型_CodingPark编程公园

    项目图纸 https://www.processon.com/view/link/5f086af9637689789d250bd6 CPCY流程图-链接 https://awwapp.com/b/uo ...

  2. 漫谈机器学习的【泛化能力】【模型能力】【调参技巧】_CodingPark编程公园

    漫谈机器学习 完成第一幅初稿 完成终稿 1945年12月5日 1946年1月17日 前言 上面的画就是20世纪最著名的抽象派画家毕加索于1946年1月17日完稿的画作--公牛,寥寥几笔,勾勒出公牛的& ...

  3. 人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园

    文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ...

  4. NLP高频面试_CodingPark编程公园

    NLP高频面试 1.LSTM 画图,写公式 计算一层的参数量 假设lstm层的一个时间点上的输入特征长度是n,输出长度是m, 那么参数量是4*((n+m)*m+m) https://www.cnblo ...

  5. 数据可视化与文本分类_CodingPark编程公园

    文章流程 预备知识 数据可视化 语料获取 数据预处理 探索数据分布 词统计图像可视化与词云图 文本分类 文本向量化 - bag+tfidf 分类模型 预备知识 read_csv 与 to_csv 方法 ...

  6. Linux压缩|解压_CodingPark编程公园

    文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ...

  7. 数据分析调研报告_CodingPark编程公园

    文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...

  8. GPU概述_CodingPark编程公园

    GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ...

  9. 条件随机场分词_CodingPark编程公园

    基本概念 引言 HMM - 估计特征与序列的联合概率 p(x,y) 感知机 - 给它们打一个分数 score(x,y) CRF - 与感知机同属于结构化学习家族,但性能比感知机强大 机器学习的模型谱系 ...

最新文章

  1. MindSpore技术理解(上)
  2. [BUUCTF-pwn]——bjdctf_2020_router
  3. 若川邀你进 源码共读 群~长期交流学习
  4. LeetCode 217. 存在重复元素(哈希)
  5. python中的super使用方法[探索4]
  6. 为什么不用mysql做数据仓库hdfs_为什么不建议将RAID用于Hadoop HDFS设置?
  7. 2022牛客寒假算法基础集训营4 签到题7题
  8. iconfont 图标宽高出问题_IconFont使用注意点
  9. 【STL记录】Containers--Lists
  10. 【渗透测试】编辑器漏洞
  11. 什么是埋点?我们为什么需要埋点?(原作者:知乎 原志Growing)
  12. 抖音云控系统领先品牌
  13. Photoshop脚本 批量生成Web切图
  14. 瑞典皇工学院计算机,瑞典规模最大的理工院校,皇家理工学院
  15. Web前端开发:HTML、CSS
  16. 爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评
  17. 【2309. 兼具大小写的最好英文字母】
  18. Android实现车辆检测(含Android源码 可实时运行)
  19. 26日pr更新 祝愿大家的站点更上一层楼
  20. 软件构件 API 在不同版本间的兼容性——读FSE 2012 best paper有感

热门文章

  1. Qt编写4K/8K大分辨率播放器(8K占用1%CPU)
  2. Web前端实践经验总结
  3. 响铃:云计算的时代 2.0的江湖 百度的新赛道战术
  4. Android拉取微信公众号列表,Xposed实时获取微信公众号推送
  5. win32 007
  6. 智慧零售2.0时代,容器云已成电商转型利器
  7. python爬虫常见报错_Python爬虫常见异常及解决办法
  8. 图解图库JanusGraph系列-一文知晓“图数据“底层存储结构(JanusGraph data model)
  9. Python进行表格拆分
  10. Chrome 图片批量下载扩展—— zzllrr Imager(小乐图客)