Gensim库生成与导入W2V模型_CodingPark编程公园
Gensim库生成与导入W2V模型
语料目录
gensim函数库Word2Vec配置参数
gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)
参数:
· sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
· size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
· window:表示当前词与预测词在一个句子中的最大距离是多少
· alpha: 是学习速率
· seed:用于随机数发生器。与初始化词向量有关。
· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
· sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)
· workers参数控制训练的并行数。
· hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(defau·t),则negative sampling会被使用。
· negative: 如果>0,则会采用negativesamp·ing,用于设置多少个noise words
· cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defau·t)则采用均值。只有使用CBOW的时候才起作用。
· hashfxn: hash函数来初始化权重。默认使用python的hash函数
· iter: 迭代次数,默认为5
· trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
· sorted_vocab: 如果为1(defau·t),则在分配word index 的时候会先对单词基于频率降序排序。
· batch_words:每一批的传递给线程的单词的数量,默认为10000
完整代码
import gensim
import pandas as pd'''W2V-msr 生成'''
corpus_msr = gensim.models.word2vec.Text8Corpus("./training/msr_training.utf8") # 加载语料
model = gensim.models.word2vec.Word2Vec(corpus_msr, size=128, window=5, min_count=5, workers=4)
model.save('W2V_Danmu_msr')
print('W2V_Danmu_msr 生成完毕')'''W2V-pku 生成'''
corpus_pku = gensim.models.word2vec.Text8Corpus("./training/pku_training.utf8") # 加载语料
model = gensim.models.word2vec.Word2Vec(corpus_pku, size=128, window=5, min_count=5, workers=4)
model.save('W2V_Danmu_pku')
print('W2V_Danmu_pku 生成完毕')'''W2V-msr 导入'''
model_msr = gensim.models.Word2Vec.load('W2V_Danmu_msr')
print()
print('---使用 W2V_Danmu_msr 模型---')
print(pd.Series(model_msr.most_similar('爸爸', topn=10)))'''W2V-pku 导入'''
model_pku = gensim.models.Word2Vec.load('W2V_Danmu_pku')
print()
print('---使用 W2V_Danmu_pku 模型---')
print(pd.Series(model_pku.most_similar('爸爸', topn=10)))
Gensim库生成与导入W2V模型_CodingPark编程公园相关推荐
- CPCY模型_CodingPark编程公园
项目图纸 https://www.processon.com/view/link/5f086af9637689789d250bd6 CPCY流程图-链接 https://awwapp.com/b/uo ...
- 漫谈机器学习的【泛化能力】【模型能力】【调参技巧】_CodingPark编程公园
漫谈机器学习 完成第一幅初稿 完成终稿 1945年12月5日 1946年1月17日 前言 上面的画就是20世纪最著名的抽象派画家毕加索于1946年1月17日完稿的画作--公牛,寥寥几笔,勾勒出公牛的& ...
- 人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园
文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ...
- NLP高频面试_CodingPark编程公园
NLP高频面试 1.LSTM 画图,写公式 计算一层的参数量 假设lstm层的一个时间点上的输入特征长度是n,输出长度是m, 那么参数量是4*((n+m)*m+m) https://www.cnblo ...
- 数据可视化与文本分类_CodingPark编程公园
文章流程 预备知识 数据可视化 语料获取 数据预处理 探索数据分布 词统计图像可视化与词云图 文本分类 文本向量化 - bag+tfidf 分类模型 预备知识 read_csv 与 to_csv 方法 ...
- Linux压缩|解压_CodingPark编程公园
文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ...
- 数据分析调研报告_CodingPark编程公园
文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...
- GPU概述_CodingPark编程公园
GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ...
- 条件随机场分词_CodingPark编程公园
基本概念 引言 HMM - 估计特征与序列的联合概率 p(x,y) 感知机 - 给它们打一个分数 score(x,y) CRF - 与感知机同属于结构化学习家族,但性能比感知机强大 机器学习的模型谱系 ...
最新文章
- MindSpore技术理解(上)
- [BUUCTF-pwn]——bjdctf_2020_router
- 若川邀你进 源码共读 群~长期交流学习
- LeetCode 217. 存在重复元素(哈希)
- python中的super使用方法[探索4]
- 为什么不用mysql做数据仓库hdfs_为什么不建议将RAID用于Hadoop HDFS设置?
- 2022牛客寒假算法基础集训营4 签到题7题
- iconfont 图标宽高出问题_IconFont使用注意点
- 【STL记录】Containers--Lists
- 【渗透测试】编辑器漏洞
- 什么是埋点?我们为什么需要埋点?(原作者:知乎 原志Growing)
- 抖音云控系统领先品牌
- Photoshop脚本 批量生成Web切图
- 瑞典皇工学院计算机,瑞典规模最大的理工院校,皇家理工学院
- Web前端开发:HTML、CSS
- 爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评
- 【2309. 兼具大小写的最好英文字母】
- Android实现车辆检测(含Android源码 可实时运行)
- 26日pr更新 祝愿大家的站点更上一层楼
- 软件构件 API 在不同版本间的兼容性——读FSE 2012 best paper有感
热门文章
- Qt编写4K/8K大分辨率播放器(8K占用1%CPU)
- Web前端实践经验总结
- 响铃:云计算的时代 2.0的江湖 百度的新赛道战术
- Android拉取微信公众号列表,Xposed实时获取微信公众号推送
- win32 007
- 智慧零售2.0时代,容器云已成电商转型利器
- python爬虫常见报错_Python爬虫常见异常及解决办法
- 图解图库JanusGraph系列-一文知晓“图数据“底层存储结构(JanusGraph data model)
- Python进行表格拆分
- Chrome 图片批量下载扩展—— zzllrr Imager(小乐图客)