GloVe 教程之实战入门+python gensim 词向量
make
就会多出来一个build文件夹
sh demo.sh
其中,可以再demo.sh里面,设置训练语料路径(默认是从网上下载一个语料,把这段删了,改成自己的语料路径就行了),还可以设置迭代次数,向量的维度等等,自己随便折腾就行了
# Demo: Loads the newly created glove_model.txt into gensim API.model=gensim.models.Word2Vec.load_word2vec_format(' vectors.txt',binary=False) #GloVe Model
def load(filename):# Input: GloVe Model File# More models can be downloaded from http://nlp.stanford.edu/projects/glove/# glove_file="glove.840B.300d.txt"glove_file = filenamedimensions = 300num_lines = getFileLineNums(filename)# num_lines = check_num_lines_in_glove(glove_file)# dims = int(dimensions[:-1])dims = 300print num_lines## # Output: Gensim Model text format.gensim_file='glove_model.txt'gensim_first_line = "{} {}".format(num_lines, dims)## # Prepends the line.if platform == "linux" or platform == "linux2":prepend_line(glove_file, gensim_file, gensim_first_line)else:prepend_slow(glove_file, gensim_file, gensim_first_line)# Demo: Loads the newly created glove_model.txt into gensim API.model=gensim.models.Word2Vec.load_word2vec_format(gensim_file,binary=False) #GloVe Modelmodel_name = filename[5:-4]model.save('model\\' + model_name)return model
def getFileLineNums(filename):f = open(filename,'r')count = 0for line in f:count += 1return count
def prepend_line(infile, outfile, line):"""Function use to prepend lines using bash utilities in Linux.(source: http://stackoverflow.com/a/10850588/610569)"""with open(infile, 'r') as old:with open(outfile, 'w') as new:new.write(str(line) + "\n")shutil.copyfileobj(old, new)def prepend_slow(infile, outfile, line):"""Slower way to prepend the line by re-creating the inputfile."""with open(infile, 'r') as fin:with open(outfile, 'w') as fout:fout.write(line + "\n")for line in fin:fout.write(line)
model = gensim.models.Word2Vec.load('model/'+model_name)
print len(model.vocab)
word_list = [u'发烧',u'流感']for word in word_list:print word,'--'for i in model.most_similar(word, topn=10):print i[0],i[1]print ''
结果如下
发烧 --
瘟疠 0.561131298542
多无发 0.438511788845
感冒 0.423784643412
寒战 0.41094905138
发冷 0.400202810764
肌肉酸痛 0.394035518169
畏寒 0.391746163368
头痛 0.390283048153
恶寒 0.387357711792
石岐 0.385719358921
流感 --
芭比 0.693880617619
嗜血 0.660785496235
H1N1 0.543790698051
肺炎 0.520848989487
流行性感冒 0.517322063446
副流感 0.51515519619
甲型 0.495822429657
肺炎球菌 0.491611480713
H10N8 0.490446418524
H3N2 0.486712753773
for i in w2v_model.most_similar(positive=['肺炎', '肺'], negative=['胃炎']):print i[0],i[1]
肺部 0.662135243416
通气 0.548550665379
肺泡 0.529182732105
肺气肿 0.525536477566
慢阻 0.512038588524
胸片 0.503533244133
萎陷 0.502206265926
肺透明膜病 0.498196214437
肺段 0.492621898651
GloVe 教程之实战入门+python gensim 词向量相关推荐
- Python和Java结合的项目实战_[项目实战] Python高级教程项目实战篇 Python和Java结合的项目实战 视频教程 [...
资源介绍 课程简介:xa0xa0 Python高级教程项目实战篇 Python和Java结合的项目实战 视频教程 教学视频 ----------------------课程目录 Python项目实战篇 ...
- [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算
从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了卷积神经网络CNN原理,并通过TensorFlow编写CNN实现了MNIST分类学习案例.本篇文章将分享 ...
- gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算 | CSDN博文精选
作者 | Eastmount 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 本篇文章将分享gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文 ...
- python基于词向量的古诗生成器
python基于词向量的古诗生成器 from gensim.models import Word2Vec # 词向量 from random import choice from os.path im ...
- python零基础入门教程-零基础入门Python爬虫不知道怎么学?这是入门的完整教程...
原标题:零基础入门Python爬虫不知道怎么学?这是入门的完整教程 这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑 ...
- 词向量python训练_python gensim 词向量训练笔记
记录词向量训练过程,备忘(系统ubuntu16.python2.7) 涵盖内容:python rar解压.大文件分解.HDF5文件操作.文本预处理(文本编码.分词处理).多进程.gensim操作. 1 ...
- 自然语言处理从入门到应用——词向量的评价方法
分类目录:<自然语言处理从入门到应用>总目录 对于不同的学习方法得到的词向量,通常可以根据其对词义相关性或者类比推理性的表达能力进行评价,这种方式属于内部任务评价方法(Intrinsic ...
- python生成词向量_词向量是如何生成的
终于开了NLP的坑了(`・д・´),这次聊聊词向量是怎样生成的.现在有很多现成的模型,cbow,skip-gram,glove等,在python不同的库里面就可以调用(比如fasttext,genis ...
- python 词向量_利用python实现词向量训练----
python的一堆工具包 https://www.lfd.uci.edu/~gohlke/pythonlibs/ ------------------------------------------- ...
最新文章
- crontab 备份mysql数据库_crontab定时备份mySQL数据库
- 【宝藏女孩】独行40国,风控女孩的环球之旅
- Ubuntu14.04下C++程序编辑、编译、运行
- 走近Flex组件系列(四):分组组件(Box)、分割组件(DividedBox)和容器组件(Panel)
- socket编程:简单TCP服务器/客户端编程
- 拓端tecdat|R语言空间可视化:绘制英国脱欧投票地图
- 现代优化算法 (一):模拟退火算法 及应用举例
- 将pdf转换成jpg图片
- Air720UGUH 极简封装 LTE Cat.1 bis 模块[合宙通信]
- 清除Mac电脑缓存的方法,非常实用哦
- 软件设计实战:基于Java的俄罗斯方块游戏【完整版】
- 服务器上的文件夹丢失怎么办,快速找回丢失文件夹选项的简单办法
- 项目实训第一周第三篇
- 手机Android存储性能优化架构分析
- 大数据毕业设计 LSTM时间序列预测算法 - 股票预测 天气预测 房价预测
- 计算方法(二):n次多项式插值
- 给每页ppt右下角设置相同的文字
- 技术胖的2019新版React全家桶免费视频(84集)
- debug 进阶 跳过反射以及aop
- 谷歌浏览器Chrome的由来
热门文章
- python爬虫爬今日头条_GitHub - striver-ing/headlines_today: 基于Python的爬取今日头条文章及视频...
- 磨刀不误砍柴工:优化你的工具AutoCAD2016,让运行速度更流畅
- 龙测科技携手TGO鲲鹏会举办同城学习活动,众圈内大佬齐聚,共探研究效能提升
- kubernetes 【CNI插件】Flannel使用详解
- LMT LicManager大幅提升Solidworks许可效率成效分析
- NC揭示:一种染料是​死亡帽菇(毒鹅膏)的解毒剂
- 《鲁迅全集》为何能成为传世之作?
- Docker部署redis
- xenserver pbd-plug 97错误
- Neo自我颠覆,升级后它的投票治理收益如何?|链捕手