Windows下基于python3使用word2vec训练中文维基百科语料(三)
对前两篇获取到的词向量模型进行使用:
代码如下:
1 import gensim 2 model = gensim.models.Word2Vec.load('wiki.zh.text.model') 3 flag=1 4 while(flag): 5 word = input("Please input the key_word:\n") 6 if word in model: 7 print(model['word']) 8 # 词相似度 9 result = model.most_similar(word) 10 for e in result: 11 print(e[0], e[1]) 12 else: 13 print('单词不在字典中') 14 15 flag=int(input("do you want to input next(yes=1,no=0):\n")) 16 17 #计算两个单词相似度 18 print ("水杯和水瓶的相似度为:",model.similarity('水杯','水瓶')) 19 20 #模型还提供了一个方法,用于寻找离群词: 21 print (model.doesnt_match(u"早餐 晚餐 午餐 中心".split())) 22 #我们还可以根据给定的条件推断相似词,比如下面的代码中,我们找到一个跟篮球最相关,跟计算机很不相关的第一个词: 23 print (model.most_similar(positive=['篮球'],negative=['计算机'],topn=1))
输出结果:
(1)求“漂亮”的向量:
结果:
(2)输出“漂亮”的相似词,以及他们之间的相关度:
结果:
(3)输出“水杯”和“水瓶”之间的相似度:
结果:
(4)寻找“离群词”
结果:
(5)根据给定的条件推断相似词:
结果:
现在所有的工作就都结束啦!!!之后可以根据不同的要求来进行不同的应用啦!
转载于:https://www.cnblogs.com/gaofighting/p/9106485.html
Windows下基于python3使用word2vec训练中文维基百科语料(三)相关推荐
- Windows下基于python3使用word2vec训练中文维基百科语料资料汇总
Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...
- Windows下基于python3使用word2vec训练中文维基百科语料(一)
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...
- Word2vec训练中文维基百科
1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...
- NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...
- 中文维基百科语料上的Word2Vec实验
说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...
- 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...
- 使用中文维基百科训练word2vec模型
一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...
- 使用中文维基百科训练word2vec模型的最新方法!
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
- 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
最新文章
- SQLSTATE[HY000] [2003] Can’t connect to MySQL serv
- 项目: 用函数实现反弹球消砖块
- Join的加强版CountDownLatch
- 如何运行你的Android程序?
- mysql 测试快生产慢_生产上MySQL慢查询优化实战,SQL优化实战
- 通过setTimeout来取消因大量计算造成的网页卡顿
- python科学计算_可视化图解Python科学计算包NumPy
- DataGridView 设置行不可见时,与货币管理器的位置关联的行不能设置为不可见
- gitlab之 修改默认的仓库存储目录及数据迁移
- PAT 1089 狼人杀-简单版
- 自然语言理解gpt_GPT-3:自然语言处理的创造潜力
- MFC CListCtrl实现双击编辑
- 机器翻译 | 反向翻译 (back-translation) 笔记
- pixi.js 5.0_使用Pixi.js进行高级绘图
- Netezza向GBase 8a迁移总结
- 掌薪阁分享:一个人人可做,汇聚了全网不同层次的网赚项目!
- 鸿蒙系统翻车了,华为鸿蒙系统“翻车了”?被质疑抄袭安卓11系统,事实并非如此...
- 逻辑运算符:与,或,非,异或
- NRF24L01+双向通信
- 事件监听机制(一)Java事件监听
热门文章
- mysql tode_FAQ: MyDB Studio for MySQL
- python numpy 索引_Python numpy中布尔索引的问题。
- android 获取网卡mac_android 获取MAC地址
- 网络掩码和子网掩码区别?
- 牛客网 字符串的排列
- Windows10系统下PaddleOCR文本检测和文本识别安装
- 2020蓝桥杯校内模拟赛1-5(详细版本,看完就会)
- bzoj 3382: [Usaco2004 Open]Cave Cows 3 洞穴里的牛之三(切比雪夫距离)
- 后缀数组2.0--Height数组(bzoj 1717: [Usaco2006 Dec]Milk Patterns 产奶的模式)
- bzoj 1053: [HAOI2007]反素数ant 51nod-1060:最复杂的数(反素数与因数个数计算)