机器学习算法Python实现:word2vec 求词语相似度
#!/usr/bin/env Python3
# coding=utf-8
import jieba
jieba.load_userdict("C:\\Users\\Desktop\\s_proj\\dict.txt") #自定义分词词典#分词并将结果存入txt
f1 =open("C:\\Users\\Desktop\\neg.txt","r",encoding='utf-8',errors='ignore')
f2 =open("C:\\Users\\Desktop\\car_fenci.txt", 'w',encoding='utf-8',errors='ignore')
lines =f1.readlines() # 读取全部内容
w=''
for line in lines:line.replace('\t', '').replace('\n', '').replace(' ','')seg_list = jieba.cut(line, cut_all=False)f2.write(" ".join(seg_list))
f1.close()
f2.close()from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)#训练word2vec模型
sentences=word2vec.Text8Corpus(u"C:\\Users\\Desktop\\car_fenci.txt")
model =word2vec.Word2Vec(sentences,size=400, window=10, min_count=1) #训练skip-gram模型,默认window=5
print (model)#保存模型
model.save("model_word")
# 以一种C语言可以解析的形式存储词向量
model.wv.save_word2vec_format("model_word.bin", binary=True)
if __name__ == "__main__": pass #打开要计算相似度的2个文本
f3 =open(r"C:\Users\Desktop\s_proj\keyword.txt","r",encoding='utf-8',errors='ignore')
f4=open(r"C:\Users\Desktop\s_proj\c.txt","r",encoding='utf-8',errors='ignore')#要计算的2个文本预处理
f=[]
ff=[]
for i in f3.readlines():i=i.replace('\n','')f.append(i)for j in f4.readlines():j=j.replace('\n','')ff.append(j) #相似度计算
for ii in f:for jj in ff:try:y1 = model.wv.similarity(ii, jj) print (ii+' '+jj,y1) except:print (ii+' '+jj,0)
机器学习算法Python实现:word2vec 求词语相似度相关推荐
- Python基于word2vec的词语相似度计算
词语相似度计算 在商品搜索的过程中,可以计算用户输入的关键字与数据库中商品名间的相似度,在商品数据库中找出相似度最大的商品,推荐给用户.比如"凳子"跟"椅子" ...
- 决策算法python_GitHub - nxety/MachineLearning_Python: 机器学习算法python实现
机器学习算法Python实现 目录 1.代价函数 其中: 下面就是要求出theta,使代价最小,即代表我们拟合出来的方程距离真实值最近 共有m条数据,其中代表我们要拟合出来的方程到真实值距离的平方,平 ...
- 机器学习算法 | Python实现k-近邻算法
机器学习算法 | Python实现k-近邻算法 目录 机器学习算法 | Python实现k-近邻算法 基本介绍 工作原理 程序设计 参考资料 基本介绍 KNN,全名k近邻算法.是⼀种⾮常简单有效的机器 ...
- Apriori算法python实现(可调节支持度与置信度)
Apriori算法python实现(可调节支持度与置信度) 前言 完整代码 前言 看到网上的Apriori算法代码大多都没有添加置信度进行筛选,因此我自己写了一个 完整代码 import iterto ...
- 【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
1.背景 决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference o ...
- 机器学习算法Python实现:tfidf 特征词提取及文本相似度分类
# coding: utf-8 #本代码主要实现了对于商品名称根据tfidf提取特征词,然后基于已经训练好的word2vec模型,对每行商品的tfidf值大于某一阈值的特征词相似度匹配已经给定的商品类 ...
- 机器学习算法实现解析——word2vec源码解析
在wrod2vec工具中,有如下的几个比较重要的概念: CBOW Skip-Gram Hierarchical Softmax Negative Sampling 其中CBOW和Skip-Gram是w ...
- 【机器学习算法-python实现】PCA 主成分分析、降维
1.背景 PCA(Principal Component Analysis),PAC的作用主要是降低数据集的维度,然后挑选出主要的特征. PCA的主要思想是移动坐标轴,找到方差最大的方向上的特征值,什 ...
- 【机器学习算法-python实现】采样算法的简单实现
1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样).常用的采样算法有以下几种(来自百度知道): 一.单纯随机抽样(simple random sampling)将调查总体 ...
最新文章
- Python表白代码:“ 星光月夜烟花 皆归你,我也归你”
- 你真的了解For循环吗?一道For循环Java面试题引发的思考
- 如何开好一个 OKR 评审会议?
- hankel--生成Hankel矩阵
- zabbix2.2安装配置(1)
- ng-template 使用过程中默认参数不能按照期望工作的问题单步调试
- Java网络编程从入门到精通(7):用getHostAddress方法获得IP地址
- if命令在HTML语言中 隐藏部分内容,vuejs使用v-if隐藏不需要的内容,生成的html标签中有!-----,请问怎样去掉这些注释?...
- Linux top 使用技巧
- yolov3 指定gpu_干货|手把手教你在NCS2上部署yolov3-tiny检测模型
- 关于HRESULT判断的宏(SUCCEEDED/FAILED)
- 台电p10hd拆解_台电X19HD玩家拆机报告
- Litestar4D道路照明设计
- 信号计算机联锁试题,计算机联锁试题.doc
- 如何判断一个三位数是否为水仙花数
- Python菜鸟教程第二十课之初识Django
- Unity漫反射 镜面反射
- qq2007服务器中断,自动重启pubwin2007服务器脚本
- 学会这样用Excel,你也可以月薪三万!
- Mac 上设置显示器相关参数介绍
热门文章
- 服务器里怎么维修装备,教你在服务器加自己的装备
- tomcat日志、控制台乱码
- 计算机网络王小茹,计算机网络(王小茹)3.pdf
- java事件的接收_spring发布和接收定制的事件(spring事件传播)
- CreateMainWindow 创建主窗口属性
- pythonshell画图_Python3使用plotly模块保存图片与shell下生成表格
- 基于python的随机森林回归实现_PYTHON | 随机森林实战(代码+详解)
- 病案编码员需要计算机的什么知识,如何成为一名优秀的病案编码员?
- cascader 动态加载 回显_Elementui cascader 级联选择器 动态加载数据,保存后回显的问题...
- sqlite like concat 怎么 替代_Joplin:真正的 Evernote 开源替代品