#!/usr/bin/env Python3
# coding=utf-8
import jieba
jieba.load_userdict("C:\\Users\\Desktop\\s_proj\\dict.txt")  #自定义分词词典#分词并将结果存入txt
f1 =open("C:\\Users\\Desktop\\neg.txt","r",encoding='utf-8',errors='ignore')
f2 =open("C:\\Users\\Desktop\\car_fenci.txt", 'w',encoding='utf-8',errors='ignore')
lines =f1.readlines()  # 读取全部内容
w=''
for line in lines:line.replace('\t', '').replace('\n', '').replace(' ','')seg_list = jieba.cut(line, cut_all=False)f2.write(" ".join(seg_list))
f1.close()
f2.close()from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)#训练word2vec模型
sentences=word2vec.Text8Corpus(u"C:\\Users\\Desktop\\car_fenci.txt")
model =word2vec.Word2Vec(sentences,size=400, window=10, min_count=1)  #训练skip-gram模型,默认window=5
print (model)#保存模型
model.save("model_word")
# 以一种C语言可以解析的形式存储词向量
model.wv.save_word2vec_format("model_word.bin", binary=True)
if __name__ == "__main__":  pass  #打开要计算相似度的2个文本
f3 =open(r"C:\Users\Desktop\s_proj\keyword.txt","r",encoding='utf-8',errors='ignore')
f4=open(r"C:\Users\Desktop\s_proj\c.txt","r",encoding='utf-8',errors='ignore')#要计算的2个文本预处理
f=[]
ff=[]
for i in f3.readlines():i=i.replace('\n','')f.append(i)for j in f4.readlines():j=j.replace('\n','')ff.append(j) #相似度计算
for ii in f:for jj in ff:try:y1 = model.wv.similarity(ii, jj)  print (ii+' '+jj,y1) except:print (ii+' '+jj,0) 

机器学习算法Python实现:word2vec 求词语相似度相关推荐

  1. Python基于word2vec的词语相似度计算

     词语相似度计算 在商品搜索的过程中,可以计算用户输入的关键字与数据库中商品名间的相似度,在商品数据库中找出相似度最大的商品,推荐给用户.比如"凳子"跟"椅子" ...

  2. 决策算法python_GitHub - nxety/MachineLearning_Python: 机器学习算法python实现

    机器学习算法Python实现 目录 1.代价函数 其中: 下面就是要求出theta,使代价最小,即代表我们拟合出来的方程距离真实值最近 共有m条数据,其中代表我们要拟合出来的方程到真实值距离的平方,平 ...

  3. 机器学习算法 | Python实现k-近邻算法

    机器学习算法 | Python实现k-近邻算法 目录 机器学习算法 | Python实现k-近邻算法 基本介绍 工作原理 程序设计 参考资料 基本介绍 KNN,全名k近邻算法.是⼀种⾮常简单有效的机器 ...

  4. Apriori算法python实现(可调节支持度与置信度)

    Apriori算法python实现(可调节支持度与置信度) 前言 完整代码 前言 看到网上的Apriori算法代码大多都没有添加置信度进行筛选,因此我自己写了一个 完整代码 import iterto ...

  5. 【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

    1.背景 决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM  (the IEEE International Conference o ...

  6. 机器学习算法Python实现:tfidf 特征词提取及文本相似度分类

    # coding: utf-8 #本代码主要实现了对于商品名称根据tfidf提取特征词,然后基于已经训练好的word2vec模型,对每行商品的tfidf值大于某一阈值的特征词相似度匹配已经给定的商品类 ...

  7. 机器学习算法实现解析——word2vec源码解析

    在wrod2vec工具中,有如下的几个比较重要的概念: CBOW Skip-Gram Hierarchical Softmax Negative Sampling 其中CBOW和Skip-Gram是w ...

  8. 【机器学习算法-python实现】PCA 主成分分析、降维

    1.背景 PCA(Principal Component Analysis),PAC的作用主要是降低数据集的维度,然后挑选出主要的特征. PCA的主要思想是移动坐标轴,找到方差最大的方向上的特征值,什 ...

  9. 【机器学习算法-python实现】采样算法的简单实现

    1.背景     采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样).常用的采样算法有以下几种(来自百度知道): 一.单纯随机抽样(simple random sampling)将调查总体 ...

最新文章

  1. Python表白代码:“ 星光月夜烟花 皆归你,我也归你”
  2. 你真的了解For循环吗?一道For循环Java面试题引发的思考
  3. 如何开好一个 OKR 评审会议?
  4. hankel--生成Hankel矩阵
  5. zabbix2.2安装配置(1)
  6. ng-template 使用过程中默认参数不能按照期望工作的问题单步调试
  7. Java网络编程从入门到精通(7):用getHostAddress方法获得IP地址
  8. if命令在HTML语言中 隐藏部分内容,vuejs使用v-if隐藏不需要的内容,生成的html标签中有!-----,请问怎样去掉这些注释?...
  9. Linux top 使用技巧
  10. yolov3 指定gpu_干货|手把手教你在NCS2上部署yolov3-tiny检测模型
  11. 关于HRESULT判断的宏(SUCCEEDED/FAILED)
  12. 台电p10hd拆解_台电X19HD玩家拆机报告
  13. Litestar4D道路照明设计
  14. 信号计算机联锁试题,计算机联锁试题.doc
  15. 如何判断一个三位数是否为水仙花数
  16. Python菜鸟教程第二十课之初识Django
  17. Unity漫反射 镜面反射
  18. qq2007服务器中断,自动重启pubwin2007服务器脚本
  19. 学会这样用Excel,你也可以月薪三万!
  20. Mac 上设置显示器相关参数介绍

热门文章

  1. 服务器里怎么维修装备,教你在服务器加自己的装备
  2. tomcat日志、控制台乱码
  3. 计算机网络王小茹,计算机网络(王小茹)3.pdf
  4. java事件的接收_spring发布和接收定制的事件(spring事件传播)
  5. CreateMainWindow 创建主窗口属性
  6. pythonshell画图_Python3使用plotly模块保存图片与shell下生成表格
  7. 基于python的随机森林回归实现_PYTHON | 随机森林实战(代码+详解)
  8. 病案编码员需要计算机的什么知识,如何成为一名优秀的病案编码员?
  9. cascader 动态加载 回显_Elementui cascader 级联选择器 动态加载数据,保存后回显的问题...
  10. sqlite like concat 怎么 替代_Joplin:真正的 Evernote 开源替代品