sklearn 相似度矩阵_利用sklearn计算文本相似性

标签：

利用sklearn计算文本相似性，并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。

#!/usr/bin/python

# -*- coding: utf-8 -*-

import numpy

import os

import sys

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

reload(sys)

#sys.setdefaultencoding(‘utf8‘)了网易杭研大厦","小明硕士毕业与中国科学院","我爱北京天安门"]

trainfile = open("C:\\Users\\hd\\Desktop\\docs.txt","r") #不同的documents用换行符隔开

traincorpus = trainfile.readlines()

#corpus=["我来到北京清华大学","我他来到

trainfile.close()

corpus = traincorpus;

vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频

tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, #max_features=n_features,

stop_words=‘english‘)

transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值

tfidf=transformer.fit_transform(tfidf_vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵

word=tfidf_vectorizer.get_feature_names()#获取词袋模型中的所有词语

weight=tfidf.toarray()#将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重

f = open("C:\\Users\\hd\\Desktop\\tif.txt","w+")

for i in range(len(weight)):#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重

# print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"

f.write(str(i+1)+"\t")

for j in range(len(word)):

if(weight[i][j]>0): f.write(str(j+1) + ":" + str(weight[i][j]) + " ")

f.write("\n")

print i

f.close()

f = open("C:\\Users\\hd\\Desktop\\dictionary.txt","w+")

for i in range(len(word)):

f.write(str(i) + "\t" + word[i].encode("utf-8") + "\n")

f.close()

SimMatrix = (tfidf * tfidf.T).A

print SimMatrix[1,3] #"第一篇与第4篇的相似度"

numpy.savetxt("C:\\Users\\hd\\Desktop\\SimMatrix.csv", SimMatrix, delimiter=",") #保存相似度矩阵

标签：

sklearn 相似度矩阵_利用sklearn计算文本相似性相关推荐

sklearn 相似度矩阵_精简易懂，30 分钟学会 SVD 矩阵分解，很强！
SVD(Singular Value Decomposition)奇异值分解分解是机器学习中最重要的矩阵分解方法. 它能够将一个任意形状的矩阵分解成一个正交矩阵和一个对角矩阵以及另一个正交矩阵的乘积. ...
深度学习实战-词嵌入计算文本相似性
使用词嵌入计算文本相似性文章目录使用词嵌入计算文本相似性简介词嵌入预训练词嵌入查看文本相似性 Word2vec的数学特性可视化词嵌入词嵌入中发现实体类类内部语义距离可视化国家数据补 ...
python ks值计算_利用Python计算KS的实例详解
在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布.好的信用风控模型一般从准确性.稳定性和可解释性来评估模型.sOf免费资源网一般来说.好人样本的分布同坏人样本的分布应该是有很 ...
python 文本相似度计算函数_四种计算文本相似度的方法对比
作者:Yves Peirsman 编译:Bing 编者按:本文作者为Yves Peirsman,是NLP领域的专家.在这篇博文中,作者比较了各种计算句子相似度的方法,并了解它们是如何操作的.词嵌入(w ...
微带线特性阻抗计算公式_利用HFSS计算微带线的特性阻抗
系别电子工程系课程名称 <微波技术与天线>实验班级实验名称利用 HFSS 计算微带线的特性阻抗姓名实验时间学号指导教师报告内容一.实验目的和任务 1 .了解微带 ...
两个list取交集_利用jieba计算两个句子的相似度
1.余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度.余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间. # -*- coding: utf-8 -*- ...
sklearn实现lda模型_运用sklearn进行线性判别分析(LDA)代码实现
基于sklearn的线性判别分析(LDA)代码实现一.前言及回顾本文记录使用sklearn库实现有监督的数据降维技术--线性判别分析(LDA).在上一篇LDA线性判别分析原理及python应用(葡 ...
在python中股票的收盘价如何表示_利用python计算股票涨跌幅
作为一个python新手,在学习中遇到很多问题,要善于运用各种方法.今天,在学习中,碰到了如何通过收盘价计算股票的涨跌幅. 第一种: 读取数据并建立函数: import numpy as np imp ...
python 句子相似度库_利用python语句的word2vec查找两个句子之间的相似度
我想用word2vectors计算两个句子之间的相似度,我试图得到一个句子向量的向量,这样我就可以计算出一个句子向量的平均值来找到余弦相似度.我试过这个代码,但它不起作用.它给出的输出是带有一的句子向 ...
python计算身体质量指数_利用Python计算身体质量指数BMI来判断体型
身体质量指数BMI:对身体质量的刻画(Body Mass Index) 国际上常用的衡量人体肥胖和健康程度的重要标准,主要用于统计分析. 定义: 有上图考虑BMI的值的结果因国内和国外的标准不同而不同 ...

sklearn 相似度矩阵_利用sklearn计算文本相似性

sklearn 相似度矩阵_利用sklearn计算文本相似性相关推荐

最新文章

热门文章