python scipy使用余弦定理求句子相似度
import jieba
import gensim
import numpy as np
from gensim import corpora
from scipy.spatial.distance import pdist
text1 = "我去玉龙雪山并且喜欢玉龙雪山玉龙雪山"
text2 = "我去玉龙雪山并且玉龙雪山玉龙雪山"
text_dict = [[word for word in jieba.cut(text1)]]+[[word for word in jieba.cut(text2)]]
dictionary = corpora.Dictionary(text_dict,prune_at=2000000)
bow1= dictionary.doc2bow(jieba.cut(text1))
print len(dictionary.keys())
# 5
numpy_X = gensim.matutils.corpus2dense([bow1],num_terms=len(dictionary.keys()),dtype=np.int).Tbow2= dictionary.doc2bow(jieba.cut(text2))
numpy_Y = gensim.matutils.corpus2dense([bow2],num_terms=len(dictionary.keys()),dtype=np.int).T# 也可以再加个标准化
from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(numpy_X[0])
pred_X_train = scaler.transform(numpy_X[0])
pred_X_test = scaler.transform(numpy_Y[0])sims=1-pdist([numpy_X[0],numpy_Y[0]],'cosine')
sims1=1-pdist([pred_X_train,pred_X_test],'cosine')
print sims
# [ 0.96076892]
print sims1
# [ 0.9]
python scipy使用余弦定理求句子相似度相关推荐
- 机器学习算法Python实现:word2vec 求词语相似度
#!/usr/bin/env Python3 # coding=utf-8 import jieba jieba.load_userdict("C:\\Users\\Desktop\\s_p ...
- python余弦定理求角_python余弦定理计算相似度
#-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...
- python余弦定理求第三边_python余弦定理计算相似度
#-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...
- python余弦定理_余弦定理与文本相似度
什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段.如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近.而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了 ...
- python根据词向量计算相似度_如何使用gensim的word2vec模型和python计算句子相似度...
如何使用gensim的word2vec模型和python计算句子相似度 根据Gensim Word2Vec,我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度. 例如 trai ...
- python根据词向量计算相似度_基于词向量的词语间离和句子相似度分析
基于词向量的词语间离和句子相似度分析 苟瀚文 1 苟先太 2 [摘 要] 分析了词向量在自然语言处理中的作用.使用已经训练好的词向量进 行了简单类比推理.词语间离和句子相似度分析.给出一种结合词向量和 ...
- NLP之句子相似度之入门篇
文章目录 1.基于统计的方法 1.1.编辑距离计算 1.2.杰卡德系数计算 1.3.TF 计算 1.4.TFIDF 计算 1.5.BM25 2.基于深度学习的方法 2.1.Word2Vec 计算 6. ...
- 句子相似度常见的计算方法
原文地址:静觅 » 自然语言处理中句子相似度计算的几种方法 在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候我们就需要把类似的句子归到一起,这里面就涉及到 ...
- pytorch 句子相似度
文章目录 1.根据向量 1.1 embedding层介绍 1.2 相似度计算 1.2.1 字面距离相似度度量 1.2.2 语义相似性 2. 一些简单方法 2.1 编辑距离 2.2 杰卡德系数计算 2. ...
最新文章
- Python数据类型中的字典-创建和基本操作
- jquery mobile自定义图标实现方法
- 1489 蜥蜴和地下室
- 7款Flash和Javascript网页视频播放器
- 适用于VS C++环境的注释代码段,可以让你的代码被使用时有高可读性的注释
- 华视读卡器多浏览器插件_翻遍Chrome商店,这9款插件值得安装
- Linux内存管理:NUMA技术详解(非一致内存访问架构)
- iOS 中关于 skip install
- osgi java web_在Tomcat中使用Java Web应用程序的OSGi软件包
- python str 索引_一步一步学Python3(小学生也适用) 第九篇: 字符串(str)类型(中)...
- python做积分计算器_PyQt5练习:积分计算器
- 贝叶斯网络分析kaggle泰坦尼克号数据
- 小学生python游戏编程6----碰边变颜色的小球
- 关于电的计算机公式,电能计算-电能的计算公式-电工基础 - 电工屋
- 工程测量(平面高程控制网)
- robots.txt文件信息泄漏
- 【交互设计】什么是微交互
- Xposed框架初次见面-开发自己的Xposed插件
- 计算机神奇的画图教学反思,《画图》信息技术教学反思
- 7、【WebGIS实战】专题篇——API key