import jieba
import gensim
import numpy as np
from gensim import corpora
from scipy.spatial.distance import pdist
text1 = "我去玉龙雪山并且喜欢玉龙雪山玉龙雪山"
text2 = "我去玉龙雪山并且玉龙雪山玉龙雪山"
text_dict = [[word for word in jieba.cut(text1)]]+[[word for word in jieba.cut(text2)]]
dictionary = corpora.Dictionary(text_dict,prune_at=2000000)
bow1= dictionary.doc2bow(jieba.cut(text1))
print len(dictionary.keys())
# 5
numpy_X = gensim.matutils.corpus2dense([bow1],num_terms=len(dictionary.keys()),dtype=np.int).Tbow2= dictionary.doc2bow(jieba.cut(text2))
numpy_Y = gensim.matutils.corpus2dense([bow2],num_terms=len(dictionary.keys()),dtype=np.int).T# 也可以再加个标准化
from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(numpy_X[0])
pred_X_train = scaler.transform(numpy_X[0])
pred_X_test = scaler.transform(numpy_Y[0])sims=1-pdist([numpy_X[0],numpy_Y[0]],'cosine')
sims1=1-pdist([pred_X_train,pred_X_test],'cosine')
print sims
# [ 0.96076892]
print sims1
# [ 0.9]

python scipy使用余弦定理求句子相似度相关推荐

  1. 机器学习算法Python实现:word2vec 求词语相似度

    #!/usr/bin/env Python3 # coding=utf-8 import jieba jieba.load_userdict("C:\\Users\\Desktop\\s_p ...

  2. python余弦定理求角_python余弦定理计算相似度

    #-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...

  3. python余弦定理求第三边_python余弦定理计算相似度

    #-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...

  4. python余弦定理_余弦定理与文本相似度

    什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段.如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近.而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了 ...

  5. python根据词向量计算相似度_如何使用gensim的word2vec模型和python计算句子相似度...

    如何使用gensim的word2vec模型和python计算句子相似度 根据Gensim Word2Vec,我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度. 例如 trai ...

  6. python根据词向量计算相似度_基于词向量的词语间离和句子相似度分析

    基于词向量的词语间离和句子相似度分析 苟瀚文 1 苟先太 2 [摘 要] 分析了词向量在自然语言处理中的作用.使用已经训练好的词向量进 行了简单类比推理.词语间离和句子相似度分析.给出一种结合词向量和 ...

  7. NLP之句子相似度之入门篇

    文章目录 1.基于统计的方法 1.1.编辑距离计算 1.2.杰卡德系数计算 1.3.TF 计算 1.4.TFIDF 计算 1.5.BM25 2.基于深度学习的方法 2.1.Word2Vec 计算 6. ...

  8. 句子相似度常见的计算方法

    原文地址:静觅 » 自然语言处理中句子相似度计算的几种方法 在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候我们就需要把类似的句子归到一起,这里面就涉及到 ...

  9. pytorch 句子相似度

    文章目录 1.根据向量 1.1 embedding层介绍 1.2 相似度计算 1.2.1 字面距离相似度度量 1.2.2 语义相似性 2. 一些简单方法 2.1 编辑距离 2.2 杰卡德系数计算 2. ...

最新文章

  1. Python数据类型中的字典-创建和基本操作
  2. jquery mobile自定义图标实现方法
  3. 1489 蜥蜴和地下室
  4. 7款Flash和Javascript网页视频播放器
  5. 适用于VS C++环境的注释代码段,可以让你的代码被使用时有高可读性的注释
  6. 华视读卡器多浏览器插件_翻遍Chrome商店,这9款插件值得安装
  7. Linux内存管理:NUMA技术详解(非一致内存访问架构)
  8. iOS 中关于 skip install
  9. osgi java web_在Tomcat中使用Java Web应用程序的OSGi软件包
  10. python str 索引_一步一步学Python3(小学生也适用) 第九篇: 字符串(str)类型(中)...
  11. python做积分计算器_PyQt5练习:积分计算器
  12. 贝叶斯网络分析kaggle泰坦尼克号数据
  13. 小学生python游戏编程6----碰边变颜色的小球
  14. 关于电的计算机公式,电能计算-电能的计算公式-电工基础 - 电工屋
  15. 工程测量(平面高程控制网)
  16. robots.txt文件信息泄漏
  17. 【交互设计】什么是微交互
  18. Xposed框架初次见面-开发自己的Xposed插件
  19. 计算机神奇的画图教学反思,《画图》信息技术教学反思
  20. 7、【WebGIS实战】专题篇——API key

热门文章

  1. DOC2CHM的使用及解决中文乱码以及图片模糊处理
  2. 加密办公文档:保护本地文件
  3. Java实现第八届蓝桥杯魔方状态
  4. IDC:2020年中国云计算市场十大预测
  5. 微信接收的视频打不开?改个后缀名就能打开,你不会才知道吧
  6. 基于PandO MPPT的光伏阵列系统simulink仿真包括VSC控制器,PandO MPPT以及Utility电网
  7. 如何让你的 Android 显示gif格式的图片
  8. Oracle CX云位居Forrester领导者象限第一
  9. CSS七种常用居中方式
  10. 基于JAVA机票实时比价系统计算机毕业设计源码+数据库+lw文档+系统+部署