#coding=GBKfrom fuzzywuzzy import fuzz
from gensim import corpora, models, similarities   def similar(query, choices, coding='utf8'):'''文本相似度'''return [fuzz.token_sort_ratio(query.decode(coding), i.decode(coding), False) for i in choices]def similar2(query, choices, coding='utf8'):'''文本相似度比较'''texts = [[word for word in document.decode(coding).split()] for document in choices]dictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for text in texts]tfidf = models.TfidfModel(corpus)corpus_tfidf = tfidf[corpus]index = similarities.MatrixSimilarity(corpus_tfidf)vec_bow  = dictionary.doc2bow(query.decode(coding).split())vec_tfidf = tfidf[vec_bow]sims = index[vec_tfidf]similarity = [int(i * 100) for i in list(sims)]return similarityif __name__ == '__main__':print similar('测试 分词 fuzzy', ['分词 测试', '测试 分词     fuzzy', '今天 天气 很好', '没事 别 测试', 'NBA 篮球 好玩'], coding='gbk')print similar2('测试 分词 fuzzy', ['分词 测试', '测试 分词    fuzzy', '今天 天气 很好', '没事 别 测试', 'NBA 篮球 好玩'], coding='gbk')

打印两个结果

[63, 100, 21, 44, 20]
[54, 100, 0, 5, 0]

数字越大,相似度越大。100的时候,说明完全相同

即插即用demo系列——文本相似度比较相关推荐

  1. 基于文本相似度算法,分析 Vue 是抄出来的框架吗?

    本周一篇指摘 Vue 抄袭 Angular 的文章一石激起千层浪.为此,笔者作为中立吃瓜的 React 用户,分析了 13 个主流前端框架版本上万个变量的命名风格,应用自然语言处理中的文本相似度算法进 ...

  2. Google开源word2vec,文本相似度计算工具

    Google开源word2vec,文本相似度计算工具 谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具--word2v ...

  3. 【NLP实战】基于ALBERT的文本相似度计算

    实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏推出了实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. ALBERT是一个比BERT要轻量,效果更好的模型,本篇 ...

  4. python jieba 文本相似度_文本相似度分析(基于jieba和gensim)

    ##基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensi ...

  5. 文本相似度-相似度度量

    NLP点滴--文本相似度 目录 前言 字面距离 common lang库 相同字符数 莱文斯坦距离(编辑距离) 定义 实现方式 Jaro距离 定义 实现方式 应用 SimHash 定义 基本流程 相似 ...

  6. 中文文本相似度计算工具集

    欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 一.基本工具集 1.分词工具 a.jieba 结巴中文分词 htt ...

  7. python专业方向 | 文本相似度计算

    作者系浙江大学生物医学工程专业的硕士在读:专注于自然语言处理 iOS开发. 步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 5.计算相似度 ...

  8. 最准的中文文本相似度计算工具

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx text2vec, chinese text to vetor.(文本向量化表示工具,包括词向 ...

  9. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

最新文章

  1. 联想一体机用u盘装linux教程,联想ThinkCentre一体机如何u盘装系统教程
  2. 手动增加swap空间
  3. 如何使用参数调用SAP UI5的bingAggregation
  4. 你真的确定Spring AOP的执行顺序吗
  5. EasyUI动画效果
  6. String与StringBuilder区别总结
  7. Ubuntu 16.zabbixserver服务报错: Assuming that agent dropped connection because of access permissions.
  8. jquery设置表单元素只读_jQuery为文本框添加只读属性readOnly
  9. Julia的Dates库是重要和必要的补充!
  10. 【这是程序设计基础的50道题目】
  11. JMeter做http接口功能测试
  12. “绿水青山就是金山银山”
  13. python制作购物秒杀脚本,以淘宝秒杀脚本为例!
  14. 【论文 CCF C】Multi-DQN: An ensemble of Deep Q-learning agents for stock market forecasting
  15. SQL_数据库表的操作
  16. 【Mathtype】安装Mathtype后,word无法粘贴的问题
  17. 前端基础(13):CSS3新增属性和选择器
  18. OWASP ZAP安全测试工具使用教程(初级)
  19. Spark系列之Spark体系架构
  20. 热烈欢呼天宫一号与神八首次交会对接成功!

热门文章

  1. 如何写一份优秀的微信营销方案
  2. 程序设计训练课程设计
  3. springboot+vue网上学生评教系统java
  4. 数据库身份证号用什么类型_【文末送书】MySQL数据库?看这一篇干货文章就够了!...
  5. debian之网易云音乐的安装
  6. 高权重淘宝标题关键词优化原理解析
  7. [bzoj4094]Optimal Milking
  8. freeswitch系列31注册流程
  9. [ZT]:fancy设置latex页眉页脚
  10. cPanel里的 Addon Domain/Subdomains/Parked domain 区别