即插即用demo系列——文本相似度比较

#coding=GBKfrom fuzzywuzzy import fuzz
from gensim import corpora, models, similarities   def similar(query, choices, coding='utf8'):'''文本相似度'''return [fuzz.token_sort_ratio(query.decode(coding), i.decode(coding), False) for i in choices]def similar2(query, choices, coding='utf8'):'''文本相似度比较'''texts = [[word for word in document.decode(coding).split()] for document in choices]dictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for text in texts]tfidf = models.TfidfModel(corpus)corpus_tfidf = tfidf[corpus]index = similarities.MatrixSimilarity(corpus_tfidf)vec_bow  = dictionary.doc2bow(query.decode(coding).split())vec_tfidf = tfidf[vec_bow]sims = index[vec_tfidf]similarity = [int(i * 100) for i in list(sims)]return similarityif __name__ == '__main__':print similar('测试 分词 fuzzy', ['分词 测试', '测试 分词     fuzzy', '今天 天气 很好', '没事 别 测试', 'NBA 篮球 好玩'], coding='gbk')print similar2('测试 分词 fuzzy', ['分词 测试', '测试 分词    fuzzy', '今天 天气 很好', '没事 别 测试', 'NBA 篮球 好玩'], coding='gbk')

打印两个结果

[63, 100, 21, 44, 20]
[54, 100, 0, 5, 0]

数字越大，相似度越大。100的时候，说明完全相同

即插即用demo系列——文本相似度比较相关推荐

基于文本相似度算法，分析 Vue 是抄出来的框架吗？
本周一篇指摘 Vue 抄袭 Angular 的文章一石激起千层浪.为此,笔者作为中立吃瓜的 React 用户,分析了 13 个主流前端框架版本上万个变量的命名风格,应用自然语言处理中的文本相似度算法进 ...
Google开源word2vec，文本相似度计算工具
Google开源word2vec,文本相似度计算工具谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具--word2v ...
【NLP实战】基于ALBERT的文本相似度计算
实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏推出了实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. ALBERT是一个比BERT要轻量,效果更好的模型,本篇 ...
python jieba 文本相似度_文本相似度分析（基于jieba和gensim）
##基础概念本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensi ...
文本相似度-相似度度量
NLP点滴--文本相似度目录前言字面距离 common lang库相同字符数莱文斯坦距离(编辑距离) 定义实现方式 Jaro距离定义实现方式应用 SimHash 定义基本流程相似 ...
中文文本相似度计算工具集
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 一.基本工具集 1.分词工具 a.jieba 结巴中文分词 htt ...
python专业方向 | 文本相似度计算
作者系浙江大学生物医学工程专业的硕士在读:专注于自然语言处理 iOS开发. 步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 5.计算相似度 ...
最准的中文文本相似度计算工具
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx text2vec, chinese text to vetor.(文本向量化表示工具,包括词向 ...
文本相似度计算 python去停用词_python专业方向 | 文本相似度计算
欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

即插即用demo系列——文本相似度比较

即插即用demo系列——文本相似度比较相关推荐

最新文章

热门文章