结巴分词关键词相似度_jieba+gensim 实现相似度

相似度

自然语言处理(NLP) : 大概意思就是让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥","你叫什么名字"是一个意思.

语义相似度:

pip install jieba

pip install gensim

jieba分词

# 将中文字符串进行分词

import jieba

key_word = "你叫什么名字" # 定义一句话,基于这句话进行分词

cut_word = jieba.cut(key_word) # 使用结巴分词中的cut方法对"你叫什么名字" 进行分词

print(cut_word) # 生成器

cut_word_list = list(cut_word) # 把生成器对象做成列表

print(cut_word_list) # ['你', '叫', '什么', '名字']

gensim 稀疏矩阵相似度

import jieba

import gensim

from gensim import corpora

from gensim import models

from gensim import similarities

l1 = ["你的名字是什么", "你今年几岁了", "你有多高你胸多大", "你胸多大"]

a = "你今年多大了"

all_doc_list = []

for doc in l1:

doc_list = [word for word in jieba.cut(doc)]

all_doc_list.append(doc_list)

print(all_doc_list)

doc_test_list = [word for word in jieba.cut(a)]

# 制作语料库

dictionary = corpora.Dictionary(all_doc_list) # 制作词袋

# 词袋的理解

# 词袋就是将很多很多的词,进行排列形成一个词(key) 与一个标志位(value) 的字典

# 例如: {'什么': 0, '你': 1, '名字': 2, '是': 3, '的': 4, '了': 5, '今年': 6, '几岁': 7, '多': 8, '有': 9, '胸多大': 10, '高': 11}

# 至于它是做什么用的,带着问题往下看

print("token2id", dictionary.token2id)

print("dictionary", dictionary, type(dictionary))

corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]

# 语料库:

# 这里是将all_doc_list 中的每一个列表中的词语与 dictionary 中的Key进行匹配

# 得到一个匹配后的结果,例如['你', '今年', '几岁', '了']

# 就可以得到 [(1, 1), (5, 1), (6, 1), (7, 1)]

# 1代表的的是你 1代表出现一次, 5代表的是了 1代表出现了一次, 以此类推 6 = 今年 , 7 = 几岁

print("corpus", corpus, type(corpus))

# 将需要寻找相似度的分词列表做成语料库 doc_test_vec

doc_test_vec = dictionary.doc2bow(doc_test_list)

print("doc_test_vec", doc_test_vec, type(doc_test_vec))

# 将corpus语料库(初识语料库) 使用Lsi模型进行训练

lsi = models.LsiModel(corpus)

# 这里的只是需要学习Lsi模型来了解的,这里不做阐述

print("lsi", lsi, type(lsi))

# 语料库corpus的训练结果

print("lsi[corpus]", lsi[corpus])

# 获得语料库doc_test_vec 在语料库corpus的训练结果中的向量表示

print("lsi[doc_test_vec]", lsi[doc_test_vec])

# 文本相似度

# 稀疏矩阵相似度将主语料库corpus的训练结果作为初始值

index = similarities.SparseMatrixSimilarity(lsi[corpus], num_features=len(dictionary.keys()))

print("index", index, type(index))

# 将语料库doc_test_vec 在语料库corpus的训练结果中的向量表示与语料库corpus的向量表示做矩阵相似度计算

sim = index[lsi[doc_test_vec]]

print("sim", sim, type(sim))

# 对下标和相似度结果进行一个排序,拿出相似度最高的结果

# cc = sorted(enumerate(sim), key=lambda item: item[1],reverse=True)

cc = sorted(enumerate(sim), key=lambda item: -item[1])

print(cc)

text = l1[cc[0][0]]

print(a,text)

结巴分词关键词相似度_jieba+gensim 实现相似度相关推荐

结巴分词关键词相似度_辨别标题党--提取关键词与比较相似度
最近好几天都没有更新博客,因为网络设置崩了,然后各种扎心,最后还重装电脑,而且还有一些软件需要重新安装或者配置,所以烦了好久,搞好电脑之后,老师又布置了一个任务,个人觉得很有趣--判别学校新闻是否是标 ...
jieba结巴分词--关键词抽取_jieba分词的原理（文末有维特比算法讲解）
前言实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
jieba结巴分词--关键词抽取_结巴中文分词原理分析2
作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...
结巴分词关键词相似度_中文文本相似度计算工具集
[磐创AI导读]:前两篇文章中我们介绍了一些机器学习不错的项目合集和深度学习入门资源合集,本篇文章将对中文文本相似度计算工具做一次汇总.喜欢我们文章的小伙伴,欢迎大家点击上方蓝字关注我们的公众号:磐创 ...
结巴分词关键词相似度_gensim和jieba分词进行主题分析，文本相似度
#coding=utf-8 importcodecsimportgensimimportjiebafrom gensim importcorpora,models,similaritiesfrom g ...
结巴分词关键词相似度_结巴分词5--关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽 ...
jieba结巴分词--关键词抽取_初学者 | 知否？知否？一文学会Jieba使用方法
欢迎关注同名微信公众号:AI小白入门.跟着博主的脚步,每天进步一点点哟我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来 ...
python关键词提取源码_Python 结巴分词关键词抽取分析
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键词这一项. ...
jieba结巴分词--关键词抽取（核心词抽取）
转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献 ...

结巴分词关键词相似度_jieba+gensim 实现相似度

结巴分词关键词相似度_jieba+gensim 实现相似度相关推荐

最新文章

热门文章