计算多个文档之间的文本相似程度

首先我们上代码：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
'UNC played Duke in basketball',
'Duke lost the basketball game',
'I ate a sandwich'
]
vectorizer = CountVectorizer(binary=True,stop_words='english')#设置停用词为英语，这样就会过滤掉
#过滤掉a an the 等不必要的冠词，同时设定英语里的同种词的形式，单复数，过去式等为同样的词语
print(vectorizer.fit_transform(corpus).todense())
print(vectorizer.vocabulary_)

输出：

[[0 1 1 0 0 1 0 1][0 1 1 1 1 0 0 0][1 0 0 0 0 0 1 0]]
{'unc': 7, 'played': 5, 'duke': 2, 'basketball': 1, 'lost': 4, 'game': 3, 'ate': 0, 'sandwich': 6}

　前面三行的矩阵只有0和1两个值，每一个矩阵都有8个0或者1，这里说明了我们的词库当中一共有8个不同的英语词汇，由于之前我们使用了代码：

vectorizer = CountVectorizer(binary=True,stop_words='english')#设置停用词为英语，这样就会过滤掉
#过滤掉a an the 等不必要的冠词，同时设定英语里的同种词的形式，单复数，过去式等为同样的词语

因此我们已经过滤掉了a an tne 这种英语里的冠词，每一个名次的单复数，动词的过去，过去完成时等词，比如说我们的play和played计算机就会默认为是同一个词了，真的神奇。

后面的输出0和1表示了所有词库当中的某一个词是否出现，我们所有的词汇的所对应的数值已经计算出：

{'unc': 7, 'played': 5, 'duke': 2, 'basketball': 1, 'lost': 4, 'game': 3, 'ate': 0, 'sandwich': 6}

　在每一句话当中，出现就记为1，不出现则记为0，这就是上述矩阵的含义了。最后我们通过sklearn库当中的函数来计算这三个句子特征向量的欧式距离，其实就是把我们的矩阵拿来计算，计算的公式如下：

代码如下：

from sklearn.metrics.pairwise import euclidean_distances
counts = vectorizer.fit_transform(corpus).todense()
for x,y in [[0,1],[0,2],[1,2]]:dist = euclidean_distances(counts[x],counts[y])print('文档{}与文档{}的距离{}'.format(x,y,dist))

因此我们有输出：

文档0与文档1的距离[[2.]]
文档0与文档2的距离[[2.44948974]]
文档1与文档2的距离[[2.44948974]]

　说明文档2和文档1、0的相似程度是一样的。

转载于:https://www.cnblogs.com/geeksongs/p/11189136.html

计算多个文档之间的文本相似程度相关推荐

文档词频矩阵_如何通过词向量技术来计算 2 个文档的相似度？
作者:吴俣https://www.zhihu.com/question/33952003/answer/135089460 Deep Learning 派系:(1)最简单的就是两个句子分别过一个CNN ...
【Python】导出docx格式Word文档中的文本、图片和附件等
[Python]导出docx格式Word文档中的文本.图片和附件等零.需求为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...
微软文本检索_如何在Microsoft Word中引用其他文档中的文本
微软文本检索 You probably have some text that you type often in your Word documents, such as addresses. In ...
将PDF和Gutenberg文档格式转换为文本：生产中的自然语言处理
Estimates state that 70%–85% of the world's data is text (unstructured data). Most of the English an ...
Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社教材封面: 全国各地新华书店有售京东购买链接: 配套资源:教学大纲 ...
Word处理控件Aspose.Words功能演示：用Java从Word文档中提取文本
Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...
Java版Word开发工具Aspose.Words功能解析：查找和替换Word文档中的文本
MS Word提供了一种简单的方法来查找和替换文档中的文本.查找和替换文本的一种流行用例之一可能是在文档之间的敏感信息在各个实体之间共享之前,对其进行删除或替换.但是,手动过程可能需要您安装MS Wo ...
使用pymupdf获取pdf文档中的文本下划线信息（全网唯一解决方案）
1,问题描述最近,公司需要对一批pdf文档进行解析,获取其中文字,并再展示到前端页面上.如果单纯地提取文字,其实非常容易,但麻烦的在于保存原有文档中的文本格式,例如加粗.斜体.下划线,以及三者的各种 ...
控制 Open XML WordprocessingML 文档中的文本
简介在 Open XML 字处理文档中处理文本的过程看起来非常简单:文档中包含正文,正文包含段落和表格,表格中包含行和单元格,完全类似于 HTML,不是吗?然后再看,又好像很难.您会看到修订跟 ...

计算多个文档之间的文本相似程度

计算多个文档之间的文本相似程度相关推荐

最新文章

热门文章