比较一篇文章和其它文章的相似度,可以拆解为以下几个步骤。

1、定义:如何认定两篇文章具有相似性?

a)有若干相同的单词或者关键词主题词。

b)有若干相同的句子。

c)有若干相同的段落。

2、设计算法和系数:需要根据测试数据和经验来设定计算公式,首先我们可以假设。

a)假设主题词的相似度占整篇文章相似度的比重为20%,即0.2 *a

b)假设句子相似度占整篇文章相似度的比重为50%,即0.5*b

c)假设段落的相似度占整篇文章相似度的比重为30%,即0.3*c

3、整篇文章的相似度为0.2*a + 0.5*b +0.3*c,剩下的就是该如何计算a、b、c的问题了。

a)主题词的相似度,可以根据主题词在两篇文章中的命中次数比例来计算

b)句子相似度,可以通过标点符号进行断句,计算出两篇文章中相同句子的数量和所有句子的数量比例来计算

c)段落的相似度,可以通过动态规划算法,具体参见《算法导论》动态规划部分计算出两篇文章相同字符串的最大长度来计算。

如何比较两个文本的相似度相关推荐

  1. Word2vec 计算两个文本之间相似度

    安装gensim 并且有pyemd,详情见下 def wmdistance(self, document1, document2):"""Compute the Word ...

  2. 浅谈文本的相似度问题

    今天要研究的问题是如何计算两个文本的相似度.正如上篇文章描述,计算文本的相似度在工程中有着重要的应用, 比如文本去重,搜索引擎网页判重,论文的反抄袭,ACM竞赛中反作弊等等. 上篇文章介绍的SimHa ...

  3. 如何匹配两段文本的语义?

    喵喵喵,好久不见啦.首先很抱歉大家期待的调参手册(下)迟迟没有出稿,最近两个月连着赶了4个DDL,整个人都不好了.最近几天终于有时间赶一下未完成的稿子了.在赶DDL的时候夹着写了这篇文章,就先发布这一 ...

  4. 文本语义相似度检测 API 数据接口

    文本语义相似度检测 API 数据接口 专注于语义相似判断,基于 NLP,基于机器学习. 1. 产品功能 秒级分析性能: 基于 NLP 算法智能计算: 进行语义上相似度精准检测: 底层模型以及语料库持续 ...

  5. Java实现标题相似度计算,文本内容相似度匹配,Java通过SimHash计算标题文本内容相似度

     目录 一.前言 二.关于SimHash 补充知识 一).什么是海明距离 二).海明距离的应用 三).什么是编辑距离 三.SimHash算法的几何意义和原理 一).SimHash算法的几何意义 二). ...

  6. 文本相似度php,分析php计算文本字符串相似度函数similar_text()的原理

    PHP有个计算两个文本字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度.效果如下: similar_text('aaaa', 'aaaa', $percen ...

  7. 用python编写一个检测两段文本相似度程序

    # -*- coding:utf-8 -*- import difflib def similar(text1,text2): # 创建SequenceMatcher对象 s = difflib.Se ...

  8. 比较两个字符串的相似度算法

    平时的编码中,我们经常需要判断两个文本的相似性,不管是用来做文本纠错或者去重等等,那么我们应该以什么维度来判断相似性呢?这些算法又怎么实现呢?这篇文章对常见的计算方式做一个记录.Levenshtein ...

  9. C++/JAVA 计算两篇文章的相似度

    C++/JAVA 计算两篇文章的相似度 这位少侠,要不要进店瞧瞧? 实验介绍及思路 问题描述: 编写程序,计算任意两篇文章的相似度. 基本思路: 利用余弦相似度来计算其相似度. 完整代码 C++ 代码 ...

最新文章

  1. 制胜人工智能时代——企业人工智能应用现状分析(第三版)
  2. Spring加载properties文件的两种方式
  3. hdu 4607 Park Visit 求树的直径
  4. 创建一个提供数据 API 的 Node.js 网站
  5. 网页特效java代码,美化网页常用特效代码
  6. 家庭用计算机怎样选择设置网络位置,win7系统怎么选择网络位置
  7. 从零开始学前端:HTML的一些文本格式化标签、快捷键、和特殊符号 --- 今天你学习了吗?(CSS:Day02)
  8. 数据分析_金额业务数据知识
  9. sklearn 模型选择和评估
  10. java 换行符 ascii码_java换行怎么写
  11. 惠普HP Designjet Z5200 PostScript 打印机驱动
  12. 我有博客了,泪流满面
  13. 电脑生成永久二维码怎么弄的?二维码图案不变怎么改内容?
  14. 35年夜linux版本竞技
  15. X86汇编学习小结----cmp 完整版本
  16. Kubernetes CSI(一):介绍
  17. figma下载_在Figma中将约束与布局网格一起使用
  18. Bottom Tab
  19. 21.Module 的加载实现
  20. SSM整合(从创表到部署)保姆级别教程超细

热门文章

  1. SonarQube7.4集成P3C
  2. 分享111个HTML医疗保健模板,总有一款适合您
  3. UnrealEngine5实操--基础概念(持续补充)
  4. Unity3d中XML的解析
  5. 自用笔记17——泰波那契数列
  6. 亲测可行ie8与ie11共存方法支持win7x64等
  7. 腾讯云轻量应用服务器和云服务器的区别是什么?
  8. “一切皆是映射” (光剑)
  9. 真实案例:网站遭遇DOS攻击
  10. android开发者mac(含M1芯片)电脑全新配置2022