只对汉字进行相似度分析,以单个字为向量,然后每个字在章节中出现的次数,便是以此字向量的值。现在我们假设:

章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4……Z1cn;它们在章节中的个数为:Z1n1,Z1n2,Z1n3……Z1nm;

章节2中出现的字为:Z2c1,Z2c2,Z2c3,Z2c4……Z2cn;它们在章节中的个数为:Z2n1,Z2n2,Z2n3……Z2nm;

其中,Z1c1和Z2c1表示两个文本中同一个字,Z1n1和Z2n1是它们分别对应的个数,

最后我们的相似度可以这么计算:

代码如下:

#_*_encoding:utf-8_*_

import math

import time

#---------------------------------------------------------------

# 文本相似度计算

# 值0-1, 越靠近1越相似

#---------------------------------------------------------------

def Similarity(s1, s2):

'''

相似度计算,输入必须为unicode编码,且不为空

仅计算汉字

'''

#汉字U编码 4E00-9FA5

tmp = {}

for i in s1:

a = ord(i)

if 0x4DFF

try:

tmp[a][0] = tmp[a][0] + 1

except:

tmp[a] = [1, 0]

for i in s2:

a = ord(i)

if 0x4DFF

python余弦定理求角_python实现的文本相似度算法(余弦定理)相关推荐

  1. python 文本相似度_python实现的文本相似度算法(余弦定理)

    只对汉字进行相似度分析,以单个字为向量,然后每个字在章节中出现的次数,便是以此字向量的值.现在我们假设: 章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4--Z1cn:它们在章节中的个数为: ...

  2. python余弦定理求角_python余弦定理计算相似度

    #-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...

  3. 文本相似度算法(余弦定理)

    最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅. 于是 ...

  4. java算法余弦定律_自己实现文本相似度算法(余弦定理) - 呼吸的Java - 开源中国社区...

    自己实现文本相似度算法(余弦定理) 52人收藏此文章, 我要收藏 发表于9个月前(2012-03-04 16:59) , 已有5592次阅读 ,共6个评论 最近由于工作项目,需要判断两个txt文本是否 ...

  5. 文本相似度算法的对比及python实现

    文本相似度算法的对比及python实现 前言 通常我们有这样的需求:对两篇文章或者产品内容进行重复率查询. 为了解决类似的问题,罗列了一些常见的相似度算法,用python代码实现. 五种常见的相似度算 ...

  6. python实现文本相似度算法的对比及

    文本相似度算法的对比及python实现 前言 通常我们有这样的需求:对两篇文章或者产品内容进行重复率查询. 为了解决类似的问题,罗列了一些常见的相似度算法,用python代码实现. 五种常见的相似度算 ...

  7. python中文相似度_基于TF-IDF、余弦相似度算法实现文本相似度算法的Python应用

    基于TF-IDF算法.余弦相似度算法实现相似文本推荐--文本相似度算法,主要应用于文本聚类.相似文本推荐等场景. 设计说明 使用jieba切词,设置自定义字典 使用TF-IDF算法,找出文章的关键词: ...

  8. 【自然语言处理】文本相似度算法:TF-IDF与BM25

    文本相似度算法:TF-IDF与BM25 1.TF-IDF TF(Term Frequency)是指归一化后的词频,IDF(Inverse Document Frequency)是指逆文档频率.给定一个 ...

  9. 基于文本相似度算法,分析 Vue 是抄出来的框架吗?

    本周一篇指摘 Vue 抄袭 Angular 的文章一石激起千层浪.为此,笔者作为中立吃瓜的 React 用户,分析了 13 个主流前端框架版本上万个变量的命名风格,应用自然语言处理中的文本相似度算法进 ...

最新文章

  1. BootStrap_01之全局样式
  2. ORB-SLAM2源代码中ROS部分ros-mono源代码中subscribe /camera/image_raw topic谁发布publish的
  3. [蓝桥杯]回形取数-方向向量+模拟
  4. 泄漏:Oracle WebLogic Server 12g
  5. java记事本保存_JAVA记事本关于保存
  6. Ajax 技术资源中心
  7. Android Studio配置Gradle(包括signingConfigs、buildTypes和productFlavors等)
  8. 每次编译要改名_华为突然在欧洲注册鸿蒙:正式改名方舟!与安卓竞争海外市场...
  9. 文件浏览器及数码相框 -2.3.2-freetype_arm-1
  10. 在Linux中,用.swp文件恢复未保存的文件
  11. 操作系统课设 Nachos 实验一:Nachos 系统的安装与调试
  12. 发动机冒黑烟_发动机总冒黑烟 用这招解决最快!
  13. Bar Chart Race」动态可视化
  14. 银行IT系统 -整体架构
  15. 片上偏差模式OCV,AOCV,SOCV
  16. 洛谷——AT1350 深さ優先探索
  17. MySql 删除索引
  18. memcpy函数(多积累进大厂)
  19. 辽宁中职升高职计算机考试,2021年_辽宁省_中职升高职高考真题
  20. Android之蚂蚁森林能量水滴效果

热门文章

  1. 百练4080:Huffman编码树
  2. 厦门大学考研真题笔记:703新闻学与传播学基础
  3. 大一计算机基础实用教程四川传媒学院,四川传媒学院
  4. 【金猿产品展】三角兽智慧识屏:一触即达的智能化搜索引擎
  5. anaconda更新时无法定位程序输入点于动态链接库
  6. FoxyProxy Standard——Firefox代理组建安装详细过程
  7. 如何提升抖音直播间人气热度?首先做好直播封面丨国仁网络资讯
  8. 大咖云集,闭门畅谈 | 2021 CLSF 大会圆满落幕
  9. 理解SetCapture、ReleaseCapture、GetCapture(控制了消息发往哪个窗口,是理解消息的关键)...
  10. ​【HZNUOJ】【C系列2.10】失恋 ​