相似度的计算现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。下面是几种常见的相似度计算方法。

1.杰卡德相似系数

Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。
Jaccard(杰卡德)系数等于样本集交集的个数和样本集并集个数的比值。

Jaccard(杰卡德)距离是用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度。

Jaccard系数主要的应用的场景有:
1).过滤相似度很高的新闻,或者网页去重
2).考试防作弊系统
3).论文查重系统

2.余弦相似度

是通过计算两个向量的夹角余弦值来评估他们的相似度。
如图,假设 = (x1,y1), = (x2,y2),则余弦相似度的计算公式为:

余弦相似度主要的应用的场景有:
1)推荐系统中的协同过滤
2)计算文本的相似性

3.通过距离计算相似度

二维空间中,假设 = (x1,y1), = (x2,y2)
1)欧式距离

2)曼哈顿距离

以上的都为二位向量,多维的可进行类比。

4.皮尔逊相关系数

一般用于计算两个定距变量间联系的紧密程度。假设有两个变量X,Y,则它们之间的相关系数为:

最终计算出的相关系数的含义可以有如下理解:
1)当相关系数为0时,X和Y两变量无关系。
2)当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
3)当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
1)两个变量之间是线性关系,都是连续数据。
2)两个变量的总体是正态分布,或接近正态的单峰分布。
3)两个变量的观测值是成对的,每对观测值之间相互独立。

相似度的几种常见计算方法相关推荐

  1. 组合数的几种常见计算方法

    加法递推 : o ( n ∗ n ) o(n*n) o(n∗n) 公式: C ( m n ) C\tbinom{m}{n} C(nm​) = C ( m n − 1 ) C\tbinom{m}{n-1 ...

  2. simhash算法和余弦相似度算法哪种更适合微博文本的相似度计算

    对于微博文本的相似度计算,simhash算法可能更适合. 余弦相似度算法是一种常见的文本相似度计算方法,它可以计算两个文本向量之间的夹角余弦值,用于衡量它们的相似度.但是,当面对大量文本时,计算文本向 ...

  3. 【特征提取+分类模型】4种常见的NLP实践思路

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈琰钰,清华大学,Datawhale成员 越来越多的人选择参加算法 ...

  4. 8种常见机器学习算法比较

    8种常见机器学习算法比较 2016-08-04 17:46 转载 陈圳 0条评论 雷锋网(搜索"雷锋网"公众号关注)按:本文转自刘志伟责编,在机器学习中选择一个恰当的算法十分重要, ...

  5. 移动设计需避免四种常见的用户体验失败

    为什么80%的码农都做不了架构师?>>>    此文是伊甸网转载移动设计顾问 Mariya Yao 的文章. 2012 年移动应用的下载量超过 300 亿,可是智能手机用户平均每周会 ...

  6. 几种常见窗函数及其matlab程序实现,几种常见窗函数及其MATLAB程序实现(20200911110057).pdf...

    . 几种常见窗函数及其 MATLAB程序实现 2013-12-16 13:58 2296 人阅读 评论 (0) 收藏 举报 分类: Matlab (15) 数字信号处理中通常是取其有限的时间片段进行分 ...

  7. matlab排版形式是什么样子,工作型PPT,图文排版的4种常见样式

    原标题:工作型PPT,图文排版的4种常见样式 图片是PPT中最好用的一种元素,正所谓"一图抵过千言". 但要想让图片真正地发挥价值,图文排版的好坏非常关键.本期将聊聊4种图文排版的 ...

  8. fasttext 文本分类_4种常见的NLP实践思路【特征提取+分类模型】

    越来越多的人选择参加算法赛事,为了提升项目实践能力,同时也希望能拿到好的成绩增加履历的丰富度.期望如此美好,现实却是:看完赛题,一点思路都木有.那么,当我们拿到一个算法赛题后,如何破题,如何找到可能的 ...

  9. 一文带你掌握OBS的两种常见的鉴权方式

    OBS提供了REST(Representational State Transfer)风格API,支持您通过HTTP/HTTPS请求调用.在调用OBS的API前,需要了解OBS的鉴权认证方式.本文就将 ...

最新文章

  1. [Android Pro] ScrollView使用fillViewport设置高度为MatchParent
  2. c#_MessageBox 消息对话框
  3. ElementUI中的el-table怎样实现绑定对象数组时每一列不同控件的动态数据绑定
  4. gzip(来源百度百科)
  5. 敏捷软件开发(Agile Software Development)简介之:什么是敏捷软件开发?
  6. mysql 返回多行数据_mysql – 如何连接多个表,包括查找表和返回行中的数据
  7. piccolo2d android,如何在Piccolo2D中打洞?
  8. qtableview点击行将整行数据传过去_掌握这15个可视化图表,小白也能轻松玩转数据分析...
  9. python微信点赞脚本_你写过的最好的 Python 脚本是什么?
  10. 谭浩强 C程序设计 8.2 求方程 的根,用三个函数分别求当b^2-4ac大于0、等于0、和小于0时的根,并输出结果。从主函数输入a、b、c的值。...
  11. linux 软件包安装管理
  12. 让你彻底理解信用评分卡原理(Python实现评分卡代码)
  13. 华为服务器上传文件后怎么通过链接查看,怎么上传图片到服务器查看链接
  14. 【FineBI】权限控制之动态维度/动态列
  15. 【Auto.JS】Autojs官方提取文档使用说明函数 (1)
  16. LDR6020 双USB-Type-C适配器方案 适用于苹果手机(仅需一颗芯片 完成PD快充)
  17. Mysql对应的dul_DUL 恢复简单表测试
  18. 图像语义分割实践(三)模型搭建与实现
  19. 计算机网络介质图片,存储介质是什么
  20. 获取两个日期间的年份差 月份差 日期差

热门文章

  1. linux usb外接硬盘,在Linux系统上使用外置USB硬盘
  2. 赛灵思 Xilinx UG1506 - Versal ACAP 开发板系统设计方法指南(中文版) (v2021.2)
  3. web前端期末大作业:美食网站设计与实现——HTML+CSS+JavaScript休闲美食餐饮公司网站静态模板(6个页面)
  4. 第一章 Caché JSON 简介
  5. C#取得DataTable最大值、最小值
  6. Ubuntu安装ros rotors 以及中间出现的问题的解决办法
  7. [CTSC2016]时空旅行 (线段树分治)
  8. 【平衡车】电机编码器知识总结
  9. 帝骑k触屏模拟器_终骑diend模拟器
  10. Linux虚拟机CentOS7挂机问题