相似度的几种常见计算方法
相似度的计算现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。下面是几种常见的相似度计算方法。
1.杰卡德相似系数
Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。
Jaccard(杰卡德)系数等于样本集交集的个数和样本集并集个数的比值。
Jaccard(杰卡德)距离是用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度。
Jaccard系数主要的应用的场景有:
1).过滤相似度很高的新闻,或者网页去重
2).考试防作弊系统
3).论文查重系统
2.余弦相似度
是通过计算两个向量的夹角余弦值来评估他们的相似度。
如图,假设 = (x1,y1), = (x2,y2),则余弦相似度的计算公式为:
余弦相似度主要的应用的场景有:
1)推荐系统中的协同过滤
2)计算文本的相似性
3.通过距离计算相似度
二维空间中,假设 = (x1,y1), = (x2,y2)
1)欧式距离
2)曼哈顿距离
以上的都为二位向量,多维的可进行类比。
4.皮尔逊相关系数
一般用于计算两个定距变量间联系的紧密程度。假设有两个变量X,Y,则它们之间的相关系数为:
最终计算出的相关系数的含义可以有如下理解:
1)当相关系数为0时,X和Y两变量无关系。
2)当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
3)当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
1)两个变量之间是线性关系,都是连续数据。
2)两个变量的总体是正态分布,或接近正态的单峰分布。
3)两个变量的观测值是成对的,每对观测值之间相互独立。
相似度的几种常见计算方法相关推荐
- 组合数的几种常见计算方法
加法递推 : o ( n ∗ n ) o(n*n) o(n∗n) 公式: C ( m n ) C\tbinom{m}{n} C(nm) = C ( m n − 1 ) C\tbinom{m}{n-1 ...
- simhash算法和余弦相似度算法哪种更适合微博文本的相似度计算
对于微博文本的相似度计算,simhash算法可能更适合. 余弦相似度算法是一种常见的文本相似度计算方法,它可以计算两个文本向量之间的夹角余弦值,用于衡量它们的相似度.但是,当面对大量文本时,计算文本向 ...
- 【特征提取+分类模型】4种常见的NLP实践思路
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈琰钰,清华大学,Datawhale成员 越来越多的人选择参加算法 ...
- 8种常见机器学习算法比较
8种常见机器学习算法比较 2016-08-04 17:46 转载 陈圳 0条评论 雷锋网(搜索"雷锋网"公众号关注)按:本文转自刘志伟责编,在机器学习中选择一个恰当的算法十分重要, ...
- 移动设计需避免四种常见的用户体验失败
为什么80%的码农都做不了架构师?>>> 此文是伊甸网转载移动设计顾问 Mariya Yao 的文章. 2012 年移动应用的下载量超过 300 亿,可是智能手机用户平均每周会 ...
- 几种常见窗函数及其matlab程序实现,几种常见窗函数及其MATLAB程序实现(20200911110057).pdf...
. 几种常见窗函数及其 MATLAB程序实现 2013-12-16 13:58 2296 人阅读 评论 (0) 收藏 举报 分类: Matlab (15) 数字信号处理中通常是取其有限的时间片段进行分 ...
- matlab排版形式是什么样子,工作型PPT,图文排版的4种常见样式
原标题:工作型PPT,图文排版的4种常见样式 图片是PPT中最好用的一种元素,正所谓"一图抵过千言". 但要想让图片真正地发挥价值,图文排版的好坏非常关键.本期将聊聊4种图文排版的 ...
- fasttext 文本分类_4种常见的NLP实践思路【特征提取+分类模型】
越来越多的人选择参加算法赛事,为了提升项目实践能力,同时也希望能拿到好的成绩增加履历的丰富度.期望如此美好,现实却是:看完赛题,一点思路都木有.那么,当我们拿到一个算法赛题后,如何破题,如何找到可能的 ...
- 一文带你掌握OBS的两种常见的鉴权方式
OBS提供了REST(Representational State Transfer)风格API,支持您通过HTTP/HTTPS请求调用.在调用OBS的API前,需要了解OBS的鉴权认证方式.本文就将 ...
最新文章
- [Android Pro] ScrollView使用fillViewport设置高度为MatchParent
- c#_MessageBox 消息对话框
- ElementUI中的el-table怎样实现绑定对象数组时每一列不同控件的动态数据绑定
- gzip(来源百度百科)
- 敏捷软件开发(Agile Software Development)简介之:什么是敏捷软件开发?
- mysql 返回多行数据_mysql – 如何连接多个表,包括查找表和返回行中的数据
- piccolo2d android,如何在Piccolo2D中打洞?
- qtableview点击行将整行数据传过去_掌握这15个可视化图表,小白也能轻松玩转数据分析...
- python微信点赞脚本_你写过的最好的 Python 脚本是什么?
- 谭浩强 C程序设计 8.2 求方程 的根,用三个函数分别求当b^2-4ac大于0、等于0、和小于0时的根,并输出结果。从主函数输入a、b、c的值。...
- linux 软件包安装管理
- 让你彻底理解信用评分卡原理(Python实现评分卡代码)
- 华为服务器上传文件后怎么通过链接查看,怎么上传图片到服务器查看链接
- 【FineBI】权限控制之动态维度/动态列
- 【Auto.JS】Autojs官方提取文档使用说明函数 (1)
- LDR6020 双USB-Type-C适配器方案 适用于苹果手机(仅需一颗芯片 完成PD快充)
- Mysql对应的dul_DUL 恢复简单表测试
- 图像语义分割实践(三)模型搭建与实现
- 计算机网络介质图片,存储介质是什么
- 获取两个日期间的年份差 月份差 日期差
热门文章
- linux usb外接硬盘,在Linux系统上使用外置USB硬盘
- 赛灵思 Xilinx UG1506 - Versal ACAP 开发板系统设计方法指南(中文版) (v2021.2)
- web前端期末大作业:美食网站设计与实现——HTML+CSS+JavaScript休闲美食餐饮公司网站静态模板(6个页面)
- 第一章 Caché JSON 简介
- C#取得DataTable最大值、最小值
- Ubuntu安装ros rotors 以及中间出现的问题的解决办法
- [CTSC2016]时空旅行 (线段树分治)
- 【平衡车】电机编码器知识总结
- 帝骑k触屏模拟器_终骑diend模拟器
- Linux虚拟机CentOS7挂机问题