【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )
文章目录
- I . K-NN 简介
- II . K-NN 分类
- III . K-NN 分类实例
- IV . K-NN 分类 准确性评估方法
- V . 保持法
- VI . kkk-交叉确认法
- VII . K-NN 分类结果评价指标
- VIII . 分类 判定 二维表
- IX . 准确率
- X . 召回率
- XI . 准确率与召回率关联
- XII . 准确率 与 召回率 综合考虑
I . K-NN 简介
K-NN 简介 :
① 全称 : K-NN 全称是 K-Nearest Neighbors , 即 K 最近邻 算法 ;
② 定义 : 给定查询点 ppp , 找出离ppp 最近的 KKK 个点 , 找出所有的 qkq_kqk 点 , qkq_kqk 点的要求是 点到 ppp 的距离 小于其第 kkk 个邻居的距离 ;
③ 理解方式 : 以 ppp 点为圆心画圆 , 数一下圆内 , 和圆的边上的点是由有 KKK 个 , 如果个数不足 KKK 个 , 扩大半径 , 直到圆边上和园内的点的个数大于等于 KKK 为止 ;
④ 图示 : 红色的点是 ppp 点 , 绿色的点是 ppp 点的 999 个最近的邻居 , 圆上的绿点是第 999 个最近的邻居 ;
II . K-NN 分类
K-NN 分类 :
① 已知条件 : 假设给定查询点 ppp , 已经直到其 KKK 个最近邻居 ;
② 分类内容 : K-NN 的目的是为了给查询点 ppp 进行分类 ;
③ 数据集样本抽象成点 : 将训练集的数据样本 , 当做 nnn 维空间中的的点 ;
④ 预测分类 : 给定一个未知样本 ppp , 要给该位置样本分类 , 首先以该未知样本作为查询点 , 以 ppp 点为中心 , 找到该样本的点在 nnn 维空间中的 KKK 个近邻 , 将这 KKK 个近邻按照某个属性的值进行分组 , 该未知样本 ppp 被分到样本最多的那个组 ;
III . K-NN 分类实例
为下面的红色点进行分类 : 有两种分类 , 绿色点的分类是 AAA , 和 紫色点的分类是 BBB , 为红点进行分类 ;
1-NN 分类 : 此时 AAA 类别有 111 个 , BBB 类别有 000 个 , 红色点被分为 AAA 类别 ;
3-NN 分类 : 此时 AAA 类别有 111 个 , BBB 类别有 222 个 , 红色点被分为 BBB 类别 ;
9-NN 分类 : 此时 AAA 类别有 555 个 , BBB 类别有 222 个 , 红色点被分为 AAA 类别 ;
15-NN 分类 : 此时 AAA 类别有 555 个 , BBB 类别有 999 个 , 红色点被分为 BBB 类别 ;
K-NN 分类 准确度 : 数据量越大 , 准确度越高 ; K-NN 的思想是与周围的大多数样本保持一致 ;
IV . K-NN 分类 准确性评估方法
K-NN 分类准确性评估方法 : 保持法 , kkk-交叉确认法 , 这两种方法是常用的 K-NN 评估分类准确率的方法 ;
V . 保持法
1 . 保持法 :
① 训练集测试集划分 : 将数据集样本随机分成两个独立的数据集 , 分别是用于训练学习的训练集 , 和用于验证测试的测试集 ;
② 训练集测试集 样本比例 : 数据集划分比例 , 通常是 , 训练集 23\dfrac{2}{3}32 , 测试集 13\dfrac{1}{3}31 ;
③ 随机划分 : 划分一定要保证随机性 , 划分时不能有任何偏好 ;
2 . 随机选样法 : 执行 KKK 次保持法 , 得到 KKK 个准确率 , 总体的准确率取这 KKK 次准确率的平均值 ;
3 . 随机选样法本质 : 保持法的另一种形式 , 相当于使用多次保持法 ;
VI . kkk-交叉确认法
1 . kkk-交叉确认法 : 首先要划分数据集 , 然后进行 kkk 次训练测试 , 最后计算出准确率 ;
2 . 划分数据集 : 将数据集样本划分成 kkk 个独立的子集 , 分别是 {S1,S2,⋯,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1,S2,⋯,Sk} , 每个子集的样本个数尽量相同 ;
3 . 训练测试 :
① 训练测试次数 : 训练 kkk 次 , 测试 kkk 次 , 每次训练都要对应一次测试 ;
② 训练测试过程 : 第 iii 次训练 , 使用 SiS_iSi 作为测试集 , 其余 (k−1)(k-1)(k−1) 个子集作为训练集 ;
4 . 训练测试 示例 : 训练 kkk 次 ;
第 111 次训练 , 使用 S1S_1S1 作为测试集 , 其余 (k−1)(k-1)(k−1) 个子集作为训练集 ;
第 222 次训练 , 使用 S2S_2S2 作为测试集 , 其余 (k−1)(k-1)(k−1) 个子集作为训练集 ;
⋮\vdots⋮
第 kkk 次训练 , 使用 SkS_kSk 作为测试集 , 其余 (k−1)(k-1)(k−1) 个子集作为训练集 ;
5 . 准确率结果 :
① 单次训练测试结果 : kkk 次测试训练 , 每次使用 SiS_iSi 作为测试集 , 测试的子集中有分类正确的 , 有分类错误的 ;
② 总体准确率 : kkk 次测试后 , 相当于将整个数据集的子集 {S1,S2,⋯,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1,S2,⋯,Sk} 都当做测试集测试了一遍 , 将整体的数据集的样本分类正确的样本个数 YYY , 除以整体的样本个数 TTT , 即可得到 kkk-交叉确认 准确率结果 YT\dfrac{Y}{T}TY ;
VII . K-NN 分类结果评价指标
K-NN 分类结果评价指标 : ① 准确率 , ② 召回率 ;
VIII . 分类 判定 二维表
1 . 分类 判定二维表 : 这里引入二维表 , 这个二维表表示 人 和 机器 , 对样本的判定情况 ;
人判断正确 | 人判断错误 | |
---|---|---|
机器判断正确 | a | b |
机器判断错误 | c | d |
2 . 样本分类正确性分析 :
① 样本分类的三种认知 : 样本实际的分类 , 人认为的分类 , 机器认为的分类 ;
② 样本的实际分类 : 样本的实际分类是 AAA ;
③ 人的判断 : 人认为该样本分类是 AAA , 说明人判定正确 , 人如果认为该样本分类为 BBB , 说明人判断错误 ;
④ 机器的判断 : 机器认为该样本分类是 AAA , 说明机器判定正确 ; 机器如果认为该样本分类为 BBB , 说明机器判断错误 ;
3 . 表内数据含义 : 表格中的 a,b,c,da , b , c , da,b,c,d 值表示样本的个数 ; :
① aaa 含义 : 表示 人判断正确 , 机器判断正确 的样本个数 ; 数据集中人和机器同时分类正确的样本个数 ;
② bbb 含义 : 表示 人判断错误 , 机器判断正确 的样本个数 ; 数据集中人分类错误 , 机器分类正确的样本个数 ;
③ ccc 含义 : 表示 人判断正确 , 机器判断错误 的样本个数 ; 数据集中人分类正确 , 机器分类错误的样本个数 ;
④ ddd 含义 : 表示 人判断错误 , 机器判断错误 的样本个数 ; 数据集中人和机器同时分类错误的样本个数 ;
IX . 准确率
1 . 准确率计算公式 :
P=aa+bP = \frac{a}{a + b}P=a+ba
(a+b)(a + b)(a+b) 是 机器 分类正确 的样本的总数 ;
aaa 是人和机器都认为正确的样本个数;
2 . 准确率理解 : 机器分类正确的样本中 , 哪些是真正正确的样本 ; (a+b)(a + b)(a+b) 是机器认为正确的样本 , 其中只有 aaa 个样本是真正正确的 ;
X . 召回率
1 . 召回率计算公式 :
R=aa+cR = \frac{a}{a + c}R=a+ca
(a+c)(a + c)(a+c) 是 人认为 分类正确 的样本的总数 ;
aaa 是人和机器都认为正确的样本个数;
2 . 召回率理解 : 人认为分类正确的样本中 , 哪些是机器判定正确的 ; (a+c)(a + c)(a+c) 是人认为正确的样本个数 , 机器认为正确的是 aaa 个样本 ;
XI . 准确率与召回率关联
准确率 与 召回率 关系 : 这两个指标互相矛盾 ;
准确率 与 召回率 是互相影响的 , 准确率很高时 , 召回率很低 ;
准确率 100% 时 , 召回率很低 ; 召回率 100% 时 , 准确率很低 ;
XII . 准确率 与 召回率 综合考虑
1 . 准确率 与 召回率 综合考虑 :
F=1α1P+(1+α)1RF = \frac {1} { \alpha \dfrac{1}{P} + (1 + \alpha) \dfrac{1}{R} }F=αP1+(1+α)R11
将准确率 与 召回率放在 上述公式中计算 , PPP 是准确率 , RRR 是召回率 ;
α\alphaα 是一个系数 , 通常 α\alphaα 取值 0.50.50.5 ;
2 . α\alphaα 取值 0.50.50.5 时公式为 : 此时的度量指标叫做 F1F_1F1 值 , 这个值经常作为 K-NN分类结果的度量指标 , 即考虑了准确率 , 又考虑了召回率 ;
F1=2PRP+RF_1 = \frac{2PR}{P + R}F1=P+R2PR
【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )相关推荐
- python多分类混淆矩阵代码_深度学习自学记录(3)——两种多分类混淆矩阵的Python实现(含代码)...
深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码),矩阵,样本,模型,类别,真实 深度学习自学记录(3)--两种多分类混淆矩阵的Python实现(含代码) 深度学习自学记录(3) ...
- 【机器学习】二分类问题中的混淆矩阵、准确率、召回率等 (Python代码实现)
文章目录 混淆矩阵 召回率与准确率 准确度Accuracy sklearn代码示例 混淆矩阵 混淆矩阵(Confusion Matrix):将分类问题按照真实情况与判别情况两个维度进行归类的一个矩阵, ...
- 机器学里面的一些概念-召回率,精确度等的介绍
准确率召回率 准确率召回率 http://blog.sina.com.cn/s/blog_4b59de070100ehl7.html 最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念 ...
- [白话解析] 通过实例来梳理概念 :准确率 (Accuracy)、精准率(Precision)、召回率(Recall) 和 F值(F-Measure)
[白话解析] 通过实例来梳理概念 :准确率 (Accuracy).精准率(Precision).召回率(Recall)和F值(F-Measure) 文章目录 [白话解析] 通过实例来梳理概念 :准确率 ...
- 准确率、召回率和F值的概念和计算
下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度 ...
- 【数据挖掘笔记八】分类:基本概念
8.分类:基本概念 分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,这种模型称为分类器,预测分类的(离散的.无序的)类标号. 8.1 基本概念 分类和回归(数值预测)是预测问题的两种主要类型 ...
- 分类决策树考虑了经验风险吗_数据挖掘导论 第4章 分类:基本概念、决策树与模型评估...
第4章 分类:基本概念.决策树与模型评估 分类(classification):分类任务就是通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个余弦定义的类标号y.目 ...
- 【机器学习】1-机器学习的分类及重要概念
本文与原文相同,未加Python代码. [机器学习]机器学习的分类及重要概念 文章目录 [机器学习]机器学习的分类及重要概念 引言(Introduction) 1.1 欢迎 1.2 机器学习是什么? ...
- 3D点云形状分类简介
3D点云形状分类简介 3D形状分类主要有三种方法:基于多视图的(multi-view),基于体积的(volumetric-based),基于点的(point-based). 基于多视图的方法将非结构化 ...
最新文章
- SQL 语法速成手册
- 【keras】A `Concatenate` layer should be called on a list of at least 2 inputs
- write() ,read();
- ElasticSearch6 查询模板的创建使用
- 计算机在材料科学中的应用计算机在浓度场中的数值模拟研究,计算机在浓度场中的数值模拟研究.doc...
- 如何在command中使用log
- 2017总结、2018展望
- 前后端分离项目token怎么验证_前后端分离,获取token,验证登陆是否失效
- CS:APP3e 深入理解计算机系统_3e Datalab实验
- 多核处理器互联网络拓扑结构
- GroupByKey VS ReduceByKey
- 百度脑图(kityminder)优化
- C/C++动态内存申请与释放
- javascript案例:动态生成表格
- 由Sensor光电转换效率和光谱功率分布曲线联想到的白平衡增益计算
- 使用wildfly部署项目
- 【生活随笔】读书笔记之《五天学会绘画》
- IBATIS操作BLOB和CLOB
- 08_04基于手写数据集_mat保存模型参数
- 关于小程序wx.getUserProfile接口