我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!

KNN算法是学者Cover和Hart早在1968年提出的算法,最初的最邻近规则分类算法最早也是被用来处理分类的问题,是基于实例的学习(instance-based learning),也叫做懒惰学习(lazy learning),之所以这么说呢,是因为最开始我们并不设计算法的模型,而是基于实例来给他归类。

假设我们有一个电影集,我们有一个任务,来给电影分类。电影有很多类型,如浪漫的,动作片。对于每个电影我们可以把它想象成实例,我们的任务是给他归类,在实例中我们可以提取不同的特征值,在下面的这张图片中我们提取了两个特征值:打斗次数,接吻次数。最终实现对未知电影根据特征值分类。

首先我们如何将电影这个例子表达得更像一个数学模型,我们可以表达地如下图所示:

也就是我们可以把每部电影表达为每个实例点,每个点相当于空间中的多维向量,我们的目的是为了将其归类。

KNN算法祥述

为了判断未知实例的类别,以所有已知类别的实例作为参考,选择参数K,计算未知实例与所有已知实例的距离,选择最近K个已知实例,根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多的类别。举个例子来说呢就是:

假设我们有一个豆子A,我们不知道他是哪一类的,我们根据已知的这三类豆子给他进行分类。我们选择最近的K个豆子,假设K=3,那么我们就看这最近的三个豆子属于哪一类,并根据少数服从多数的投票法则来判断这个豆子A的类别。

细节

K如何选取?我们可以依据训练时候的准确度来选取。

关于距离的衡量方法:

Euclidean Distance(欧几里得距离

其他距离衡量:余弦值(cos),相关度(correlation),曼哈顿距离(Manhanttan distance)

以上面所讲的电影的数据集为例,介绍一下具体的算法工作流程:

1. 算G点到A、B、C、D、E、F,点的距离,程序计算欧几里得距离如下(以A和G点之间的距离为例):

import math
def ComputeEuclideanDistance(x1, y1, x2, y2):d = math.sqrt(math.pow((x1 - x2), 2) + math.pow((y1- y2), 2))return d
d_ag = ComputeEuclideanDistance(18, 90, 3, 104)
print(d_ag)

2. 之后的话我们选取三个距离最小的三个临近豆子,看这三个临近豆子属于哪一类,用少数服从多数的原则判别出这个豆子的种类。

KNN的算法对K的选择非常敏感,如下图所示:

算法优点:简单;易于理解;容易实现;通过对K的选择可具备丢噪音数据的健壮性。

算法缺点:需要大量空间存储所有已知实例;算法复杂度高(需要比较所有已知实例与要分类的实例);当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例并不接近目标样本。

对于样本点,其silhouette值定义为:

为样本点与当前所属类别的差异度(dissimilarity),用与所有样本点的平均距离度量。为样本点与其他类别差异度最小值。由此可知,接近1表示样本点更倾向于当前类,接近0表示样本点更在两类之间,接近-1表示样本点更倾向于其他类。


Python实现:

from sklearn import neighbors
from sklearn import datasets
# 调用KNN的分类器
knn = neighbors.KNeighborsClassifier()
# 加载数据库
iris = datasets.load_iris()
# 打印数据集 包含一个四维的特征值和其对应的标签
print(iris)knn.fit(iris.data, iris.target)
# 预测[0.1, 0.2, 0.3, 0.4]属于哪一类
predictedLabel = knn.predict([[0.1, 0.2, 0.3, 0.4]])
# 打印出预测的标签
print(predictedLabel)

最邻近规则分类 KNN (K-Nearest Neighbor)算法及python实现相关推荐

  1. K NEAREST NEIGHBOR 算法(knn)

    K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法和K-M ...

  2. K Nearest Neighbor 算法

    K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法.其中的K表示最接近自己的K个数据样本.KNN算法和K-M ...

  3. 机器学习之深入理解K最近邻分类算法(K Nearest Neighbor)

    [机器学习]<机器学习实战>读书笔记及代码:第2章 - k-近邻算法 1.初识 K最近邻分类算法(K Nearest Neighbor)是著名的模式识别统计学方法,在机器学习分类算法中占有 ...

  4. k Nearest Neighbor Algorithm

    k Nearest Neighbor Algorithm k Nearest Neighbor(kNN) algorithm算法和k-Means算法一样,都是简单理解,但是实际效果出人意料的算法之一. ...

  5. 麦子学院深度学习基础 —— 机器学习 —— 最近邻规则分类 KNN 算法

    最邻近规则分类(K-Nearest Neighbor)KNN 算法 1.综述: 1.1 Cover 和 Hart 在 1968 年提出了最初的近邻算法. 1.2 分类(Classification)算 ...

  6. 文献记录(part81)--Clustering-based k -nearest neighbor classification for large-scale data with ...

    学习笔记,仅供参考,有错必纠 文章目录 Clustering-based k -nearest neighbor classification for large-scale data with ne ...

  7. 机器学习——K近邻算法(KNN)(K Nearest Neighbor)

    参考视频与文献: python与人工智能-KNN算法实现_哔哩哔哩_bilibili 机器学习--K近邻算法(KNN)及其python实现_清泉_流响的博客-CSDN博客_python实现knn 机器 ...

  8. kNN算法(k近邻算法,k Nearest Neighbor)

    主要内容: 1.认识kNN算法 2.kNN算法原理 3.应用举例 4.kNN改进方法 1.认识knn算法 "看一个人怎么样,看他身边的朋友什么样就知道了",kNN算法即寻找最近的K ...

  9. 最邻近方法nn_kNN最邻近规则分类

    原理介绍: 这一个月来恶补了一下大学的数学知识,把高数.线代.概率论.复变函数和积分变换又温习了一遍,大学里学的差一点就忘光了.大学时每次上数学课可都是昏昏欲睡啊!哈哈!学习人工智能中关于分类的知识, ...

  10. 机器学习基础-最近邻规则分类 KNN (K-Nearest Neighbor)-11

    KNN算法实现 import matplotlib.pyplot as plt import numpy as np import operator# 已知分类的数据 x1 = np.array([3 ...

最新文章

  1. WebChat 清爽来袭 -- JavaChat系统Ⅳ
  2. 鸿蒙基于JS搭建HelloWorld并修改国际化文件
  3. 高斯投影坐标系为什么是六七八位数
  4. python缩进说法_【多选题】关于Python程序中与“缩进”有关的说法中,以下选项中错误的是()。...
  5. excel引用指定单元格数据_数据、运算符及单元格引用
  6. 使用Fiddler自定义百度云分享提取码
  7. 大数据对能源发展有什么作用
  8. RunLoop相关知识
  9. stm8s103k3 周期 捕获_STM8S103之tim1捕获周期及占空比
  10. 高德纳(Donald Knuth)语录
  11. ASP.NET全套视频教程
  12. 【SpringBoot项目No qualifying bean of type ‘×××Mapper‘ available:的错误解决】
  13. 字体图标在服务器上显示不出来,fontawesome图标字体库组件在服务器上显示不出来图标的解决...
  14. 3D到2D的转换方式
  15. 关于在针对esp32进行编程时出现dl_lib.h: No such file or directory的解决办法
  16. 矩阵相乘的理解(矩阵相乘的几何意义)及证明过程
  17. 关于是否读博士的思考 zz
  18. 祝愿所有兄弟姐妹们新春身体健康,阖家欢乐
  19. 23届计算机保研经验帖(北邮)
  20. python吃显卡还是内存条_加内存条还是加显卡??

热门文章

  1. OBIEE-----ClusterControler通信的问题
  2. 我没钱 如何推广自己的网站
  3. web安全day48:session和cookie、同源策略的初步理解
  4. OSPF高级特性(华为设备)
  5. RIPng原理与实验
  6. Kubernetes详解(二)——Kubernetes结构与资源对象
  7. 2021年网络工程师备考心得
  8. 简单了解https加密过程
  9. HDOJ--1879--继续畅通工程
  10. 其六,函数之一Function