一、KNN算法概述

KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那么什么是KNN算法呢,接下来我们就来介绍介绍吧。

二、KNN算法介绍

KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类型来判断x属于哪个类别。听起来有点绕,还是看看图吧。

图中绿色的点就是我们要预测的那个点,假设K=3.那么KNN算法就会找到与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些,比如这个例子中是蓝色三角形多一些,新来的绿色点就归类到蓝三角了。

但是,当K=5的时候,判定就变成不一样了。这次变成红圆多一些,所以新来的绿点被归类成红圆。从这个例子中,我们就能看得出K的取值是很重要的。

明白了大概原理后,我们就来说一说细节的东西吧,主要有两个,K值的选取和点距离的计算

2.1距离计算

要度量空间中点距离的话,有好几种度量方式,比如常见的曼哈顿距离计算,欧式距离计算等等。不过通常KNN算法中使用的是欧式距离,这里只是简单说一下,拿二维平面为例,二维空间两个点的欧式距离计算公式如下:

这个高中应该就有接触到了,其实就是计算(x1, y1)和(x2, y2)的距离。扩展到多维空间,则公式变成这样:

这样我们就明白了如何计算距离,KNN算法最简单粗暴的就是将预测点与所有点距离进行计算,然后保存并排序,选出前面K个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助,比如最大堆,这里就不多做介绍,有兴趣可以百度最大堆相关数据结构的知识。

2.2 K值选择

通过上面那张图我们知道K的取值比较重要,那么该如何确定K取多少值好呢?答案是通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据,比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。

通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据,比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。

通过交叉验证计算方差后你大致会得到下面这样的图:

这个图其实很好理解,当你增大k的时候,一般错误率会先降低,因为有周围更多的样本可以借鉴了,分类效果会变好。但注意,和K-means不一样,当K值更大的时候,错误率会更高。这也很好理解,比如说你一共就35个样本,当你K增大到30的时候,KNN基本上就没意义了。

所以选择K点的时候可以选择一个较大的临界K点,当它继续增大或减小的时候,错误率都会上升,比如图中的K=10,具体如何得出K最佳值的代码,下一节的代码实例中会介绍。

三.KNN特点

KNN是一种非参的惰性的算法模型。什么是非参,什么是惰性呢?

非参的意思并不是说这个算法不需要参数,而是意味着这个模型不会对数据做出任何的假设,与之相对的是线性回归(我们总会假设线性回归是一条直线)。也就是说KNN建立的模型结构是根据数据来决定的,这也比较符合现实的情况,毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢?想想看,同样是分类算法,逻辑回归需要先对数据进行大量训练(tranning),最后才会得到一个算法模型。而KNN算法却不需要,它没有明确的训练数据的过程,或者说这个过程很快。

KNN算法的优势和劣势

了解KNN算法的优势和劣势,可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看KNN算法都有哪些优势以及其缺陷所在!

KNN算法优点

1.简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。

2.模型训练时间块,上面说到KNN算法是惰性的,这里也就不再过多讲述。

3.预测效果好。

4.对异常值不敏感

KNN算法缺点

  1. 对内存要求较高,因为该算法存储了所有训练数据
  2. 预测阶段可能很慢
  3. 对不相关的功能和数据规模敏感

至于什么时候应该选择使用KNN算法,sklearn的这张图给了我们一个答案。

简单得说,当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了。

OK,本次先对KNN算法做一个介绍,下一节解析sklearn的参数,以及K值选取。

深入浅出KNN算法(一) KNN算法原理相关推荐

  1. 深入浅出理解kNN(k近邻算法)

    什么是kNN? kNN 的名字中虽然含有 NN,但并不是我们常说的Neural Network神经网络. kNN 英文全程 k - Nearest Neighbor, 中文名 k近邻算法. kNN 根 ...

  2. 机器学习之KNN最邻近分类算法

    KNN算法简介 KNN(K-Nearest Neighbor)最邻近分类算法是数据挖掘分类(classification)技术中最简单的算法之一,其指导思想是"近朱者赤,近墨者黑" ...

  3. 09_分类算法--k近邻算法(KNN)、案例、欧氏距离、k-近邻算法API、KNeighborsClassifier、及其里面的案例(网络资料+学习资料整理笔记)

    1 分类算法–k近邻算法(KNN) 定义:如果一个样本在特征空间中**k个最相似(即特征空间中最邻近)**的样本中的大多数属于某一个类别,则该样本也属于这个类别,则该样本也属于这个类别. k-近邻算法 ...

  4. 机器学习算法之 KNN

    K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...

  5. 1. K近邻算法(KNN)

    1. K近邻算法(KNN) 2. KNN和KdTree算法实现 1. 前言 K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用, ...

  6. kNN(k-nearest-neighbor)算法的Python实现

    kNN算法即k近邻算法,是机器学习领域几乎最简单的入门算法,属于可以直接调用各类机器学习算法库中封装好的kNN算法,自己实现起来也并不麻烦,本文实现的是kNN算法的分类算法. k近邻算法是非常特殊的, ...

  7. 第7-3课:K 最邻近算法(KNN)与手写数字识别

    K 最近邻(KNN,K-Nearest Neighbor)算法是一类在数据挖掘领域常用的分类算法,该算法看似神秘,其实原理很简单,算法实现也很简单.KNN 算法在类别决策时,只参考极少量的相邻样本,也 ...

  8. 梅科尔工作室-李庆浩 深度学习 KNN算法与SVM算法

    1.KNN与SVM对比分析 1.1算法原理 KNN算法是物以类聚,人以群分,身旁哪个种类最多就把预测的样本归为哪一类,基本原理就是找到距离最近的K个元素,然后将这K个元素进行排列,哪个种类多,就将样本 ...

  9. 机器学习算法:kNN和Weighted kNN

    机器学习算法:kNN和Weighted kNN 一.KNN kNN全称为k-nearest neighbors,中文名k邻近算法. k邻近算法理念非常简单: 对于一个测试样本x,在训练样本中寻找k个& ...

最新文章

  1. Docker镜像使用
  2. javascript创建对象
  3. 为什么说特斯拉在自动驾驶上比Waymo更占优势
  4. 一个简单的配置管理器(SettingManager)
  5. Python实现二叉树的非递归先序遍历
  6. es6 --- Promise.all等待多个异步任务执行
  7. 【音视频安卓开发 (三)】OpenGL ES 直接绘制YUV
  8. 数据库图书管理建表与修改表
  9. Linux中Shell重定向
  10. super 关键字的使用及说明
  11. vivado 一次性设置多线程编译
  12. ubuntu 18.04 安装 LNMP
  13. vector容器中是否应该放指针?解决方法
  14. excel两个指标相关性分析_相关分析与回归分析 Excel 和 R计算皮尔逊相关系数(Pearson correlation)...
  15. golang 报错 missing go.sum entry
  16. Decorate 模式
  17. 超好用的办公软件推荐,总有一个你喜欢
  18. 小学计算机应用技术学院官网,成都信息技术学院官网
  19. Spring Boot工程结构(推荐)
  20. Zabbix -- 客户端安装以及如何添加数据库的动态监控视图

热门文章

  1. 关于RF射频走线的开窗和Soder层的避让
  2. 把一块钱换成1分2分5分的硬币,有多少种方法?
  3. SVM绘制二维示意图贺三维示意图
  4. 主流六大搜索引擎提交sitemap大全(网站地图)
  5. 【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」
  6. Android connectGatt 方法无法连接BLE蓝牙
  7. 【vue3】解决移动端点击页面放大-ios
  8. 四针手表指的是什么_六针手表怎么看?什么是六针手表
  9. DB307S-ASEMI贴片整流桥DB307S
  10. DESTOON V9.0正式版发布