前言:

针对一个完整的机器学习框架目前还没有总结出来,所以目前只能总结每一个单独的算法。由于现在研究的重点是算法,所以对于数据的处理,数据的分析和可视化呈现,在现阶段并不进行展示(这样容易陷入纠结和浪费过多时间)。但是,当理解算法的基本原理和实现方法之后,再回过头来从头开始,实现一个完整的机器学习流程。**

1. KNN 原理

KNN是一种即可用于分类又可用于回归的机器学习算法。对于给定测试样本,基于距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个“邻居”的信息来进行预测。
在分类任务中可使用投票法,选择这K个样本中出现最多的类别标记作为预测结果;在回归任务中可使用平均法,将这K个样本的实值输出标记的平均值作为预测结果。当然还可以基于距离远近程度进行加权平均等方法。

2. KNN 优缺点

KNN 优点

理论成熟,思想简单,既可以用来做分类也可以用来做回归
可用于非线性分类
训练时间复杂度比支持向量机之类的算法低,仅为O(n)
和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感
由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合
该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN 缺点

计算量大,尤其是特征数非常多的时候
样本不平衡的时候,对稀有类别的预测准确率低
KD树,球树之类的模型建立需要大量的内存
使用懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢
相比决策树模型,KNN模型可解释性不强
3. KNN 算法三要素
距离度量

K 值的选择

下面分析k值过大和过小造成的影响:

k值较小,就相当于用较小的领域中的训练实例进行预测,训练误差近似误差小(偏差小),泛化误差会增大(方差大),换句话说,K值较小就意味着整体模型变得复杂,容易发生过拟合;

k值较大,就相当于用较大领域中的训练实例进行预测,泛化误差小(方差小),但缺点是近似误差大(偏差大),换句话说,K值较大就意味着整体模型变得简单,容易发生欠拟合;一个极端是k等于样本数m,则完全没有分类,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单。

对于k值的选择,没有一个固定的经验(sklearn默认为5),一般根据样本的分布,选择一个较小的值,可以通过交叉验证选择一个合适的k值。

分类决策规则

KNN 算法一般是用多数表决方法,即由输入实例的K个邻近的多数类决定输入实例的类。这也是经验风险最小化的结果。

我们定义训练误差率是K近邻训练样本标记与输入标记不一致的比例,误差率表示为:

目的是K近邻的标记值尽可能的与输入标记一致,

所以最小化

最大化:

4 KNN 算法实现

线性扫描

线性扫描也叫“暴力搜索”,是计算输入实例与每一个训练实例的距离,并选择前k个最近邻的样本来多数表决。这种实现方法简单,但是当训练集或特征维度很大时(我们经常碰到样本的特征数有上千以上,样本量有几十万以上),如果我们这要去预测少量的测试集样本,算法的时间效率很成问题,计算非常耗时,故这种暴力实现原理是不可行的 。

kd 树实现

kd 树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构,构造kd树相当于不断用垂直于坐标轴的超平面将k维空间进行划分,构成一系列的k维超矩形区域,kd树省去了对大部分数据的搜索,大大的较少了计算量。

注意这里的k和KNN中的k的意思不同。KNN中的k代表最近的k个样本,kd树中的k代表样本特征的维数。

KD树算法包括三步,第一步是建树,第二部是搜索最近邻,最后一步是预测。

kd 树的建立。kd树实质是二叉树,其划分思想与CART树一致,切分使样本复杂度降低最多的特征。kd树分别计算k个特征的方差,认为特征方差越大,则该特征的复杂度亦越大,优先对该特征进行切分 ,切分点是所有实例在该特征的中位数。重复该切分步骤,直到切分后无样本则终止切分,终止时的样本为叶节点,形成kd树。

kd树搜索最近邻。生成kd树以后,对于一个目标点以目标点为圆心,以目标点到叶子节点样本实例的距离为半径,得到一个超球体,最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点,检查另一个子节点包含的超矩形体是否和超球体相交,如果相交就到这个子节点寻找是否有更加近的近邻,有的话就更新最近邻。如果不相交直接返回父节点的父节点,在另一个子树继续搜索最近邻。依次下去,当回溯到根节点时,算法结束,此时保存的最近邻节点就是最终的最近邻。

对于kd树来说,划分后可以大大减少无效的最近邻搜索,很多样本点由于所在的超矩形体和超球体不相交,根本不需要计算距离。大大节省了计算时间。

kd树预测。

分类:每一次搜寻与输入样本最近的样本节点,然后忽略该节点,重复同样步骤K次,找到与输入样本最近邻的K个样本 ,投票法确定输出结果。

回归:用K个最近样本的输出的平均值作为回归预测值。

球树实现

kd树算法虽然提高了KNN搜索的效率,但是在某些时候效率并不高,比如当处理不均匀分布的数据集时,不管是近似方形,还是矩形,甚至正方形,都不是最好的使用形状,因为他们都有角。为了优化超矩形体导致的搜索效率的问题,从而提出了球树实现的方法。其基本思想和kd树类似,就是每个分割块都是超球体,而不是KD树里面的超矩形体。

5 sklearn实现KNN算法

在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier,KNN回归树的类KNeighborsRegressor。除此之外,还有KNN的扩展,即限定半径最近邻分类树的类RadiusNeighborsClassifier和限定半径最近邻回归树的类RadiusNeighborsRegressor, 以及最近质心分类算法NearestCentroid。

在这些算法中,KNN分类和回归的类参数完全一样。具体参数如下:

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’,
algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None,
n_jobs=None, **kwargs)

n_neighbors:KNN中的k值,默认为5(对于k值的选择,前面已经给出解释);

weights:用于标识每个样本的近邻样本的权重,可选择"uniform",“distance” 或自定义权重。默认"uniform",所有最近邻样本权重都一样。如果是"distance",则权重和距离成反比例;如果样本的分布是比较成簇的,即各类样本都在相对分开的簇中时,我们用默认的"uniform"就可以了,如果样本的分布比较乱,规律不好寻找,选择"distance"是一个比较好的选择;

algorithm:限定半径最近邻法使用的算法,可选‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’。
‘brute’对应第一种线性扫描;
‘kd_tree’对应第二种kd树实现;
‘ball_tree’对应第三种的球树实现;
‘auto’则会在上面三种算法中做权衡,选择一个拟合最好的最优算法。

leaf_size:这个值控制了使用kd树或者球树时, 停止建子树的叶子节点数量的阈值。这个值越小,则生成的kc树或者球树就越大,层数越深,建树时间越长,反之,则生成的kd树或者球树会小,层数较浅,建树时间较短。默认是30。

这个值一般依赖于样本的数量,随着样本数量的增加,这个值必须要增加,否则不光建树预测的时间长,还容易过拟合。可以通过交叉验证来选择一个适中的值。当然,如果使用的算法是蛮力实现,则这个参数可以忽略;

metric,p:距离度量(前面介绍过),默认闵可夫斯基距离 “minkowski”(p=1为曼哈顿距离, p=2为欧式距离);

metric_params:距离度量其他附属参数(具体我也不知道,一般用得少);

n_jobs:并行处理任务数,主要用于多核CPU时的并行处理,加快建立KNN树和预测搜索的速度。n_jobs= -1,即所有的CPU核都参与计算。

限定半径最近邻法分类和回归的类的主要参数也和KNN基本一样。具体参数如下:

sklearn.neighbors.RadiusNeighborsClassifier(radius=1.0, weights=’uniform’,
algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, outlier_label=None,
metric_params=None, n_jobs=None, **kwargs)

radius:限定半径,默认为1。半径的选择与样本分布有关,可以通过交叉验证来选择一个较小的半径,尽量保证每类训练样本其他类别样本的距离较远;
outlier_labe:int类型,主要用于预测时,如果目标点半径内没有任何训练集的样本点时,应该标记的类别,不建议选择默认值 None,因为这样遇到异常点会报错。一般设置为训练集里最多样本的类别。

参考链接:https://blog.csdn.net/qq_40195360/article/details/86714337

【Python学习】 - sklearn学习 - KNN相关推荐

  1. python之sklearn学习笔记

    sklearn介绍 scikit-learn是数据挖掘与分析的简单而有效的工具. 依赖于NumPy, SciPy和matplotlib. 它主要包含以下几部分内容: 从功能来分: classifica ...

  2. 机器学习Sklearn学习总结

    Sklearn学习资料推荐: sklearn中文文档 机器学习入门必看:使用 scikit-learn 构建模型的通用模板 机器学习神器Scikit-Learn保姆教程! python机器学习_FF_ ...

  3. sklearn学习之KNN

    机器学习之sklearn(knn) 文章目录 前言 一.KNN是什么? 二.KNN原理 三.使用步骤 1.引入库以及参数说明 2.应用场景(鸢尾花分类) 四.KNN的优缺点 五.k临近(KNN)与K- ...

  4. python scikit_Python SciKit学习教程

    python scikit Scikit学习 (Scikit Learn) Scikit-learn is a machine learning library for Python. It feat ...

  5. sklearn学习笔记(一)——数据预处理 sklearn.preprocessing

    python sklearn 更多 个人分类: Python 数据处理 sklearn 数据预处理 sklearn.preprocessing 查看全文 http://www.taodudu.cc/n ...

  6. 如何用 OpenCV、Python 和深度学习实现面部识别?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|新机器视觉 Face ID 的兴起带动了一波面部识别技术热 ...

  7. sklearn学习总结(超全面)

    https://blog.csdn.net/fuqiuai/article/details/79495865 前言 sklearn想必不用我多介绍了,一句话,她是机器学习领域中最知名的python模块 ...

  8. Python——常用Python包的学习笔记

    1 致谢 感谢陈助教的帮助! 2 前言 今天想通过画图展现一下学习参考值的变化情况,在网上看了一下,需要使用plt包,不过又忘了plt是做什么用的了,于是想要记录一下,写一下关于常用Python包的笔 ...

  9. python基础教程-学习python有什么好的视频教程?

    干货来袭,以下均为python好的学习视频,我们先从python的入门教程开始分享起! python入门教程(600集)https://www.bilibili.com/video/BV1ex411x ...

最新文章

  1. Postgresql:INSERT INTO ON CONSTRAINT pk_key_id do nothing
  2. JVM 史上最最最完整深入解析(12000 字噢)
  3. python变量按其作用域可分为_python变量的作用域一
  4. Linux-鸟菜-5-文件权限
  5. win7下搭建GO开发环境 - eclipse 配置GO开发
  6. wxWidgets:wxWidgets 示例展示了 wxDisplay 类的特性
  7. asp IIS部署An error occurred on the server when processing the URL错误提示解决
  8. html语言音乐添加路径,HTML5简单实现添加背景音乐的几种方法
  9. TIOBE 2014年7月编程语言排行榜:仅发布1月,Swift进Top 20!
  10. mysql concat键值对_mysql中concat函数实现数据库字段合并查询
  11. DataBseDesign工作笔记005---将excel中的表导入到powerdesigner中
  12. 【每日算法Day 68】脑筋急转弯:只要一行代码,但你会证吗?
  13. 四种软件开发模式(瀑布、迭代、螺旋、敏捷),对比分析
  14. 计算机网络资源的资源子网是什么,资源子网
  15. BLE_BQB Test_Carrier frequency offset and drift, LE Coded (S=8)_RF-PHY/TRM/BV-14-C
  16. kubernetes面试题汇总
  17. 盘点互联网大厂的元宇宙布局
  18. 软考中级之系统集成项目管理工程师备考
  19. hadoop和spark安装包 网盘地址
  20. vs插件html,VSCode插件推荐-html实时加载插件-live server

热门文章

  1. System.Drawing.Color.FromArgb(144,238,255);
  2. 【数据结构与算法】字符串匹配 BF算法 RK算法
  3. [Leedcode][JAVA][第200题][岛屿数量][DFS][BFS][并查集]
  4. Android11怎么截屏,对标IOS?Android11或无缘屏幕长截图
  5. for命令不跳过空白行_Java程序员必备:查看日志常用的linux命令
  6. B. File List
  7. mysql 实时性能_Mysql 实时查看性能
  8. oracle自动撤销管理,Oracle 9i中自动撤销管理的优点分析
  9. linux下gsoap的初次使用 (c)
  10. ubuntu13.10无法登陆