简介

使用sklearn自带的鸢尾花数据集,通过kNN算法实现了对鸢尾花的分类。

算法思路

通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。

核心思想

如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时,只与极少量的相邻样本有关。

鸢尾花数据集介绍

通过sklearn.datasets.load_iris()加载并返回鸢尾花数据集,数据集主要有150行数据,包括三个相关鸢尾花种类的50个样品,三个种类分别是:山鸢尾,虹膜锦葵,变色鸢尾。

代码展示:

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_irisdef knncls():# 加载数据iris = load_iris()# 分割数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25)# 特征工程 标准化std = StandardScaler()x_train = std.fit_transform(x_train)x_test = std.transform(x_test)# knn算法流程knn = KNeighborsClassifier()knn.fit(x_train, y_train)y_predict = knn.predict(x_test)# # 预测结果展示labels = ["山鸢尾", "虹膜锦葵", "变色鸢尾"]for i in range(len(y_predict)):print("%d:  真实值:%s  \t预测值:%s" % ((i+1), labels[y_predict[i]], labels[y_test[i]]))print("准确率:", knn.score(x_test, y_test))if __name__ == '__main__':knncls()

输出结果:

分析:在knn算法中有一个超参数k,在sklearn中默认为5,但是k的选择对准确率是有影响的,需要手动调试。为了让被评估的模型更加准确可信,可以采用交叉验证和网格搜索对模型进行调优。

交叉验证

基本想法:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地训练、测试以及模型选择。

简单交叉验证:首先随机将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

S折交叉验证:应用最多。首先随机将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次测评中平均测试误差最小的模型。

留一交叉验证:S折交叉验证的特殊情形是:S=N,称为留一交叉验证,往往在数据缺乏的情况下使用,N为给定数据集的容量。

网格搜索

也就是超参数搜索。通常情况下,有很多参数是需要手动指定,这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

sklearn中的API: sklearn.model_selection.GridSearchCV

将前面的k-近邻算法鸢尾花案例改成网格搜索

代码:

knn = KNeighborsClassifier()# 构造一些k值param = {"n_neighbors":[3, 5, 7, 10]}# 进行网格搜索gc = GridSearchCV(knn, param_grid=param, cv=10)gc.fit(x_train, y_train)# 预测准确率print("在测试集上准确率:", gc.score(x_test, y_test))print("在交叉验证当中最好的结果:", gc.best_score_)print("选择最好的模型是:", gc.best_estimator_)print("每个超参数每次交叉验证的结果:", gc.cv_results_)

结果:

可以看出,在k=10的结果最好。

KNN算法总结

三个基本要素:距离度量、K值的选择、分类决策规则
优点

  1. 简单,易于理解,易于实现,无需估计参数,只有一个超参数k,无需训练
  2. 适合样本容量比较大的分类问题
  3. 特别适合多分类问题

缺点

  1. .knn属于懒惰算法,对测试样本分类时的计算量大(可以压缩训练样本量),内存开销大,评分慢
  2. 可解释性较差,无法给出决策树那样的规则
  3. 对于样本量较小的分类问题,会产生误分

常见问题

  1. K值的设定:K太小,分类结果易受噪声点的影响,K太大,近邻中又可能包含太多的其他类别的点。可以对距离加权,降低K值设定的影响。K值通常采用交叉验证来确定,一般低于训练样本数的平方根
  2. 类别如何判定最合适:投票法没有考虑近邻的距离的远近,距离更近的近邻也许更应该决定最终的分类,所以加权投票法更恰当一些。
  3. 如何选择合适的距离衡量:
    高维度对距离衡量的影响:变量数越多,欧式距离的区分能力就越差。
    变量值域对距离的影响:值域越大的变量常常会在计算距离中占据主导作用,因此应先对变量进行标准化
标准化

目的:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

sklearn中标准化的API:scikit-learn.preprocessing.StandardScaler

sklearn中的KNN算法实现鸢尾花分类相关推荐

  1. KNN算法解决鸢尾花分类案例

    KNN算法解决鸢尾花分类案例 本文分别通过KNN底层算法实现和sklearn中的KNeighbors Classifier(K近邻分类模拟)和对3中不同的鸢尾花的分类. 一.K近邻(KNN)算法介绍 ...

  2. Knn算法实现鸢尾花分类

    文章目录 前言 引例 KNN算法实现鸢尾花分类 1获取数据 2划分数据集 3特征工程:标准化数据 4模型训练 5模型评估 总结 前言 近朱者赤近墨者黑,物以类聚人以群分.KNN算法就是计算和别人和自己 ...

  3. Sklearn中的knn算法基本讲解

    sklearn内置数据集 数据是机器学习的关键,在机器学习工作中我们需要花费大量的时间来采集和整理数据,合理且科学的数据是得到良好机器学习效果的关键.一般而言,一个分类问题的机器学习过程需要用到四块数 ...

  4. KNN算法和sklearn中的KNN算法

    KNN基本思想 KNN是通过测量不同特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是 ...

  5. KNN算法(附鸢尾花分类实现)

    ​ 1.k近邻算法 k近邻学习(K-Nearest Neighbor,简称KNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其距离最近的k个样本,然 ...

  6. 机器学习——kNN算法之红酒分类

    目录 StandardScaler的使用 KNeighborsClassifier的使用 代码实现 数据集介绍 数据集为一份红酒数据,总共有 178 个样本,每个样本有 13 个特征,这里不会为你提供 ...

  7. KNN算法实现鸢尾花数据集分类

    KNN算法实现鸢尾花数据集分类 作者介绍 数据集介绍 KNN算法介绍 用KNN实现鸢尾花分类 作者介绍 乔冠华,女,西安工程大学电子信息学院,2020级硕士研究生,张宏伟人工智能课题组. 研究方向:机 ...

  8. python实现KNN算法在电影分类中的应用

    使用python实现KNN算法在电影分类中的应用 代码如下: import numpy as np import operator""" 使用KNN算法对电影进行分类 K ...

  9. 使用KNN算法对鸢尾花种类预测

    使用KNN算法对鸢尾花种类预测 一. 数据集介绍 1.1 小数据集获取 load_* 1.2 大数据集获取 fetch_* 1.3 查看数据分布 seaborn画图的 二. 数据集的划分 三. 特征工 ...

最新文章

  1. 宁波城市职业技术学院Linux,宁波城市职业技术学院拟聘用人员公示
  2. 我非要捅穿这 Neutron(四)Open vSwitch in Neutron
  3. java 函数参数 返回值_java中如何用函数返回值作为post提交的参数?
  4. 实现 Android 应用在开机时自启动
  5. JS实现Echarts的图表保存为图片功能
  6. 妈妈帮×神策智能推荐,打造人性化智趣母婴服务
  7. memcache和memcached的区别
  8. 神经网络架构搜索_神经网络架构
  9. P3733 [HAOI2017]八纵八横(线性基/线段树分治)
  10. MySQL用户如何构建实时数仓
  11. java.sql.SQLException
  12. 全网首发:为什么依赖库编译时加了-fPIC,还是提示依赖库要使用-fPIC?
  13. Redis单线程模型详解
  14. SQl2008配置管理工具服务显示远程过程调用失败
  15. 关于PPT配色的小技巧
  16. 数据分析 | 多元线性回归
  17. Firefox 59 正式发布:改进页面加载速度和屏幕截图工具
  18. SRS4.0源码分析-序言
  19. uvc摄像头代码解析之描述符
  20. matlab里正负号怎么表示,正负号符号上下一起怎么输入?

热门文章

  1. 7、C++各大有名库的介绍——游戏开发
  2. 两栏布局的四种实现方法
  3. 为什么iphone邮箱里已发送邮件是空的
  4. Gym-100923H-Por Costel and the Match(带权并查集)
  5. python调用百度翻译-python3调用百度翻译API实时翻译的实例代码
  6. 参编《商用系统智能照明设计指南》丛书,利尔达助推智能照明行业系统化发展
  7. linux rz命令的全称,Linux命令之rz
  8. 记一次实习面试失败的经历(大数据)
  9. 林志颖的个人履历,佩服的五体投地!
  10. 智能取餐柜是什么东西?可以实现什么功能?