一、引言

KNN可用于分类和回归，用于分类时是多分类方法。

注意:由于此方法根据预测点近邻的各类点的个数多少来确定该预测点的类别，因此原始类别数据不均衡，将严重影响最终分类效果。

二、KNN分类思想

如上图所示，有两类不同的样本，分别为蓝色正方形和红色三角形，而绿色的圆代表待分类的数据，所以呢我们就要给绿色的圆分类。

如果K=3，绿色的圆最近的三个邻居分别是：两个红色的三角形和一个蓝色的正方形那我们就少数服从多数，基于统计的方法，判定绿色的圆属于红色三角形这一类。
如果K=5，绿色的圆最近的五个邻居分别是：两个红色的三角形和三个蓝色的正方形那我们就少数服从多数，基于统计的方法，判定绿色的圆属于蓝色正方形这一类。

三、使用KNN完成乳腺癌检测分类

乳腺癌检测分类数据集说明：

乳腺癌检测数据集：数据集共有569个样本，每个样本有30个特征，其中357个阳性，212个阴性

数据集已经在资源中上传。

四、Python代码实现

（1）读入数据集

import numpy as np
import pandas as pd
data1=pd.read_csv('./data_picture/chapter3/breast-cancer.csv')
data1.head()

（2）生成训练集和测试集（我们将label提出来，生成X,Y;75%训练集25%测试集;随机种子数是个数就可以）

X=data1.drop('class',axis=1)
y=data1['class']
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=6)

(3)由于方法用到了距离，而且距离值直接影响到聚类效果，因此在聚类前必须对每一个特征数据进行标准化或归一化处理。

from sklearn.preprocessing import StandardScaler
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)

(4)构建KNN模型和预测

from sklearn.neighbors import KNeighborsClassifier
model=KNeighborsClassifier()
model.fit(X_train,y_train)

(5)模型评估

from sklearn.metrics import classification_report
print("训练集的模型评估指标：")
model_score=model.score(X_train,y_train)
print()
print('The accuracy of train data',model_score)
print('--------------------------------------------------------------------------')
y_train_predict=model.predict(X_train)
model_report1=classification_report(y_train,y_train_predict)
print(model_report1)
print('$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$')print("测试集的模型评估指标：")
model_score=model.score(X_test,y_test)
print()
print('The accuracy of test data is',model_score)
print('--------------------------------------------------------------------------')
y_predict=model.predict(X_test)
model_report=classification_report(y_test,y_predict)
print(model_report)
print('--------------------------------------------------------------------------')

结果：

（6）模型保存（方便后面使用）

from sklearn.externals import joblib
joblib.dump(model,'model_knn.pkl')

（7）模型导入（利用调入的模型对数据进行预测时，要保证待预测数据和模型训练时的数据格式一致，如果训练时数据做了标准化，则待预测数据必须做相应的标准化。）

model=joblib.load('model_knn.pkl')     #调入模型
y_pred=model.predict(X_test)
model.score(X_test,y_test)

结果：

机器学习——K近邻算法及乳腺癌检测分类相关推荐

机器学习——K近邻算法（KNN）（K Nearest Neighbor）
参考视频与文献: python与人工智能-KNN算法实现_哔哩哔哩_bilibili 机器学习--K近邻算法(KNN)及其python实现_清泉_流响的博客-CSDN博客_python实现knn 机器 ...
python机器学习 | K近邻算法学习（1）
K近邻算法学习 1 K近邻算法介绍 1.1算法定义 1.2算法原理 1.3算法讨论 1.3.1 K值选择 1.3.2距离计算 1.3.3 KD树 2 K近邻算法实现 2.1scikit-learn工具 ...
[机器学习]K近邻算法及其应用--WEKA工具
K近邻算法理论基础 k近邻模型距离度量 k值的选择分类决策规则 WEKA实战问题背景数据预处理得到分类器对未知的数据进行分类预测 K近邻算法理论基础 (本节内容参考了:李航<统计学习 ...
2 机器学习 K近邻算法(KNN) 学习曲线交叉验证手写数字识别
机器学习 1 K-近邻算法介绍 1.1 分类问题分类问题:根据已知样本的某些特征,判断一个未知样本属于哪种样本类别. 与回归问题相比,分类问题的输出结果是离散值,用于指定输入的样本数据属于哪个类别. ...
机器学习[k近邻算法]
k近邻算法简称kNN算法,由Thomas等人在1967年提出[1].它基于以下思想:要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接近的k个样本,统计这些样本的类别进行投票, ...
【机器学习-K近邻算法】
K-近邻算法 K-近邻算法的快速入门 K-近邻(KNN)算法概念殴式距离公式电影分类案例 K-近邻算法API Scikit-learn工具 Scikit-learn包含内容 K-近邻算法API方法 ...
机器学习--K近邻算法（KNN）（2）
一.简介 K-Nearest-Neighbor 算法是一种常用的监督学习算法,它没有显式的训练过程,是'懒惰学习'的显著代表,此类学习算法仅在训练阶段将训练集保存起来,训练时间开销为0,待收到测试样本 ...
机器学习——K近邻算法（KNN）及其python实现
参考视频与文献: https://www.bilibili.com/video/BV1HX4y137TN/?spm_id_from=333.788&vd_source=77c874a500ef ...
【机器学习入门】(1) K近邻算法：原理、实例应用（红酒分类预测）附python完整代码及数据集
各位同学好,今天我向大家介绍一下python机器学习中的K近邻算法.内容有:K近邻算法的原理解析:实战案例--红酒分类预测.红酒数据集.完整代码在文章最下面. 案例简介:有178个红酒样本,每一款红酒 ...

机器学习——K近邻算法及乳腺癌检测分类

一、引言

二、KNN分类思想

三、使用KNN完成乳腺癌检测分类

乳腺癌检测分类数据集说明：

四、Python代码实现

（1）读入数据集

（2）生成训练集和测试集（我们将label提出来，生成X,Y;75%训练集25%测试集;随机种子数是个数就可以）

(3)由于方法用到了距离，而且距离值直接影响到聚类效果，因此在聚类前必须对每一个特征数据进行标准化或归一化处理。

(4)构建KNN模型和预测

(5)模型评估

（6）模型保存（方便后面使用）

（7）模型导入（利用调入的模型对数据进行预测时，要保证待预测数据和模型训练时的数据格式一致，如果训练时数据做了标准化，则待预测数据必须做相应的标准化。）

机器学习——K近邻算法及乳腺癌检测分类相关推荐

最新文章

热门文章

机器学习——K近邻算法及乳腺癌检测分类

一、引言

二、KNN分类思想

三、 使用KNN完成乳腺癌检测分类

乳腺癌检测分类数据集说明：

四、Python代码实现

（1）读入数据集

（2）生成训练集和测试集（我们将label提出来，生成X,Y;75%训练集25%测试集;随机种子数是个数就可以）

(3)由于方法用到了距离，而且距离值直接影响到聚类效果，因此在聚类前必须对每一个特征数据进行标准化或归一化处理。

(4)构建KNN模型和预测

(5)模型评估

（6）模型保存（方便后面使用）

（7）模型导入（利用调入的模型对数据进行预测时，要保证待预测数据和模型训练时的数据格式一致，如果训练时数据做了标准化， 则待预测数据必须做相应的标准化。）

机器学习——K近邻算法及乳腺癌检测分类相关推荐

最新文章

热门文章

三、使用KNN完成乳腺癌检测分类

（7）模型导入（利用调入的模型对数据进行预测时，要保证待预测数据和模型训练时的数据格式一致，如果训练时数据做了标准化，则待预测数据必须做相应的标准化。）