随书代码,阅读笔记。

KNN是一种有监督的机器学习算法,可以解决分类问题,也可以解决回归问题。

算法优点:准确性高,对异常值和噪声有较高的容忍度;

算法缺点:计算量大,内存消耗也比较大。

针对算法计算量大,有一些改进的数据结构,避免重复计算K-D Tree, Ball Tree。

算法变种:根据邻居的距离,分配不同权重。另外一个变种是指定半径。

  • KNN进行分类
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdfrom sklearn.datasets.samples_generator import make_blobs
# 生成数据
centers = [[-2, 2], [2, 2], [0, 4]]
X, y = make_blobs(n_samples=60, centers=centers, random_state=0, cluster_std=0.60)# 画出数据
plt.figure(figsize=(16, 10), dpi=144)
c = np.array(centers)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');         # 画出样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='orange');   # 画出中心点from sklearn.neighbors import KNeighborsClassifier
# 模型训练
k = 5
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X, y);# 进行预测
X_sample = [0, 2]
y_sample = clf.predict(X_sample);
neighbors = clf.kneighbors(X_sample, return_distance=False);# 画出示意图
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');    # 样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='k');   # 中心点
plt.scatter(X_sample[0], X_sample[1], marker="x", c=y_sample, s=100, cmap='cool')    # 待预测的点for i in neighbors[0]:plt.plot([X[i][0], X_sample[0]], [X[i][1], X_sample[1]], 'k--', linewidth=0.6);    # 预测点与距离最近的 5 个样本的连线

  • KNN进行回归拟合
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np# 生成训练样本
n_dots = 40
X = 5 * np.random.rand(n_dots, 1)
y = np.cos(X).ravel()# 添加一些噪声
y += 0.2 * np.random.rand(n_dots) - 0.1# 训练模型
from sklearn.neighbors import KNeighborsRegressor
k = 5
knn = KNeighborsRegressor(k)
knn.fit(X, y);# 生成足够密集的点并进行预测
T = np.linspace(0, 5, 500)[:, np.newaxis]
y_pred = knn.predict(T)
knn.score(X, y)#output:0.98579189493611052# 画出拟合曲线
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X, y, c='g', label='data', s=100)         # 画出训练样本
plt.plot(T, y_pred, c='k', label='prediction', lw=4)  # 画出拟合曲线
plt.axis('tight')
plt.title("KNeighborsRegressor (k = %i)" % k)
plt.show()

  • KNN 实现糖尿病预测

    %matplotlib inline
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas as pd# 加载数据
    data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')
    print('dataset shape {}'.format(data.shape))
    data.head()data.groupby("Outcome").size()
    #Outcome
    #0    500 无糖尿病
    #1    268 有糖尿病
    #dtype: int64X = data.iloc[:, 0:8]
    Y = data.iloc[:, 8]
    print('shape of X {}; shape of Y {}'.format(X.shape, Y.shape))from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2);from sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifiermodels = []
    models.append(("KNN", KNeighborsClassifier(n_neighbors=2)))
    models.append(("KNN with weights", KNeighborsClassifier(n_neighbors=2, weights="distance")))
    models.append(("Radius Neighbors", RadiusNeighborsClassifier(n_neighbors=2, radius=500.0)))results = []
    for name, model in models:model.fit(X_train, Y_train)results.append((name, model.score(X_test, Y_test)))
    for i in range(len(results)):print("name: {}; score: {}".format(results[i][0],results[i][1]))#name: KNN; score: 0.681818181818
    #name: KNN with weights; score: 0.636363636364
    #name: Radius Neighbors; score: 0.62987012987from sklearn.model_selection import KFold
    from sklearn.model_selection import cross_val_score#kfold 训练10次,计算10次的平均准确率
    results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))#name: KNN; cross val score: 0.714764183185
    #name: KNN with weights; cross val score: 0.677050580998
    #name: Radius Neighbors; cross val score: 0.6497265892#模型训练
    knn = KNeighborsClassifier(n_neighbors=2)
    knn.fit(X_train, Y_train)
    train_score = knn.score(X_train, Y_train)
    test_score = knn.score(X_test, Y_test)
    print("train score: {}; test score: {}".format(train_score, test_score))#画出学习曲线
    from sklearn.model_selection import ShuffleSplit
    from common.utils import plot_learning_curveknn = KNeighborsClassifier(n_neighbors=2)
    cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
    plt.figure(figsize=(10, 6), dpi=200)
    plot_learning_curve(plt, knn, "Learn Curve for KNN Diabetes", X, Y, ylim=(0.0, 1.01), cv=cv);#数据可视化
    # 从8个特征中选择2个最重要的特征进行可视化from sklearn.feature_selection import SelectKBestselector = SelectKBest(k=2)
    X_new = selector.fit_transform(X, Y)
    X_new[0:5]results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X_new, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))# 画出数据
    plt.figure(figsize=(10, 6), dpi=200)
    plt.ylabel("BMI")
    plt.xlabel("Glucose")
    plt.scatter(X_new[Y==0][:, 0], X_new[Y==0][:, 1], c='r', s=20, marker='o');         # 画出样本
    plt.scatter(X_new[Y==1][:, 0], X_new[Y==1][:, 1], c='g', s=20, marker='^');         # 画出样本#2个特征和8个特征得到的结果差不多。分类效果达到了瓶颈

KNN对糖尿病进行测试,无法得到比较高的预测准确性

扩展阅读

scikit-learn KNN实现糖尿病预测相关推荐

  1. python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别

    之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...

  2. 数据分析:基于K-近邻(KNN)对Pima人糖尿病预测分析

    数据分析:基于K-近邻(KNN)对Pima人糖尿病预测分析 作者:i阿极 作者简介:Python领域新星作者.多项比赛获奖者:博主个人首页

  3. Scikit Learn: 在python中机器学习

    Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...

  4. [转载]Scikit Learn: 在python中机器学习

    原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...

  5. scikit - learn 做文本分类

    文章来源: https://my.oschina.net/u/175377/blog/84420 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的句子,我以自 ...

  6. 机器学习与Scikit Learn学习库

    摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...

  7. python预测糖尿病_实战 | 糖尿病预测项目

    项目介绍 这次我们要学习的项目是糖尿病的预测,数据保存在diabetes.csv文件中.数据一共有8个特征和1个标签: Pregnancies:怀孕次数Glucose:葡萄糖测试值BloodPress ...

  8. 机器学习——糖尿病预测

    实验目的 表格数据分类,糖尿病预测. 根据生活.饮食.教育.收入等属性,预测得1型.2型和不得糖尿病的概率. 实验内容 获得数据 从数据探索和数据可视化中获得洞见 数据探索 数据预处理 划分数据并训练 ...

  9. 【scikit-learn】如何用Python和SciKit Learn 0.18实现神经网络

    本教程的代码和数据来自于 Springboard 的博客教程.本文的作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:https://g ...

  10. python scikit learn 关闭开源_scikit learn 里没有神经网络?

    本教程的代码和数据来自于 Springboard 的博客教程,希望能为你提供帮助.作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:ht ...

最新文章

  1. zeptojs-跑马灯效果
  2. shell 开机自动执行_windows还能这么玩?开机自动念情书
  3. 潜移默化学会WPF(绚丽篇)--热烈欢迎RadioButton,改造成功,改造成ImageButton,新版导航 - AYUI框架 - 博客园...
  4. jmeter-00 JMeter 运行过程
  5. Oracle中的move命令
  6. 表格过滤器_气缸选型其实并不复杂,知道这些再也不怕选错气缸(附计算表格)...
  7. Apple 的 CEO和Google的CEO在星巴克聊什么呢?
  8. 谷歌公布4个0day详情,其中3个被滥用于攻击亚美尼亚
  9. Mybatis安装配置使用
  10. .NET后台如何获取前台HMTL控件的值
  11. 博客V7之后,喜庆排名进入2000之内
  12. 软件的工程化管理(二)(转)
  13. 全球宽带接入发展转折点 FTTP用户数首超DSL
  14. PHP编写poc,代码实战/萌新如何编写sql注入的poc
  15. 计算机系统基础实验——数据的机器级表示
  16. 信号与系统sa函数求积分_信号与系统_第三章_学习心得
  17. [译] 什么是即时通信(Instant Messaging)
  18. 如何向天翼云服务器上传文件,天翼云储存上传文件的方法
  19. Linux学习笔记(二) -- Linux学习笔记(二) – 解决VMware主窗口中的虚拟机窗口太小的方法
  20. hdfs文件系统和linux文件系统,分布式文件系统HADOOP HDFS与传统文件系统LINUX FS的比较与分析...

热门文章

  1. CoffeeScript
  2. 智慧医院绩效管理方案
  3. 实现注册功能添加邮箱激活验证
  4. 【读书】【沉思录】卷一
  5. vue学习Day08
  6. esp8266调用心知天气
  7. linux bsd格式,Linux系统日志管理_Linux/BSD系统
  8. 瑞幸咖啡2022,摆脱困境,迎来坦途
  9. New Year Garland
  10. 数据库学习笔记(进阶)