前面文章分别简单介绍了线性回归,逻辑回归,贝叶斯分类,并且用python简单实现。这篇文章介绍更简单的 knn, k-近邻算法(kNN,k-NearestNeighbor)。 k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。

原理

kNN算法的核心思想是用距离最近(多种衡量距离的方式)的k个样本数据来代表目标数据的分类。

具体讲,存在训练样本集, 每个样本都包含数据特征和所属分类值。 输入新的数据,将该数据和训练样本集汇中每一个样本比较,找到距离最近的k个,在k个数据中,出现次数做多的那个分类,即可作为新数据的分类。

如上图: 需要判断绿色是什么形状。当k等于3时,属于三角。当k等于5是,属于方形。 因此该方法具有一下特点:

  • 监督学习:训练样本集中含有分类信息
  • 算法简单, 易于理解实现
  • 结果收到k值的影响,k一般不超过20.
  • 计算量大,需要计算与样本集中每个样本的距离。
  • 训练样本集不平衡导致结果不准确问题

接下来用oython 做个简单实现, 并且尝试用于约会网站配对。

python简单实现

def classify(inX, dataSet, labels, k):"""定义knn算法分类器函数:param inX: 测试数据:param dataSet: 训练数据:param labels: 分类类别:param k: k值:return: 所属分类"""dataSetSize = dataSet.shape[0]  #shape(m, n)m列n个特征diffMat = np.tile(inX, (dataSetSize, 1)) - dataSetsqDiffMat = diffMat ** 2sqDistances = sqDiffMat.sum(axis=1)distances = sqDistances ** 0.5  #欧式距离sortedDistIndicies = distances.argsort()  #排序并返回indexclassCount = {}for i in range(k):voteIlabel = labels[sortedDistIndicies[i]]classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 #default 0sortedClassCount = sorted(classCount.items(), key=lambda d:d[1], reverse=True)return sortedClassCount[0][0]
复制代码

算法的步骤上面有详细的介绍,上面的计算是矩阵运算,下面一个函数是代数运算,做个比较理解。

def classify_two(inX, dataSet, labels, k):m, n = dataSet.shape   # shape(m, n)m列n个特征# 计算测试数据到每个点的欧式距离distances = []for i in range(m):sum = 0for j in range(n):sum += (inX[j] - dataSet[i][j]) ** 2distances.append(sum ** 0.5)sortDist = sorted(distances)# k 个最近的值所属的类别classCount = {}for i in range(k):voteLabel = labels[ distances.index(sortDist[i])]classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 # 0:map defaultsortedClass = sorted(classCount.items(), key=lambda d:d[1], reverse=True)return sortedClass[0][0]
复制代码

有了上面的分类器,下面进行最简单的实验来预测一下:

def createDataSet():group = np.array([[1, 1.1], [1, 1], [0, 0], [0, 0.1]])labels = ['A', 'A', 'B', 'B']return group, labels
复制代码

上面是一个简单的训练样本集。

if __name__ == '__main__':dataSet, labels = createDataSet()r = classify_two([0, 0.2], dataSet, labels, 3)print(r)
复制代码

执行上述函数:可以看到输出B, [0 ,0.2]应该归入b类。

上面就是一个最简单的kNN分类器,下面有个例子。

kNN用于判断婚恋网站中人的受欢迎程度

训练样本集中部分数据如下:

40920  8.326976    0.953952    3
14488   7.153469    1.673904    2
26052   1.441871    0.805124    1
75136   13.147394   0.428964    1
38344   1.669788    0.134296    1
复制代码

第一列表示每年获得的飞行常客里程数, 第二列表示玩视频游戏所耗时间百分比, 第三类表示每周消费的冰淇淋公升数。第四列表示分类结果,1, 2, 3 分别是 不喜欢,魅力一般,极具魅力。

  1. 将数据转换成numpy。
# 文本转换成numpy
def file2matrix(filepath="datingSet.csv"):dataSet = np.loadtxt(filepath)returnMat = dataSet[:, 0:-1]classlabelVector = dataSet[:, -1:]return returnMat, classlabelVector
复制代码
  1. 首先对数据有个感知,知道是哪些特征影响分类,进行可视化数据分析。
# 2, 3列数据进行分析
def show_2_3_fig():data, cls = file2matrix()fig = plt.figure()ax = fig.add_subplot(111)ax.scatter(data[:, 1], data[: ,2], c=cls)plt.xlabel("playing game")plt.ylabel("Icm Cream")plt.show()
复制代码

如上图可以看到并无明显的分类。

可以看到不同的人根据特征有明显的区分。因此可以使用kNN算法来进行分类和预测。

  1. 由于后面要用到距离比较,因此数据之前的影响较大, 比如飞机里程和冰淇淋数目之间的差距太大。因此需要对数据进行归一化处理
# 数据归一化
def autoNorm(dataSet):minVal = dataSet.min(0)maxVal = dataSet.max(0)ranges = maxVal - minValnormDataSet = np.zeros(dataSet.shape)m, n = dataSet.shape  # 行, 特征normDataSet = dataSet - minValnormDataSet = normDataSet / rangesreturn normDataSet, ranges, minVal
复制代码
  1. 衡量算法的准确性 knn算法可以用正确率或者错误率来衡量。错误率为0,表示分类很好。 因此可以将训练样本中的10%用于测试,90%用于训练。
# 定义测试算法的函数
def datingClassTest(h=0.1):hoRatio = hdatingDataMat, datingLabels = file2matrix()normMat, ranges, minVals = autoNorm(datingDataMat)m, n = normMat.shapenumTestVecs = int(m * hoRatio)  #测试数据行数errorCount = 0  # 错误分类数# 用前10%的数据做测试for i in range(numTestVecs):classifierResult = classify(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m],  3)# print('the classifier came back with: %d,the real answer is: %d' % (int(classifierResult), int(datingLabels[i])))if classifierResult != datingLabels[i]:errorCount += 1print("the total error rate is: %f" % (errorCount / float(numTestVecs)))
复制代码

调整不同的测试比例,对比结果。

  1. 使用knn进行预测。 有了训练样本和分类器,对新数据可以进行预测。模拟数据并进行预测如下:
# 简单进行预测
def classifypersion():resultList = ["none", 'not at all','in small doses','in large doses']# 模拟数据ffmiles = 15360playing_game = 8.545204ice_name = 1.340429datingDataMat, datingLabels = file2matrix()normMat, ranges, minVals = autoNorm(datingDataMat)inArr = np.array([ffmiles, playing_game, ice_name])# 预测数据归一化inArr = (inArr - minVals) / rangesclassifierResult = classify(inArr, normMat, datingLabels, 3)print(resultList[int(classifierResult)])
复制代码

可以看到基本的得到所属的分类。

完成代码和数据请参考:
github:kNN

总结

  • kNN
  • 监督学习
  • 数据可视化
  • 数据归一化,不影响计算

机器学习之kNN算法(纯python实现)相关推荐

  1. 【机器学习】KNN算法实现手写板字迹识别

    文章目录 [机器学习]KNN算法实现手写板字迹识别 1. 前言 2. 实验背景 3. 测试过程 3.1 手写板及测试数据的制作 3.2 加载训练数据并进行KNN模型搭建 3.3 结果预测 4. 总结 ...

  2. 机器学习实战-KNN算法-20

    机器学习实战-KNN算法-鸢尾花分类 # 导入算法包以及数据集 from sklearn import neighbors from sklearn import datasets from skle ...

  3. 机器学习之KNN算法原理

    机器学习之KNN算法原理 1 KNN算法简介 2 算法思想 3 多种距离度量公式 ① 欧氏距离(Euclidean distance) ② 曼哈顿距离(Manhattan distance) ③ 闵式 ...

  4. 机器学习之KNN算法

    机器学习之KNN算法 1 KNN算法 2 预测电影类型例子 3 sklearn实现KNN算法 4 总结 前言:主要介绍KNN算法的基本原理,公式.sklearn实现knn算法,以及knn的优点缺点使用 ...

  5. 机器学习:KNN算法对鸢尾花进行分类

    机器学习:KNN算法对鸢尾花进行分类 1.KNN算法的理解: 1.算法概述 KNN(K-NearestNeighbor)算法经常用来解决分类与回归问题, KNN算法的原理可以总结为"近朱者赤 ...

  6. Python机器学习:KNN算法08scikit-learn中的Scaler

    归一化 from sklearn import datasets import numpy as np iris = datasets.load_iris() X = iris.data y = ir ...

  7. 【机器学习】KNN算法代码练习

    本课程是中国大学慕课<机器学习>的"KNN"章节的课后代码. 课程地址: https://www.icourse163.org/course/WZU-146409617 ...

  8. JavaScript机器学习之KNN算法

    2019独角兽企业重金招聘Python工程师标准>>> 译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : ...

  9. Scikit-Learn机器学习(knn算法)

    前言 博观而约取,厚积而薄发 本文中回忆了python的类概念,机器学习需要用到的环境,以及什么是Scikit-Learn 目的是方便博主进行回忆 记忆学习 和总结 如果能帮助到大家 那就更好了 Py ...

最新文章

  1. Task02——零基础入门NLP - 新闻文本分类之数据读取与分析
  2. python学习日记day2
  3. 一篇不一样的docker原理解析
  4. Derby的jar说明
  5. jdk源码分析书籍 pdf_什么?Spring5 AOP 默认使用Cglib?从现象到源码深度分析
  6. php中fread()函数,php fread()函数
  7. ipsec *** 的总结性谈论
  8. WINDOWS SERVER 2008/2008 R2/2012 最大内存支持
  9. springboot之redis整合
  10. mysql urlencode 中文_php url中文转码的方法
  11. Vue阿里云物流API
  12. 【360极速浏览器安装axure插件】
  13. c语言里的字体怎么设置,C语言中如何添加文字
  14. Vcenter无法登录,“根证书错误”,“签名证书无效”
  15. 【转】DSP是什么--DSP是神马东东??
  16. 学习 Golang 开发,需要掌握这几个开源框架
  17. python爬虫菜鸟教程-Python数据分析,学习路径拆解及资源推荐
  18. 【代码复现】知识表示学习MHGRN预处理操作(二)
  19. The Romantic 老炮儿
  20. Python基础知识汇总和应用示例

热门文章

  1. 并发编程-19AQS同步组件之重入锁ReentrantLock、 读写锁ReentrantReadWriteLock、Condition
  2. Spring Boot2.x-10 基于Spring Boot 2.1.2 + Mybatis 2.0.0实现多数据源,支持事务
  3. Python-爬取自己博客文章的URL
  4. java同名过滤器_Gateway Redis令牌桶请求限流过滤器
  5. 数据结构与算法笔记(四)—— 栈
  6. 2021-06-04
  7. ajax 无返回_AJAX技术学习
  8. MyBatis之注解开发
  9. ROS知识[14]:安装ubuntu 18.04和eclipse+CDT(installer)
  10. 使用【python语言】和【typescript】进行冒泡排序