K-近邻算法（KNN）概述

最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢，其次就是存在一个测试对象同时与多个训练对象匹配，导致一个训练对象被分到了多个类的问题，基于这些问题呢，就产生了KNN。

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

由此也说明了KNN算法的结果很大程度取决于K的选择。

在KNN中，通过计算对象间距离来作为各个对象之间的非相似性指标，避免了对象之间的匹配问题，在这里距离一般使用欧氏距离或曼哈顿距离：

同时，KNN通过依据k个对象中占优的类别进行决策，而不是单一的对象类别决策。这两点就是KNN算法的优势。

接下来对KNN算法的思想总结一下：就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

二 .python实现

首先呢，需要说明的是我用的是python3.4.3，里面有一些用法与2.7还是有些出入。

建立一个KNN.py文件对算法的可行性进行验证，如下：

#coding:utf-8from numpy import *
import operator##给出训练数据以及对应的类别
def createDataSet():group = array([[1.0,2.0],[1.2,0.1],[0.1,1.4],[0.3,3.5]])labels = ['A','A','B','B']return group,labels###通过KNN进行分类
def classify(input,dataSe t,label,k):dataSize = dataSet.shape[0]####计算欧式距离diff = tile(input,(dataSize,1)) - dataSetsqdiff = diff ** 2squareDist = sum(sqdiff,axis = 1)###行向量分别相加，从而得到新的一个行向量dist = squareDist ** 0.5##对距离进行排序sortedDistIndex = argsort(dist)##argsort()根据元素的值从大到小对元素进行排序，返回下标classCount={}for i in range(k):voteLabel = label[sortedDistIndex[i]]###对选取的K个样本所属的类别个数进行统计classCount[voteLabel] = classCount.get(voteLabel,0) + 1###选取出现的类别次数最多的类别maxCount = 0for key,value in classCount.items():if value > maxCount:maxCount = valueclasses = keyreturn classes

接下来，在命令行窗口输入如下代码：

#-*-coding:utf-8 -*-
import sys
sys.path.append("...文件路径...")
import KNN
from numpy import *
dataSet,labels = KNN.createDataSet()
input = array([1.1,0.3])
K = 3
output = KNN.classify(input,dataSet,labels,K)
print("测试数据为:",input,"分类结果为：",output)

回车之后的结果为：

测试数据为： [ 1.1 0.3] 分类为： A

答案符合我们的预期，要证明算法的准确性，势必还需要通过处理复杂问题进行验证，之后另行说明。

这是第一次用python编的一个小程序，势必会遇到各种问题，在此次编程调试过程中遇到了如下问题：

　1 导入.py文件路径有问题，因此需要在最开始加如下代码：

import sys

　　sys.path.append("文件路径")，这样就不会存在路径有误的问题了；

2 在python提示代码存在问题时，一定要及时改正，改正之后保存之后再执行命令行，这一点跟MATLAB是不一样的，所以在python中最好是敲代码的同时在命令行中一段一段的验证；

　3 在调用文件时函数名一定要写正确，否则会出现：'module' object has no attribute 'creatDataSet'；

　4 'int' object has no attribute 'kclassify'，这个问题出现的原因是之前我讲文件保存名为k.py,在执行

output = K.classify(input,dataSet,labels,K)这一句就会出错。根据函数式编程的思想，每个函数都可以看为是一个变量而将K赋值后，调用k.py时就会出现问题。

三 MATLAB实现
之前一直在用MATLAB做聚类算法的一些优化，其次就是数模的一些常用算法，对于别的算法，还真是没有上手编过，基础还在，思想还在，当然要动手编一下，也是不希望在学python的同时对MATLAB逐渐陌生吧，走走停停，停很重要。
首先，建立KNN.m文件，如下：

%% KNN
clear all
clc
%% data
trainData = [1.0,2.0;1.2,0.1;0.1,1.4;0.3,3.5];
trainClass = [1,1,2,2];
testData = [0.5,2.3];
k = 3;%% distance
row = size(trainData,1);
col = size(trainData,2);
test = repmat(testData,row,1);
dis = zeros(1,row);
for i = 1:rowdiff = 0;for j = 1:coldiff = diff + (test(i,j) - trainData(i,j)).^2;enddis(1,i) = diff.^0.5;
end%% sort
jointDis = [dis;trainClass];
sortDis= sortrows(jointDis');
sortDisClass = sortDis';%% find
class = sort(2:1:k);
member = unique(class);
num = size(member);max = 0;
for i = 1:numcount = find(class == member(i));if count > maxmax = count;label = member(i);end
enddisp('最终的分类结果为：');
fprintf('%d\n',label)

运行之后的结果是，最终的分类结果为：2。和预期结果一样。

三实战

之前，对KNN进行了一个简单的验证，今天我们使用KNN改进约会网站的效果，个人理解，这个问题也可以转化为其它的比如各个网站迎合客户的喜好所作出的推荐之类的，当然，今天的这个例子功能也实在有限。

在这里根据一个人收集的约会数据，根据主要的样本特征以及得到的分类，对一些未知类别的数据进行分类，大致就是这样。

我使用的是python 3.4.3,首先建立一个文件，例如date.py,具体的代码如下：

#coding:utf-8from numpy import *
import operator
from collections import Counter
import matplotlib
import matplotlib.pyplot as plt###导入特征数据
def file2matrix(filename):fr = open(filename)contain = fr.readlines()###读取文件的所有内容count = len(contain)returnMat = zeros((count,3))classLabelVector = []index = 0for line in contain:line = line.strip() ###截取所有的回车字符listFromLine = line.split('\t')returnMat[index,:] = listFromLine[0:3]###选取前三个元素，存储在特征矩阵中classLabelVector.append(listFromLine[-1])###将列表的最后一列存储到向量classLabelVector中index += 1##将列表的最后一列由字符串转化为数字，便于以后的计算dictClassLabel = Counter(classLabelVector)classLabel = []kind = list(dictClassLabel)for item in classLabelVector:if item == kind[0]:item = 1elif item == kind[1]:item = 2else:item = 3classLabel.append(item)return returnMat,classLabel#####将文本中的数据导入到列表##绘图（可以直观的表示出各特征对分类结果的影响程度）
datingDataMat,datingLabels = file2matrix('D:\python\Mechine learing in Action\KNN\datingTestSet.txt')
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,0],datingDataMat[:,1],15.0*array(datingLabels),15.0*array(datingLabels))
plt.show()## 归一化数据,保证特征等权重
def autoNorm(dataSet):minVals = dataSet.min(0)maxVals = dataSet.max(0)ranges = maxVals - minValsnormDataSet = zeros(shape(dataSet))##建立与dataSet结构一样的矩阵m = dataSet.shape[0]for i in range(1,m):normDataSet[i,:] = (dataSet[i,:] - minVals) / rangesreturn normDataSet,ranges,minVals##KNN算法
def classify(input,dataSet,label,k):dataSize = dataSet.shape[0]####计算欧式距离diff = tile(input,(dataSize,1)) - dataSetsqdiff = diff ** 2squareDist = sum(sqdiff,axis = 1)###行向量分别相加，从而得到新的一个行向量dist = squareDist ** 0.5##对距离进行排序sortedDistIndex = argsort(dist)##argsort()根据元素的值从大到小对元素进行排序，返回下标classCount={}for i in range(k):voteLabel = label[sortedDistIndex[i]]###对选取的K个样本所属的类别个数进行统计classCount[voteLabel] = classCount.get(voteLabel,0) + 1###选取出现的类别次数最多的类别maxCount = 0for key,value in classCount.items():if value > maxCount:maxCount = valueclasses = keyreturn classes##测试(选取10%测试）
def datingTest():rate = 0.10datingDataMat,datingLabels = file2matrix('D:\python\Mechine learing in Action\KNN\datingTestSet.txt')normMat,ranges,minVals = autoNorm(datingDataMat)m = normMat.shape[0]testNum = int(m * rate)errorCount = 0.0for i in range(1,testNum):classifyResult = classify(normMat[i,:],normMat[testNum:m,:],datingLabels[testNum:m],3)print("分类后的结果为:,", classifyResult)print("原结果为：",datingLabels[i])if(classifyResult != datingLabels[i]):errorCount += 1.0print("误分率为:",(errorCount/float(testNum)))###预测函数
def classifyPerson():resultList = ['一点也不喜欢','有一丢丢喜欢','灰常喜欢']percentTats = float(input("玩视频所占的时间比?"))miles = float(input("每年获得的飞行常客里程数?"))iceCream = float(input("每周所消费的冰淇淋公升数?"))datingDataMat,datingLabels = file2matrix('D:\python\Mechine learing in Action\KNN\datingTestSet2.txt')normMat,ranges,minVals = autoNorm(datingDataMat)inArr = array([miles,percentTats,iceCream])classifierResult = classify((inArr-minVals)/ranges,normMat,datingLabels,3)print("你对这个人的喜欢程度:",resultList[classifierResult - 1])

新建test.py文件了解程序的运行结果，代码：

#coding:utf-8from numpy import *
import operator
from collections import Counter
import matplotlib
import matplotlib.pyplot as pltimport sys
sys.path.append("D:\python\Mechine learing in Action\KNN")
import date
date.classifyPerson()

运行结果如下图：

K-近邻算法（KNN）概述相关推荐

基于KD树的K近邻算法(KNN)算法
文章目录 KNN 简介 KNN 三要素距离度量 k值的选择分类决策规则 KNN 实现 1,构造kd树 2,搜索最近邻 3,预测用kd树完成最近邻搜索 K近邻算法(KNN)算法,是一种基本的分类与 ...
k近邻算法(KNN)-分类算法
k近邻算法(KNN)-分类算法 1 概念定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. k-近邻算法采用测量不同特征值之间的 ...
01 K近邻算法 KNN
01 K近邻算法 KNN k近邻算法基础等价于 scikit-learn中的机器学习算法封装训练数据集,测试数据集分类准确度超参数考虑距离权重更多关于距离的定义搜索明可夫斯基距离相应的p ...
k近邻算法 (KNN)
k近邻算法 k近邻算法(KNN,K-NearestNeighbor)是一种基本分类和回归方法,监督学习算法,本质上是基于一种数据统计的方法: 核心思想:给定一个训练数据集,对新的输入实例,在训练数据集 ...
一文搞懂K近邻算法(KNN)，附带多个实现案例
简介:本文作者为 CSDN 博客作者董安勇,江苏泰州人,现就读于昆明理工大学电子与通信工程专业硕士,目前主要学习机器学习,深度学习以及大数据,主要使用python.Java编程语言.平时喜欢看书,打篮 ...
K近邻算法(KNN)原理小结
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达目录 1. KNN算法原理 2. KNN算法三要素 3. KNN算 ...
K近邻算法KNN的简述
什么是KNN K近邻算法又称KNN,全称是K-Nearest Neighbors算法,它是数据挖掘和机器学习中常用的学习算法,也是机器学习中最简单的分类算法之一.KNN的使用范围很广泛,在样本量足够大 ...
机器学习-分类之K近邻算法(KNN)原理及实战
k近邻算法(KNN) 简介 KNN算法是数据挖掘分类技术中最简单的方法之一.它通过测量不同特征值之间的距离进行分类的.其基本思路为:如果一个样本在特征空间中的k个最近邻样本中的大多数属于某一个类别,则 ...
基于kd树的k近邻算法——KNN
1.简介 k近邻算法是机器学习中一种基本的分类与回归算法,对你没听错k近邻算法不仅可以用来做分类,还可以用于回归,英文全称为k-Nearest Neighbor简称k-NN.k近邻算法属于一种有监督学 ...
2 机器学习 K近邻算法(KNN) 学习曲线交叉验证手写数字识别
机器学习 1 K-近邻算法介绍 1.1 分类问题分类问题:根据已知样本的某些特征,判断一个未知样本属于哪种样本类别. 与回归问题相比,分类问题的输出结果是离散值,用于指定输入的样本数据属于哪个类别. ...

K-近邻算法（KNN）概述

K-近邻算法（KNN）概述

K-近邻算法（KNN）概述相关推荐

最新文章

热门文章