机器学习 k-近邻算法

1、使用python导入数据

from numpy import *
def createDataSet():group=array([[1.1,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']return group,labels

kNN分类算法：

from numpy import *
import operator
def classify0(inX,dataSet,labels,k):dataSetSize=dataSet.shape[0]    #shape[0]表示dataSet的行数diffMat=tile(inX,(dataSetSize,1))-dataSetsqDiffMat=diffMat**2sqDistances=sqDiffMat.sum(axis=1)distances=sqDistances**0.5sortedDistIndicies=distances.argsort()classCount={}for i in range(k):voteIlabel=labels[sortedDistIndicies[i]]classCount[voteIlabel]=classCount.get(voteIlabel,0)+1sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)return sortedClassCount[0][0]

distances是1*4的矩阵，分别表示待分类的点与所有已知点的距离；sortedDistIndicies是distances从小到大的索引值；voteIlabel相当于临时变量，用来取得标签值；

classCount[voteIlabel]=classCount.get(voteIlabel,0)+1  　　如果在字典classCount中找到key=voteIlabel的value,就加1，找不到的话classCount.get(voteIlabel,0)返回0然后加1

sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)　　先把字典classCount变成列表，再按照第二维降序排列，返回的仍是列表

执行算法：

import kNN
from classify_kNN import *
g,l=kNN.createDataSet()
result=classify0([0,0],g,l,3)
print(result)

输出：

items()：将字典中的项按照列表返回，无序：

get()：返回字典对应key的value值，不存在key时返回第二个参数：

dic={'a':1,'b':2,'c':3}
print(dic.items())
print(dic.get('c','no'))
输出：
dict_items([('b', 2), ('c', 3), ('a', 1)])
3

shape：返回矩阵的维数；

from numpy import *
c=array([[1,1],[2,3,],[5,6]])
print(c)
print(c.shape)
print(c.shape[0])
print(c.shape[1])
输出：
[[1 1][2 3][5 6]]
(3, 2)
3
2

operator.itemgetter()：返回对象特定维的数据，结合sorted()方法使用：

import operator
students=[['刚田武',20,'gangtw'],['朱二娃',25,'zhuerw'],['咪咪two',30,'miomitwo']]
print(sorted(students,key=operator.itemgetter(1),reverse=True))
输出：
[['咪咪two', 30, 'miomitwo'], ['朱二娃', 25, 'zhuerw'], ['刚田武', 20, 'gangtw']]

argsort()：返回数组值从小到大的索引值

归一化数值：在计算欧氏距离的过程中，数值较大的属性对结果的贡献大，如果认为不同属性权重应该相同的话，就需要将数值归一化处理。

from numpy import *
def autoNorm(dataset):minVals=dataset.min(0)  #取每列的最小值，返回数组print(minVals)maxVals=dataset.max(0)print(maxVals)ranges=maxVals-minVals  #ranges是每列的最大值与最小值之差组成的数组print(ranges)normDataset=zeros(shape(dataset))print(normDataset)m=dataset.shape[0]  #取dataset的行数normDataset=dataset-tile(minVals,(m,1))print(normDataset)normDataset=normDataset/tile(ranges,(m,1))print(ranges)return normDataset

minVals=dataset.min(0) #取数据集每列的最小值，返回数组

from numpy import *
dataset=array(([6,5],[3,1000],[10,300]))
print(dataset.min())    #返回所有元素中的最小值
print(dataset.min(0))   #返回每列的最小值组成的数组
print(dataset.min(1))   #返回每行的最小值组成的数组
输出：
3
[3 5]
[ 5  3 10]

m=dataset.shape[0] #取dataset的行数

from numpy import *
dataset=array(([6,5],[3,1000],[10,300]))
print(dataset.shape)    #返回数据集的“形状”，行数和列数
print(dataset.shape[0])     #返回行数
print(dataset.shape[1])     #返回列数
输出：
(3, 2)
3
2

测试分类器：

def datingClassTest():hoRatio=0.1datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')normMat,ranges,minVals=autoNorm(datingDataMat)m=normMat.shape[0]numTestVecs=int(m*hoRatio)errorCount=0for i in range(numTestVecs):classifyerResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)print('classify result is %s ,the real answer is %s'%(classifyerResult,datingLabels[i]))if classifyerResult!=datingLabels[i]:errorCount+=1print('the total error rate is %f'%(errorCount/float(numTestVecs)))

hoRatio=0.1　　测试数据占数据集的10%

使用：输入各参数，输出分类结果：

def classifyPerson():resultList=['not at all','in small doses','in largr doses']timeOnGames=float(input('请输入游戏时间百分比：'))flyMiles=float(input('请输入每年飞行里程数：'))iceCream=float(input('请输入每周消耗的冰淇淋升数：'))datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')normMat,ranges,minVals=autoNorm(datingDataMat)person2test=array([flyMiles,timeOnGames,iceCream])classifierResult=classify0((person2test-minVals)/ranges,normMat,datingLabels,5)print('you may like thie one:',resultList[classifierResult-1])

通过调节k值可以调整分类器的正确率。

使用k近邻算法识别手写数字：

def handwritingClassTest():hwLabels=[]trainingFileList=listdir('digits/trainingDigits')m=len(trainingFileList)trainingMat=zeros((m,1024))for i in range(m):fileNameStr=trainingFileList[i]fileStr=fileNameStr.split('.')[0]classNumStr=int(fileStr.split('_')[0])hwLabels.append(classNumStr)trainingMat[i,:]=img2vector('digits/trainingDigits/%s'%fileNameStr)testFileList=listdir('digits/testDigits')errorCount=0mTest=len(testFileList)for i in range(mTest):fileNameStr=testFileList[i]fileStr=fileNameStr.split('.')[0]classNumStr=int(fileStr.split('_')[0])vectorUnderTest=img2vector('digits/testDigits/%s'%fileNameStr)classifierResult=classify0(vectorUnderTest,trainingMat,hwLabels,3)#print('分类结果：%s,实际结果：%s'%(classifierResult,classNumStr))if(classifierResult!=classNumStr):errorCount+=1print('分类错误总计：',errorCount)print('分类错误率：',errorCount/float(mTest))

注释：

trainingMat用来存储数据集，每个待测记录都要计算与此数据集之间的距离

hwLabels用来存储trainingMat对应的标签

fileNameStr存储文件名

fileStr存储不含后缀的文件名

classNumStr存储每条记录实际标签

vectorUnderTest表示待分类记录

计算分类错误率时，使用float()将int型数据变成浮点型

转载于:https://www.cnblogs.com/zhhy236400/p/9826347.html

机器学习 k-近邻算法相关推荐

机器学习——K近邻算法（KNN）（K Nearest Neighbor）
参考视频与文献: python与人工智能-KNN算法实现_哔哩哔哩_bilibili 机器学习--K近邻算法(KNN)及其python实现_清泉_流响的博客-CSDN博客_python实现knn 机器 ...
[机器学习]K近邻算法及其应用--WEKA工具
K近邻算法理论基础 k近邻模型距离度量 k值的选择分类决策规则 WEKA实战问题背景数据预处理得到分类器对未知的数据进行分类预测 K近邻算法理论基础 (本节内容参考了:李航<统计学习 ...
python机器学习 | K近邻算法学习（1）
K近邻算法学习 1 K近邻算法介绍 1.1算法定义 1.2算法原理 1.3算法讨论 1.3.1 K值选择 1.3.2距离计算 1.3.3 KD树 2 K近邻算法实现 2.1scikit-learn工具 ...
2 机器学习 K近邻算法(KNN) 学习曲线交叉验证手写数字识别
机器学习 1 K-近邻算法介绍 1.1 分类问题分类问题:根据已知样本的某些特征,判断一个未知样本属于哪种样本类别. 与回归问题相比,分类问题的输出结果是离散值,用于指定输入的样本数据属于哪个类别. ...
机器学习[k近邻算法]
k近邻算法简称kNN算法,由Thomas等人在1967年提出[1].它基于以下思想:要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接近的k个样本,统计这些样本的类别进行投票, ...
【机器学习-K近邻算法】
K-近邻算法 K-近邻算法的快速入门 K-近邻(KNN)算法概念殴式距离公式电影分类案例 K-近邻算法API Scikit-learn工具 Scikit-learn包含内容 K-近邻算法API方法 ...
机器学习--K近邻算法（KNN）（2）
一.简介 K-Nearest-Neighbor 算法是一种常用的监督学习算法,它没有显式的训练过程,是'懒惰学习'的显著代表,此类学习算法仅在训练阶段将训练集保存起来,训练时间开销为0,待收到测试样本 ...
机器学习——K近邻算法（KNN）及其python实现
参考视频与文献: https://www.bilibili.com/video/BV1HX4y137TN/?spm_id_from=333.788&vd_source=77c874a500ef ...
机器学习——K近邻算法及乳腺癌检测分类
一.引言 KNN可用于分类和回归,用于分类时是多分类方法. 注意:由于此方法根据预测点近邻的各类点的个数多少来确定该预测点的类别,因此原始类别数据不均衡,将严重影响最终分类效果. 二.KNN分类思想 ...
【机器学习入门】(1) K近邻算法：原理、实例应用（红酒分类预测）附python完整代码及数据集
各位同学好,今天我向大家介绍一下python机器学习中的K近邻算法.内容有:K近邻算法的原理解析:实战案例--红酒分类预测.红酒数据集.完整代码在文章最下面. 案例简介:有178个红酒样本,每一款红酒 ...

机器学习 k-近邻算法

机器学习 k-近邻算法相关推荐

最新文章

热门文章