机器学习算法之KNN算法,python实现
K近邻算法(KNN):
KNN通过测量不同特征值之间的距离进行分类,其思路是:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是取不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
如下图所示,要决定 绿色圆属于 哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
KNN算法思想:在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
KNN计算步骤如下:
1)算距离:给定测试对象,计算它与训练集中的每个对象的距离
2)找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻
3)做分类:统计前K个点中每个类别的样本出现的频率;返回前K个点出现频率最高的类别作为当前点的预测分类。
KNN算法优缺点:
1、优点
1.1简单,易于理解,易于实现,无需估计参数,无需训练;
1.2适合对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型)
特别适合于多分类问题(multi-modal,对象具有多个类别标签),例如根据基因特征来判断其功能分类,kNN比SVM的表现要好
2、缺点
2.1懒惰算法,对测试样本分类时的计算量大,内存开销大,评分慢;
2.2可解释性较差,无法给出决策树那样的规则。
示例1:不涉及文本文件,直接给出样本。
新建knn.py文件
#coding:utf-8
from numpy import *
import operator#give training date and their labels
def createDataSet():group = array([[1.5,2.0],[1.2,0.2],[1.6,1.1],[0.2,2.1],[0.15,1.4],[0.3,3.0]])labels = ['A','A','A','B','B','B']return group,labels#classify by knn
def classify(input,dataSet,label,k):dataSize = dataSet.shape[0]diff = tile(input,(dataSize,1)) - dataSetsqdiff = diff ** 2squareDist = sum(sqdiff,axis = 1)#行向量分别相加,从而得到新的一个行向量dist = squareDist ** 0.5sortedDistIndex = argsort(dist)#根据元素的值从大到小对元素进行排序,返回下标classCount={}for i in range(k):voteLabel = label[sortedDistIndex[i]]#对选取的K个样本所属的类别个数进行统计classCount[voteLabel] = classCount.get(voteLabel,0) + 1#选取出现的类别次数最多的类别maxCount = 0for key,value in classCount.items():if value > maxCount:maxCount = valueclasses = keyreturn classes
再新建knn_test.py文件:
#-*-coding:utf-8 -*-
import sys
sys.path.append("F://python_test")
import knn
from numpy import *
dataSet,labels = knn.createDataSet()
input = array([1.5,0.4])
K = 3
output = knn.classify(input,dataSet,labels,K)
print("training date is:",input,"classify output is:",output)
运行结果如下:
>>>
('training date is:', array([ 1.5, 0.4]), 'classify output is\xa3\xba', 'A')
示例2:采用文本文件,python读取并进行利用。
用kNN来分类一个手写数字的数据库,这个数据库包括数字0-9的手写体。每个数字大约有200个样本。每个样本保持在一个txt文件中。手写体图像本身的大小是32x32的二值图,转换到txt文件保存后,内容也是32x32个数字。数据库解压后有两个目录:目录trainingDigits存放的是大约2000个训练数据,testDigits存放大约900个测试数据。
数据库链接地址:http://download.csdn.net/detail/piaoxuezhong/9745648
新建一个knn.py脚本文件,文件里面包含四个函数:一个实现knn分类算法,一个用来生成将每个样本的txt文件转换为对应的一个向量,一个用来加载整个数据库,一个加载测试的函数。
from numpy import *
import operator
import os # classify by knn
def kNNClassify(newInput, dataSet, labels, k): numSamples = dataSet.shape[0] # shape[0] give the num of row #step 1: calculate Euclidean distance diff = tile(newInput, (numSamples, 1)) - dataSet # Subtract element-wise squaredDiff = diff ** 2 # squared for the subtract squaredDist = sum(squaredDiff, axis = 1) # sum is performed by row distance = squaredDist ** 0.5 #step 2: sort the distance sortedDistIndices = argsort(distance) classCount = {} # define a dictionary for i in xrange(k): #step 3: choose the min k distance voteLabel = labels[sortedDistIndices[i]] #step 4: count the times labels occur # when the key voteLabel is not in dictionary classCount, get()will return 0 classCount[voteLabel] = classCount.get(voteLabel, 0) + 1 #step 5: the max voted class will return maxCount = 0 for key, value in classCount.items(): if value > maxCount: maxCount = value maxIndex = key return maxIndex # convert image to vector
def img2vector(filename): rows = 32 cols = 32 imgVector = zeros((1, rows * cols)) fileIn = open(filename) for row in xrange(rows): lineStr = fileIn.readline() for col in xrange(cols): imgVector[0, row * 32 + col] = int(lineStr[col]) return imgVector # load dataSet
def loadDataSet(): #step 1: Getting training set print "Getting training set..." dataSetDir = 'F://python_test//digits//' trainingFileList = os.listdir(dataSetDir + 'trainingDigits') numSamples = len(trainingFileList) train_x = zeros((numSamples, 1024)) train_y = [] for i in xrange(numSamples): filename = trainingFileList[i] # get train_x train_x[i, :] = img2vector(dataSetDir + 'trainingDigits/%s' % filename) # get label from file name such as "1_18.txt" label = int(filename.split('_')[0]) # return 1 train_y.append(label) #step 2: Getting testing set print "Getting testing set..." testingFileList = os.listdir(dataSetDir + 'testDigits')numSamples = len(testingFileList) test_x = zeros((numSamples, 1024)) test_y = [] for i in xrange(numSamples): filename = testingFileList[i] # get train_x test_x[i, :] = img2vector(dataSetDir + 'testDigits/%s' % filename) # get label from file name such as "1_18.txt" label = int(filename.split('_')[0]) # return 1 test_y.append(label) return train_x, train_y, test_x, test_y # test hand writing class
def testHandWritingClass(): #step 1: load data print "step 1: load data..." train_x, train_y, test_x, test_y = loadDataSet() #step 2: training... print "step 2: training..." pass #step 3: testing print "step 3: testing..." numTestSamples = test_x.shape[0] matchCount = 0 for i in xrange(numTestSamples): predict = kNNClassify(test_x[i], train_x, train_y, 3) if predict == test_y[i]: matchCount += 1 accuracy = float(matchCount) / numTestSamples #step 4: show the result print "step 4: show the result..." print 'The classify accuracy is: %.2f%%' % (accuracy * 100)
另外,新建一个knn_test.py文件,用来测试实现knn算法:
import knn
knn.testHandWritingClass()
F5运行结果如下:
>>>
step 1: load data...
Getting training set...
Getting testing set...
step 2: training...
step 3: testing...
step 4: show the result...
The classify accuracy is: 98.84%
参考:
http://blog.csdn.net/zouxy09/article/details/16955347 (pythoon实现)
http://www.cnblogs.com/ybjourney/p/4702562.html
http://blog.csdn.net/xiaowei_cqu/article/details/23782561 (opencv实现)
机器学习算法之KNN算法,python实现相关推荐
- 数据挖掘十大经典算法之——KNN 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 模式识别和机器学习实战-K近邻算法(KNN)- Python实现 - 约会网站配对效果判断和手写数字识别
文章目录 前言 一. k-近邻算法(KNN) 1.算法介绍 2.举个例子--电影分类 3.步骤描述 4.来了--代码实现 二.实战之约会网站配对效果判断 1.导入数据 2.分析数据 3.数据归一化 4 ...
- 算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了 前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用 ...
- 【机器学习实战】KNN算法
机器学习作为人工智能的重要分支,同时也是数据挖掘中不可或缺的算法支撑.本人接触时间不短,但研究尚浅.我计划用python来实现机器学习中较为常见的算法. 看透了自己,便无须小看别人. (老舍) 机器学 ...
- 机器学习:基于Knn算法的用户属性判断方案设计
本文作者通过Knn算法进行了一次用户判断预测的流程,文章为作者根据自身经验所做出的总结,希望通过此文能够加深你对Knn算法的认识. knn算法简介 K最近邻(k-Nearest Neighbor,KN ...
- k-近邻算法(KNN)Python实现
**转载请注明作者和出处:**http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 ...
- 【机器学习实战】KNN算法的两个经典例子(电影类型判断,约会网站的改进)
KNN算法的两个常用实际例子 一.使用K-邻近算法来对电影的类型进行判断 1.实验思路: 2.代码实现: 3.运行截图: 4.完整代码展示: 二.在约会网站上使用KNN算法 (一)准备数据:从文本文件 ...
- 《机器学习实战》kNN算法及约会网站代码详解
使用kNN算法进行分类的原理是:从训练集中选出离待分类点最近的kkk个点,在这kkk个点中所占比重最大的分类即为该点所在的分类.通常kkk不超过202020 kNN算法步骤: 计算数据集中的点与待分类 ...
- 机器学习 手写KNN算法预测城市空气质量
文章目录 一.KNN算法简介 二.KNN算法实现思路 三.KNN算法预测城市空气质量 1. 获取数据 2. 生成测试集和训练集 3. 实现KNN算法 一.KNN算法简介 KNN(K-Nearest N ...
- 深入浅出KNN算法(一) KNN算法原理
一.KNN算法概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学 ...
最新文章
- Hibernate的DetachedCriteria使用(含Criteria)
- oracle控制文件都一样么,Oracle控制文件详解
- python中文乱码例子
- [react] React如何进行代码拆分?拆分的原则是什么?
- mt6761v/cbb处理器相当于骁龙多少?_三星S21骁龙版首个跑分成绩出炉 骁龙875或非正式名称...
- Excel中的常用快捷键
- 吴恩达课后作业学习1-week4-homework-two-hidden-layer -1
- 实际应用中installshield的事件处理
- 软件技术PHp试卷,2014-2015软件技术学院AJAX试卷A
- 如何使用 python 爬取全国小区名称
- 蓝牙音箱项目:记录CSR8635芯片的蓝牙音箱的开发过程
- 95后CEO讲述创业“邮件经”
- Web前端鼠标变小手CSS和JS(Vue)两种实现
- css td 比例,CSS设置表格TD宽度布局
- SQL AlawaysOn 之五:ISCSI共享磁盘
- Android Palette 提取图片的主色调
- 做游戏,学编程(C语言) 15 太鼓达人
- Python win32com 操作word 插入回车符,换行符
- HTML + CSS 宝典 第二节 HTML 核心1
- Linux who命令用法详解命令用法详解