一.knn算法简介
knn算法( k nearest neighbor也叫K临近算法)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
经典案例
有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。

我们要判别上图中那个绿色的圆是属于哪一类数据,则要从它的邻居下手。但一次性看多少个邻居呢?从上图中,你还能看到:
1.若K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。
2.若K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。
我们看到,当无法判定当前待分类点是从属于已知分类中的哪一类时,我们可以依据统计学的理论看它所处的位置特征,衡量它周围邻居的权重,而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。
KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。(根据距离进行判断)

案例二.
假设我们对男性身高的判断为:矮【150.154.158】,中【170,175,178】,高【180.185,188】,而小明的身高为152,我们人类一眼就可以判断出小明的身高属于矮,因为152离150和154最近。这是我们人为的判断,而knn算法呢,就是通过一些算法告诉计算机,让计算机来判断小明的身高属于哪个级别。
二.算法的三要素
1.***K 值***的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用,但容易发生过拟合;如果 K 值较大,优点是可以减少学习的估计误差,但缺点是学习的近似误差增大,这时与输入实例较远的训练实例也会对预测起作用,使预测发生错误。
在实际应用中,K 值一般选择一个较小的数值,通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时,误差率不会超过贝叶斯误差率的2倍,如果K也趋向于无穷,则误差率趋向于贝叶斯误差率。
2.***分类决策***规则往往是多数表决,即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别。
3.***距离度量***一般采用Lp 距离,当p=2时,即为欧氏距离,在度量之前,应该将每个属性的值规范化,这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。
距离度量,说白了就是距离计算公式。常见的距离计算公式有如下:https://www.cnblogs.com/soyo/p/6893551.html

1.曼哈顿距离:

2.欧氏距离:d=sqrt( ∑(xi1-xi2)^2 ) 这里i=1,2n
3.余弦距离:

欧氏距离与余弦距离

4.皮尔逊系数:是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。
5.杰卡德距离:https://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html
6.闵可夫斯基距离:

7.切比雪夫距离;在平面几何中,若二点p及q的直角坐标系坐标为(x1,y1)及(x2,y2),则切比雪夫距离为

8.汉明距离:

9.莱文斯坦距离:被定义为’‘将字符串 s 变换为字符串 t 所需的删除、插入、替换操作的次数’’。
莱文斯坦距离越大,字符串的相似程度越低。
三.算法步骤
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
四.代码示例

from sklearn import neighbors
from sklearn import datasets
knn = neighbors.KNeighborsClassifier() # 申明对象
iris = datasets.load_iris()  # 导入数据
print(iris)
knn.fit(iris.data,iris.target) # 生成KNN模型
predicit_label = knn.predict([[0.2,0.3,0.3,0.2]]) # 预测
print(predicit_label)
import csv
import random
import math
import operator'''
导入数据
filename数据存储路径
radio,按指定比例将数据划分为训练集和测试集
'''
def loadDateset(filename,radio,trainSet=[],testSet=[]):with open(filename,'rt') as csvfile:lines = csv.reader(csvfile)  # 逐行读取数据dataset = list(lines)        # 转换为列表存储for x in range(len(dataset)-1):  # 循环每行数据,将前4个特征值存入数组for y in range(4):dataset[x][y] = float(dataset[x][y])if random.random()<radio:    # 取随机值,小于radio就划分到训练集trainSet.append(dataset[x])else:testSet.append(dataset[x])
#计算2个样例之间的距离(欧氏距离),length表示数据的维度
def evaluateDistance(instance1,instance2,length):distance = 0for x in range(length): # 循环每一维度,数值相减并对其平方,然后进行累加distance += pow((instance1[x]-instance2[x]),2)return math.sqrt(distance) # 开方求距离
#对于一个实例,找到离他最近的k个实例
def getNeighbors(trainSet,testInstance,k):distance = []length = len(testInstance)-1 # 每个测试实例的维度for x in range(len(trainSet)-1): # 训练集中每一个实例到测试实例的距离dist = evaluateDistance(testInstance,trainSet[x],length)distance.append((trainSet[x],dist)) # 将每一个训练实例和其对应到测试实例的距离存储到列表distance.sort(key=operator.itemgetter(1)) # operator模块提供的itemgetter函数用于获取距离维度的数据并排序neighbors = [] # 存储离一个实例最近的几个实例for x in range(k): # 取distance中前k个实例存储到neighborsneighbors.append(distance[x][0])return neighbors
在最近的K个实例中投票,少数服从多数,把要预测的实例归到多数那一类
def getResponse(neighbors):classvotes = {} # 定义一个字典,存储每一类别的数目for x in range(len(neighbors)):response = neighbors[x][-1]if response in classvotes:classvotes[response] += 1else:classvotes[response] = 1sortedVotes = sorted(classvotes.items(),key=operator.itemgetter(1),reverse=True) # 排序,输出数目最大的类别return sortedVotes[0][0]
#计算测试集的准确率
def getAccuracy(testSet,predictions):correct = 0for x in range(len(testSet)):if testSet[x][-1] == predictions[x]: # 每行测试用例最后一列的标签与预测标签是否相等correct += 1return (correct/float(len(testSet)))*100.0def main():trainSet = [] # 存储训练集testSet = []  # 存储测试集radio = 0.80  # 按4:1划分loadDateset('G:/PycharmProjects/Machine_Learning/KNN/irisdata.txt',radio,trainSet,testSet) #导入数据并划分print("trainSetNum: "+ str(len(trainSet)))print("testSetNum: "+  str(len(testSet)))predictions = []k = 3 # 选取前k个最近的实例for x in range(len(testSet)): # 循环预测测试集合的每个实例neighbors = getNeighbors(trainSet,testSet[x],k)result = getResponse(neighbors)predictions.append(result)print('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))accuracy = getAccuracy(testSet,predictions)print('Accuracy: ' + repr(accuracy) + '%')if __name__ == '__main__':main()

五.算法优缺点
优点:精度高、对异常值不敏感、无数据输入假定。KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。
缺点:样本分布不均衡时,如果一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

欣小白的点滴 ——knn算法相关推荐

  1. 小白のKNN算法理解及代码实现

    KNN算法 一.概述 二.代码实现 2.1 准备数据 2.2数据可视化 2.3数据归一化 2.4 划分训练集和测试集 2.5 KNN分类器的实现 三.总结 一.概述 k-近邻算法(k-Nearest ...

  2. 编写KNN算法预测泰坦尼克号存活率

    1.读取文件:titanic3.csv 2.数据预处理 3.分析相关性,定义合适的特征变量 4.训练模型,得出存活率 首先引用库(没用的和有用的都在里面,需要你们自己去选择): from sklear ...

  3. 使用KNN算法对鸢尾花种类预测

    使用KNN算法对鸢尾花种类预测 一. 数据集介绍 1.1 小数据集获取 load_* 1.2 大数据集获取 fetch_* 1.3 查看数据分布 seaborn画图的 二. 数据集的划分 三. 特征工 ...

  4. Python3:《机器学习笔记与实战》之Knn算法(2)识别手写数字

    Python3:<机器学习笔记与实战>之Knn算法(2)识别手写数字 转载请注明作者和出处:https://blog.csdn.net/weixin_41858342/article/de ...

  5. python手写字母识别_机器学习--kNN算法识别手写字母

    本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍 对字母图片进行特征提取 kNN算法实现 kNN算法分析 一.kNN算法介绍 K近邻(kNN,k ...

  6. 【译文】构建一个图书推荐系统 – 基础知识、knn算法和矩阵分解

    作者 Susan Li 译者 钱亦欣 几乎每个人都有过过在某些网站被个性化推销商品的经历,亚马逊会告诉你购买这本书的读者还购买了-,Udemy则会显示浏览了这些课程的学生也浏览了-.Netfilix于 ...

  7. 分类算法matlab实例,数据挖掘之分类算法---knn算法(有matlab例子)

    knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法 必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...

  8. 小白入门谱聚类算法原理与实现

    小白入门谱聚类算法原理与实现 小白入门谱聚类算法原理与实现 1. 谱聚类是什么? 2.谱聚类步骤 2.1 谱聚类构图 2.2 谱聚类切图 2.2.1RatioCut 2.2.2Ncut 3谱聚类实现 ...

  9. 机器学习(6)KNN算法(K-近邻算法)

    目录 一.基础理论 1.估计器 1.生成模型 2. 模型评估 2.KNN基础 3.API 二.过程 1.获取数据 2.划分数据集 3.特征工程(标准化) 4.KNN算法预估器 4-1.得到预估器 4- ...

最新文章

  1. error while loading shared libraries: libopencv_core.so.3.4: cannot open 报错解决方法
  2. Unable to locate Attribute with the the given name [] on this ManagedType[com.XXX]
  3. 注册中心ZooKeeper、Eureka、Consul 对比
  4. Swift调用第三方OC项目
  5. 在FSM模型中使用两态数据类型
  6. rda冗余分析步骤_群落分析的典范对应分析(CCA)概述
  7. Dart中的mixins
  8. java+map申明_Java中两种HashMap申明方式区别?
  9. docker搭建lnmp环境
  10. oracle union all 特别慢_Oracle查询性能优化
  11. rust显卡要求 steam_Steam夏促游戏销量排行,Epic称暂时不要买地平线黎明时分,虚幻5引擎配置要求不高,热血无赖电影开拍,Steam夏促育碧专区...
  12. 深度学习pytorch基础入门教程(1小时)-神经网络
  13. php创建mysql分区_创建mysql表分区的方法_MySQL
  14. 1.XML的基础和DOCTYPE字段的解析 DTD——文档类型定义(Document Type Definition)/ 由于XML可以自定义标签,那么自然各人编写的标签不一样,这样同步数据便成了问
  15. VSCode: 快捷键大全
  16. SoapUI接口测试——SoapUI简介
  17. Android 根据手机自带GPS获取当前位置,经纬度
  18. asp.net970-宠物医院管理系统#毕业设计
  19. 各种浏览器UserAgent一览表(桌面+移动)
  20. 关于启动报错:Field xxxMapper in com.xxx.service.impl.xxxServiceImpl required a bean of type的解决方案

热门文章

  1. linux查看并设置开放端口
  2. 第三节 Hadoop学习案例——MapReduce课程设计 好友推荐功能
  3. Android 短视频编辑开发前言(一)
  4. 分享6款越用越好用的微信小程序
  5. Sahil: 创建十亿美金公司的失败反思 - 人物志22篇
  6. 并行与分布式计算应用于计算机视觉,分布式并行空间索引机制的研究
  7. 模糊C均值聚类(FCM)算法介绍及其Python实现
  8. 神器| 良心杀毒软件,干净纯粹!
  9. Linux Zabbix——zabbix可视化、监控模板配置、自定义监控参数、自动发现监控下设备、数据库监控、企业proxy分布式监控搭建配置...
  10. iOS项目中的URL Schemes与白名单