欣小白的点滴 —

一.knn算法简介
knn算法（ k nearest neighbor也叫K临近算法）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。
经典案例
有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。

我们要判别上图中那个绿色的圆是属于哪一类数据，则要从它的邻居下手。但一次性看多少个邻居呢？从上图中，你还能看到：
1.若K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
2.若K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。
我们看到，当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。
KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。（根据距离进行判断）

案例二.
假设我们对男性身高的判断为：矮【150.154.158】，中【170，175，178】，高【180.185，188】，而小明的身高为152，我们人类一眼就可以判断出小明的身高属于矮，因为152离150和154最近。这是我们人为的判断，而knn算法呢，就是通过一些算法告诉计算机，让计算机来判断小明的身高属于哪个级别。
二.算法的三要素
1.***K 值***的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，但容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，但缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，使预测发生错误。
在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。
2.***分类决策***规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别。
3.***距离度量***一般采用Lp 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。
距离度量，说白了就是距离计算公式。常见的距离计算公式有如下：https://www.cnblogs.com/soyo/p/6893551.html

1.曼哈顿距离：

2.欧氏距离：d=sqrt（ ∑（xi1-xi2）^2 ）这里i=1,2n
3.余弦距离：

欧氏距离与余弦距离

4.皮尔逊系数：是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值，其中，1 表示变量完全正相关， 0 表示无关，-1 表示完全负相关。在统计学中，皮尔逊积矩相关系数（英语：Pearson product-moment correlation coefficient，又称作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示）用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与1之间。在自然科学领域中，该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。
5.杰卡德距离：https://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html
6.闵可夫斯基距离：

7.切比雪夫距离;在平面几何中，若二点p及q的直角坐标系坐标为(x1,y1)及(x2,y2)，则切比雪夫距离为

8.汉明距离:

9.莱文斯坦距离：被定义为’‘将字符串 s 变换为字符串 t 所需的删除、插入、替换操作的次数’’。
莱文斯坦距离越大，字符串的相似程度越低。
三.算法步骤
1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。
四.代码示例

from sklearn import neighbors
from sklearn import datasets
knn = neighbors.KNeighborsClassifier() # 申明对象
iris = datasets.load_iris()  # 导入数据
print(iris)
knn.fit(iris.data,iris.target) # 生成KNN模型
predicit_label = knn.predict([[0.2,0.3,0.3,0.2]]) # 预测
print(predicit_label)
import csv
import random
import math
import operator'''
导入数据
filename数据存储路径
radio，按指定比例将数据划分为训练集和测试集
'''
def loadDateset(filename,radio,trainSet=[],testSet=[]):with open(filename,'rt') as csvfile:lines = csv.reader(csvfile)  # 逐行读取数据dataset = list(lines)        # 转换为列表存储for x in range(len(dataset)-1):  # 循环每行数据，将前4个特征值存入数组for y in range(4):dataset[x][y] = float(dataset[x][y])if random.random()<radio:    # 取随机值，小于radio就划分到训练集trainSet.append(dataset[x])else:testSet.append(dataset[x])
#计算2个样例之间的距离（欧氏距离），length表示数据的维度
def evaluateDistance(instance1,instance2,length):distance = 0for x in range(length): # 循环每一维度，数值相减并对其平方，然后进行累加distance += pow((instance1[x]-instance2[x]),2)return math.sqrt(distance) # 开方求距离
#对于一个实例，找到离他最近的k个实例
def getNeighbors(trainSet,testInstance,k):distance = []length = len(testInstance)-1 # 每个测试实例的维度for x in range(len(trainSet)-1): # 训练集中每一个实例到测试实例的距离dist = evaluateDistance(testInstance,trainSet[x],length)distance.append((trainSet[x],dist)) # 将每一个训练实例和其对应到测试实例的距离存储到列表distance.sort(key=operator.itemgetter(1)) # operator模块提供的itemgetter函数用于获取距离维度的数据并排序neighbors = [] # 存储离一个实例最近的几个实例for x in range(k): # 取distance中前k个实例存储到neighborsneighbors.append(distance[x][0])return neighbors
在最近的K个实例中投票，少数服从多数，把要预测的实例归到多数那一类
def getResponse(neighbors):classvotes = {} # 定义一个字典，存储每一类别的数目for x in range(len(neighbors)):response = neighbors[x][-1]if response in classvotes:classvotes[response] += 1else:classvotes[response] = 1sortedVotes = sorted(classvotes.items(),key=operator.itemgetter(1),reverse=True) # 排序，输出数目最大的类别return sortedVotes[0][0]
#计算测试集的准确率
def getAccuracy(testSet,predictions):correct = 0for x in range(len(testSet)):if testSet[x][-1] == predictions[x]: # 每行测试用例最后一列的标签与预测标签是否相等correct += 1return (correct/float(len(testSet)))*100.0def main():trainSet = [] # 存储训练集testSet = []  # 存储测试集radio = 0.80  # 按4：1划分loadDateset('G:/PycharmProjects/Machine_Learning/KNN/irisdata.txt',radio,trainSet,testSet) #导入数据并划分print("trainSetNum: "+ str(len(trainSet)))print("testSetNum: "+  str(len(testSet)))predictions = []k = 3 # 选取前k个最近的实例for x in range(len(testSet)): # 循环预测测试集合的每个实例neighbors = getNeighbors(trainSet,testSet[x],k)result = getResponse(neighbors)predictions.append(result)print('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))accuracy = getAccuracy(testSet,predictions)print('Accuracy: ' + repr(accuracy) + '%')if __name__ == '__main__':main()

五.算法优缺点
优点：精度高、对异常值不敏感、无数据输入假定。KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。
缺点：样本分布不均衡时，如果一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

欣小白的点滴 ——knn算法相关推荐

小白のKNN算法理解及代码实现
KNN算法一.概述二.代码实现 2.1 准备数据 2.2数据可视化 2.3数据归一化 2.4 划分训练集和测试集 2.5 KNN分类器的实现三.总结一.概述 k-近邻算法(k-Nearest ...
编写KNN算法预测泰坦尼克号存活率
1.读取文件:titanic3.csv 2.数据预处理 3.分析相关性,定义合适的特征变量 4.训练模型,得出存活率首先引用库(没用的和有用的都在里面,需要你们自己去选择): from sklear ...
使用KNN算法对鸢尾花种类预测
使用KNN算法对鸢尾花种类预测一. 数据集介绍 1.1 小数据集获取 load_* 1.2 大数据集获取 fetch_* 1.3 查看数据分布 seaborn画图的二. 数据集的划分三. 特征工 ...
Python3：《机器学习笔记与实战》之Knn算法（2）识别手写数字
Python3:<机器学习笔记与实战>之Knn算法(2)识别手写数字转载请注明作者和出处:https://blog.csdn.net/weixin_41858342/article/de ...
python手写字母识别_机器学习--kNN算法识别手写字母
本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍对字母图片进行特征提取 kNN算法实现 kNN算法分析一.kNN算法介绍 K近邻(kNN,k ...
【译文】构建一个图书推荐系统 – 基础知识、knn算法和矩阵分解
作者 Susan Li 译者钱亦欣几乎每个人都有过过在某些网站被个性化推销商品的经历,亚马逊会告诉你购买这本书的读者还购买了-,Udemy则会显示浏览了这些课程的学生也浏览了-.Netfilix于 ...
分类算法matlab实例,数据挖掘之分类算法---knn算法(有matlab例子)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...
小白入门谱聚类算法原理与实现
小白入门谱聚类算法原理与实现小白入门谱聚类算法原理与实现 1. 谱聚类是什么? 2.谱聚类步骤 2.1 谱聚类构图 2.2 谱聚类切图 2.2.1RatioCut 2.2.2Ncut 3谱聚类实现 ...
机器学习（6）KNN算法（K-近邻算法）
目录一.基础理论 1.估计器 1.生成模型 2. 模型评估 2.KNN基础 3.API 二.过程 1.获取数据 2.划分数据集 3.特征工程(标准化) 4.KNN算法预估器 4-1.得到预估器 4- ...

欣小白的点滴 ——knn算法

欣小白的点滴 ——knn算法相关推荐

最新文章

热门文章