作业信息

一.【实验目的】

理解K-近邻算法原理,能实现算法K近邻算法;

掌握常见的距离度量方法;

掌握K近邻树实现算法;

针对特定应用场景及数据,能应用K近邻解决实际问题。

二.【实验内容】

实现曼哈顿距离、欧氏距离、闵式距离算法,并测试算法正确性。

实现K近邻树算法;

针对iris数据集,应用sklearn的K近邻算法进行类别预测。

针对iris数据集,编制程序使用K近邻树进行类别预测。

三.【实验报告要求】

对照实验内容,撰写实验过程、算法及测试结果;

代码规范化:命名规则、注释;

分析核心算法的复杂度;

查阅文献,讨论K近邻的优缺点;

举例说明K近邻的应用场景。

四.【实验结果及截图】

import math

from itertools import combinations

def L(x, y, p=2):

# x1 = [1, 1], x2 = [5,1]

# 此处是定义闵氏距离的公式,x和y分别指数据的行和列,只有维数一致才进行计算,p表示当前进行的是什么运算

if len(x) == len(y) and len(x) > 1:

sum = 0

for i in range(len(x)):

sum += math.pow(abs(x[i] - y[i]), p)

return math.pow(sum, 1/p)

else:

return 0

# 课本例3.1

x1 = [1, 1]

x2 = [5, 1]

x3 = [4, 4]

# 分别在p=1-4的情况下,对x1与x2,x3的距离的计算,并输出最小值

for i in range(1, 5):

r = { \'1-{}\'.format(c):L(x1, c, p=i) for c in [x2, x3]}

print(min(zip(r.values(), r.keys())))

# r此时为字典,values是距离的值,keys表示距离的端点

# 读入iris数据集

# data

iris = load_iris()

df = pd.DataFrame(iris.data, columns=iris.feature_names)

df[\'label\'] = iris.target # 加入一列为分类标签

df.columns = [\'sepal length\', \'sepal width\', \'petal length\', \'petal width\', \'label\']

# data = np.array(df.iloc[:100, [0, 1, -1]])

df

# 做iris散点图,并根据长度进行分类,用0和1标记

plt.scatter(df[:50][\'sepal length\'], df[:50][\'sepal width\'], label=\'0\')

plt.scatter(df[50:100][\'sepal length\'], df[50:100][\'sepal width\'], label=\'1\')

plt.xlabel(\'sepal length\')

plt.ylabel(\'sepal width\')

plt.legend()

data = np.array(df.iloc[:100, [0, 1, -1]])#取出sepal长度、宽度和标签对应列的数据

X, y = data[:,:-1], data[:,-1]#X为sepal length,sepal width y为标签

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)# 将矩阵随机划分为训练集和测试集

#定义KNN这个类

class KNN:

def __init__(self, X_train, y_train, n_neighbors=3, p=2):

"""

parameter: n_neighbors 临近点个数

parameter: p 距离度量

"""

self.n = n_neighbors

self.p = p

self.X_train = X_train

self.y_train = y_train

# 计算出预测含有同一属性的点

def predict(self, X):

# 取出n个点,放入空的列表,列表中存放预测点与训练集点的距离及其对应标签

knn_list = []

for i in range(self.n):

#np.linalg.norm 求范数

dist = np.linalg.norm(X - self.X_train[i], ord=self.p)

knn_list.append((dist, self.y_train[i]))

#依次取出训练集中的点,选出其中n_neighbor个距离最大的点

#距离最小的点存在knn_list中

for i in range(self.n, len(self.X_train)):

\'\'\'

此处 max(num,key=lambda x: x[0])用法:

x:x[]字母可以随意修改,求最大值方式按照中括号[]里面的维度,

[0]按照第一维,

[1]按照第二维

\'\'\'

max_index = knn_list.index(max(knn_list, key=lambda x: x[0]))

dist = np.linalg.norm(X - self.X_train[i], ord=self.p)

if knn_list[max_index][0] > dist:

knn_list[max_index] = (dist, self.y_train[i])

# 统计分类最多的点,确定预测数据的分类

knn = [k[-1] for k in knn_list]

#counter为计数器,按照标签计数

count_pairs = Counter(knn)

#排序

max_count = sorted(count_pairs, key=lambda x:x)[-1]

return max_count

#预测的正确率

def score(self, X_test, y_test):

right_count = 0

n = 10

for X, y in zip(X_test, y_test):

label = self.predict(X)

if label == y:

right_count += 1

return right_count / len(X_test)

clf = KNN(X_train, y_train)

clf.score(X_test, y_test)

0.05

test_point = [6.0, 3.0]#预测点

print(\'Test Point: {}\'.format(clf.predict(test_point)))

Test Point:1.0

#预测点

plt.scatter(df[:50][\'sepal length\'], df[:50][\'sepal width\'], label=\'0\')

plt.scatter(df[50:100][\'sepal length\'], df[50:100][\'sepal width\'], label=\'1\')

#打印预测点

plt.plot(test_point[0], test_point[1], \'bo\', label=\'test_point\')

plt.xlabel(\'sepal length\')

plt.ylabel(\'sepal width\')

plt.legend()

from sklearn.neighbors import KNeighborsClassifier

clf_sk = KNeighborsClassifier()

clf_sk.fit(X_train, y_train)

clf_sk.score(X_test, y_test)

1.0

# kd-tree每个结点中主要包含的数据结构如下 class KdNode(object):

def __init__(self, dom_elt, split, left, right):

self.dom_elt = dom_elt # k维向量节点(k维空间中的一个样本点)

self.split = split # 整数(进行分割维度的序号)

self.left = left # 该结点分割超平面左子空间构成的kd-tree

self.right = right # 该结点分割超平面右子空间构成的kd-tree

class KdTree(object):

def __init__(self, data):

k = len(data[0]) # 数据维度

def CreateNode(split, data_set): # 按第split维划分数据集exset创建KdNode

if not data_set: # 数据集为空

return None

# key参数的值为一个函数,此函数只有一个参数且返回一个值用来进行比较

# operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为需要获取的数据在对象

#data_set.sort(key=itemgetter(split)) # 按要进行分割的那一维数据排序

data_set.sort(key=lambda x: x[split])

split_pos = len(data_set) // 2 # //为Python中的整数除法

median = data_set[split_pos] # 中位数分割点

split_next = (split + 1) % k # cycle coordinates

# 递归的创建kd树

return KdNode(median, split,

CreateNode(split_next, data_set[:split_pos]), # 创建左子树

CreateNode(split_next, data_set[split_pos + 1:])) # 创建右子树

self.root = CreateNode(0, data) # 从第0维分量开始构建kd树,返回根节点

# KDTree的前序遍历 def preorder(root):

print (root.dom_elt)

if root.left: # 节点不为空

preorder(root.left)

if root.right:

preorder(root.right)

#对构建好的kd树进行搜索,寻找与目标点最近的样本点:

from math import sqrt

from collections import namedtuple

#定义一个namedtuple,分别存放最近坐标点、最近距离和访问过的节点数

result = namedtuple("Result_tuple", "nearest_point nearest_dist nodes_visited")

def find_nearest(tree, point):

k = len(point) # 数据维度

def travel(kd_node, target, max_dist):

if kd_node is None:

return result([0] * k, float("inf"), 0) # python中用float("inf")和float("-inf")表示正负

nodes_visited = 1

s = kd_node.split # 进行分割的维度

pivot = kd_node.dom_elt # 进行分割的“轴”

if target[s] <= pivot[s]: # 如果目标点第s维小于分割轴的对应值(目标离左子树更近)

nearer_node = kd_node.left # 下一个访问节点为左子树根节点

further_node = kd_node.right # 同时记录下右子树

else: # 目标离右子树更近

nearer_node = kd_node.right # 下一个访问节点为右子树根节点

further_node = kd_node.left

temp1 = travel(nearer_node, target, max_dist) # 进行遍历找到包含目标点的区域

nearest = temp1.nearest_point # 以此叶结点作为“当前最近点”

dist = temp1.nearest_dist # 更新最近距离

nodes_visited += temp1.nodes_visited

if dist < max_dist:

max_dist = dist # 最近点将在以目标点为球心,max_dist为半径的超球体内

temp_dist = abs(pivot[s] - target[s]) # 第s维上目标点与分割超平面的距离

if max_dist < temp_dist: # 判断超球体是否与超平面相交

return result(nearest, dist, nodes_visited) # 不相交则可以直接返回,不用继续判断

#----------------------------------------------------------------------

# 计算目标点与分割点的欧氏距离

temp_dist = sqrt(sum((p1 - p2) ** 2 for p1, p2 in zip(pivot, target)))

if temp_dist < dist: # 如果“更近”

nearest = pivot # 更新最近点

dist = temp_dist # 更新最近距离

max_dist = dist # 更新超球体半径

# 检查另一个子结点对应的区域是否有更近的点

temp2 = travel(further_node, target, max_dist)

nodes_visited += temp2.nodes_visited

if temp2.nearest_dist < dist: # 如果另一个子结点内存在更近距离

nearest = temp2.nearest_point # 更新最近点

dist = temp2.nearest_dist # 更新最近距离

return result(nearest, dist, nodes_visited)

return travel(tree.root, point, float("inf")) # 从根节点开始递归

data = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]]

kd = KdTree(data)

preorder(kd.root)

[7,2]

[5,4]

[2,3]

[4,7]

[9,6]

[8,1]

from time import clock

from random import random

# 产生一个k维随机向量,每维分量值在0~1之间

def random_point(k):

return [random() for _ in range(k)]

# 产生n个k维随机向量

def random_points(k, n):

return [random_point(k) for _ in range(n)]

ret = find_nearest(kd, [3,4.5])

print (ret)

Result_tuple(nearest_point=[2, 3], nearest_dist=1.8027756377319946, nodes_visited=4)

N = 400000

t0 = clock()

kd2 = KdTree(random_points(3, N)) # 构建包含四十万个3维空间样本点的kd树

ret2 = find_nearest(kd2, [0.1,0.5,0.8]) # 四十万个样本点中寻找离目标最近的点

t1 = clock()

print ("time: ",t1-t0, "s")

print (ret2)

time: 7.299844505209247 s

Result_tuple(nearest_point=[0.10505669630674175, 0.49542598718931097, 0.8033166919543026], nearest_dist=0.007582362181450973, nodes_visited=53)

五.【实验小结】

存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(最近邻)的分类标签。

一般来说我们只选择样本数据集中前k个最相似的数据。通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

k近邻算法原理c语言,实验二 K-近邻算法及应用相关推荐

  1. otsu阈值分割算法原理_大津二值化算法OTSU的理解

    otsu 大津算法介绍: OTSU算法是由日本学者OTSU于1979年提出的一种对图像进行二值化的高效算法. 利用阈值将原图像分成前景,背景两个图象. 前景:用n1,csum,m1来表示在当前阈值下的 ...

  2. c语言 k最近邻分类算法代码,实验二 K-近邻算法及应用

    实验二 K-近邻算法级应用 一.实验目的 1.理解K-近邻算法原理,能实现算法K近邻算法: 2.掌握常见的距离度量方法: 3.掌握K近邻树实现算法: 4.针对特定应用场景及数据,能应用K近邻解决实际问 ...

  3. 大林算法计算机控制实验报告,实验二 大林算法实验报告

    实验二 大林算法实验 1. 实验目的 (1)理解大林算法的基本原理. (2)掌握大林算法的设计过程. 2. 实验仪器 (1) MATLAB 6.5软件 一套 (2) 个人PC机 一台 3. 实验原理 ...

  4. 广州大学2020操作系统实验二:银行家算法

    相关资料 广州大学2020操作系统实验一:进程管理与进程通信 广州大学2020操作系统实验二:银行家算法 广州大学2020操作系统实验三:内存管理 广州大学2020操作系统实验四:文件系统 广州大学2 ...

  5. 深大算法设计与分析实验二——分治法求最近点对问题

    源代码: 深大算法设计与分析实验二--分治法求最近点对问题代码-C/C++文档类资源-CSDN下载 目录 实验问题 一.实验目的: 二.内容: 三.算法思想提示 产生不重复的随机点算法: 蛮力算法: ...

  6. kmeans k值确定 matlab,kmeans算法原理以及实践操作(多种k值确定以及如何选取初始点方法)...

    kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点. 算法原理: (1) 随机选取k个中心点: (2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为 ...

  7. 【每日算法】C语言8大经典排序算法(2)

    接上文--->[每日算法]C语言8大经典排序算法(1) 二.插入类排序 插入排序(Insertion Sort)的基本思想是:每次将一个待排序的记录,按其关键字大小插入到前面已经排好序的子文件中 ...

  8. 【基础机器学习算法原理与实现】使用感知器算法LDA、最小二乘法LSM、Fisher线性判别分析与KNN算法实现鸢尾花数据集的二分类问题

    本文设计并实现了PerceptronLA.PseudoIA.LeastSM.LinearDA.KNN等五个算法类,以及DataProcessor的数据处理类.对感知器算法LDA.最小二乘法LSM的伪逆 ...

  9. zuc算法c需语言,3GPP机密性和完整性算法规范128-EEA3和128-EIA3(二)-祖冲之算法的C语言实现 - 小黑电脑...

    3GPP机密性和完整性算法规范128-EEA3和128-EIA3(一)----密钥生成原理 3GPP机密性和完整性算法规范128-EEA3和128-EIA3(二)----祖冲之算法的C语言实现 3GP ...

最新文章

  1. 录音降噪哪家强?搜狗西工大联合团队DNS挑战赛夺冠
  2. 【Android 系统开发】Android框架 与 源码结构
  3. 哈工程计算机学院领导门志国,电气学院“钥匙工程”第二季:赵洪教授为2018级新生打开专业之门...
  4. 某股份制商业银行数据中心灾备建设经验
  5. java多字段排序,Java8对多个字段排序
  6. linux mysql提示1045_linux mysql ERROR 1045
  7. c# 命名空间命名规范_C#命名空间能力问题和解答 套装2
  8. 事务控制 新增后修改_分布式事务科普(初识篇)
  9. SQLi LABS Less 15 布尔盲注
  10. 研究生怎么看 ,怎么写论文
  11. 一棵树的生物量怎么算_2019玩花园 | 夏天怎么办?
  12. 三次样条插值证明过程及代码实现
  13. 深入Marlin固件
  14. 修改CentOS默认yum源地址提高下载速度
  15. Mysql 错误1366, Incorrect string value: '\\xE6\\xB7\\xB1\\xE5\\x85\\xA5...' for column '
  16. Word2vec模型原理与keras、tensorflow实现word2vec
  17. 如何设置excel中一部分表格显示但是不打印?
  18. poll,ppoll
  19. python 安装已下载好的模块
  20. Win7 的70个使用技巧

热门文章

  1. 在.Net 模板页中使用CSS样式
  2. html中什么标签可作容器,HTML容器标签和文本标签
  3. hadoop mysql 存储过程_hadoop 存储过程
  4. mybatis.net mysql_ADO.NET与ORM的比较(5):MyBatis实现CRUD
  5. nodejs express使用node-xlsx实现文件的上传下载导入导出
  6. 《构架之美》阅读笔记四
  7. 【2012百度之星/资格赛】D:共同狂欢
  8. 数据结构课程设计---最长公共子串
  9. [SDOI2008]仪仗队
  10. Jsoup(二)-- Jsoup查找DOM元素