机器学习入门01-K临近(KNN)的java实现

K临近(KNN)算法是一种原理比较简单的机器学习算法，其原理是将待分类数据与所有样本数据计算距离，根据距离由近到远选取K个临近点，根据临近点占比和距离权重对待分类点进行分类。

由于需要做距离计算，样本数据每个特征必须为数值型数据。加入我们需要对不同鸟进行分类，从翼展、身高、体重三个方面对老鹰、鸽子、麻雀三种鸟进行分类计算。下面给出一组假设的样本数据：

分类	翼展	体重	身高
老鹰	2米	5.0kg	1.0米
鸽子	0.5米	0.5kg	0.3米
麻雀	0.2米	0.05kg	0.1米

从数据中可以看出，由于不同特征的值具跨度范围不一致，如果直接进行计算，容易造成权重失衡，为了消除权重失衡需要对每个特征内部进行归一化，即特征内每个值除以其中的最大值。那么归一化后老鹰(1.0,1.0,1.0)，鸽子(0.25,0.1,0.3),麻雀(0.1,0.01,0.1)。我们可以将这三个特征数据想象为一个个三维空间中的点，那么待分类对象就是计算一个三维坐标距离样本点的距离。假设一个待分类数据(x,y,z)，采用KNN算法进行分类，通过欧式距离可以计算出它离某个样本点(x1,y1,z1)的距离。

计算公式：距离=sqrt((x - x1)^2 + (y - y1)^2 + (z - z1)^2)。

实际实现为了降低计算消耗可以忽略开方运算，只做平方计算，消除值为负数的差值即可。

实现代码：

distance = Math.pow(Double.parseDouble(testData[j]) - Double.parseDouble(sample[j + 1]), 2);

从原理和实现上不难看出，KNN算法没有训练过程，拿到样本数据后就可以直接使用，虽然计算简单，由于需要对每个样本进行距离计算，当样本数量过大后，将会消耗极大的计算时间和内存空间。针对这种问题，可以采用先取出距离较近的一些点，再进行距离计算。即根据待分类数据(x,y,z)，我们增加一个参数，查找半径，当样本数据中超过K个数据处于半径范围内，则停止查找。

实现代码：

private List<String[]> findNearestNeibor(List<String[]> modelList, String[] testData, double radius, int k) {List<String[]> result = new ArrayList<String[]>();double step = radius;while(true) {for(int i = 0; i < modelList.size(); i++) {String[] modelSample = modelList.get(i);List<Boolean> tempResult = new ArrayList<Boolean>();for(int j = 0; j < testData.length; j++) {double sampleMin = Double.parseDouble(testData[j]) - step;double sampleMax = Double.parseDouble(testData[j]) + step;double modelSampleIndex = Double.parseDouble(modelSample[j + 1]);if (modelSampleIndex >= sampleMin && modelSampleIndex <= sampleMax) {tempResult.add(true);}else {tempResult.add(false);}}if (!tempResult.contains(false)) {result.add(modelSample);}}if (result.size() >= k) {return result;}else {step += radius;}}

当查找到大于K个值后，再进行距离计算，找出最近的K个值并给出结果。假设K=1时，即取离待分类点最近的样本点作为分类结果。

实现代码：

private String getResultTag(List<String[]> nearestList, String[] testData) {String result = new String();double min = testData.length;for(int i = 0; i < nearestList.size(); i++) {String[] nearSample = nearestList.get(i);double distance = 0.0;for(int j = 1; j < testData.length; j++) {distance += Math.pow(Double.parseDouble(testData[j]) - Double.parseDouble(nearSample[j]), 2);}if (distance < min) {result = nearSample[0];min = distance;}}return result;}

接下来，进行算法测试，随机生成一个包含10000个样本三种分类的文本文件，分类A的特征一在0.9左右，特征二0.5左右，特征三0.3左右；分类B的特征一在0.3左右，特征二0.6左右，特征三0.9左右；分类C的特征一在0.6左右，特征二0.9左右，特征三0.3左右；

如图：

同样，为了提高计算速度，默认K为1情况下，采用一边读取一边计算距离，当完成整个样本文件读取后，即完成计算。

实现代码：

public String predict(File model, String[] testData) {String result = new String();double min = testData.length;try {BufferedReader reader = new BufferedReader(new FileReader(model));String line;while ((line = reader.readLine()) != null) {String[] sample = line.split(",");double distance = 0.0;for(int j = 0; j < testData.length; j++) {distance += Math.pow(Double.parseDouble(testData[j]) - Double.parseDouble(sample[j + 1]), 2);}if (distance < min) {result = sample[0];min = distance;}}reader.close();}catch (Exception e) {e.printStackTrace();}return result;}

测试代码及测试结果：

public static void main(String[] args) throws Exception{KNN knn = new KNN();String[] testData = new String[] {"0.32","0.65","0.83"};long time1 = System.currentTimeMillis();String result = knn.predict(new File("C:/Users/admin/Desktop/test/sample.csv"), testData);long time2 = System.currentTimeMillis();System.out.println("计算用时：" + (time2 - time1) + "毫秒");System.out.println(result);}

机器学习入门01-K临近(KNN)的java实现相关推荐

机器学习入门 01 —— 机器学习概述
文章目录系列文章机器学习概述 1.1.人工智能概述 1 人工智能应用场景 2 人工智能小案例 3 人工智能发展必备三要素 4 人工智能.机器学习和深度学习 5 小结 1.2.人工智能发展历程 1. ...
01. 机器学习笔记01——K近邻算法 , CV_example
K近邻算法(K-nearest neighbor,KNN算法) 李航博士<统计学习方法> 最近邻(k-Nearest Neighbors,KNN)算法是一种分类算法应用场景:字符识别.文 ...
机器学习入门 —— 超级详细的KNN算法学习笔记、KNN算法的三要素、KNN算法的优缺点
文章目录 KNN(K nearest neighbors) K值的选择和影响 k取值偏小 k取值偏大样本点距离的计算方式闵可夫斯基距离曼哈顿距离欧几里得距离切比雪夫距离余弦距离决策函数的 ...
机器学习入门04-线性回归原理与java实现多元线性回归
线性回归原理: 线性回归公式:y = b + w*x,w表示权重b表示偏置. 在实际实现中可以将公式写作:y = w[0] * x[0] + w[1] * x[1],x[0]=1,这样就可以很方便的进 ...
机器学习入门（九）：非监督学习：5种聚类算法+2种评估模型
机器学习入门专栏其他章节: 机器学习入门(一)线性回归机器学习入门(二)KNN 机器学习入门(三)朴素贝叶斯机器学习入门(四)决策树机器学习入门(五)集成学习机器学习入门(六)支持向量机机器 ...
机器学习入门（七）：多项式回归, PolynomialFeatures详解
机器学习入门专栏其他几个章节: 机器学习入门(一)线性回归机器学习入门(二)KNN 机器学习入门(三)朴素贝叶斯机器学习入门(四)决策树机器学习入门(五)集成学习机器学习入门(六)支持向量机 ...
KNN算法（K临近算法）及使用KNN算法实现手写数字0-9识别
首先感谢博主倔强的小彬雅,本文使用的素材及部分代码来源其博文机器学习入门-用KNN实现手写数字图片识别(包含自己图片转化),需要下载素材的可以到其博文最后进行下载. 关于KNN算法 knn算法也叫K临 ...
机器学习入门KNN近邻算法(一)
1 机器学习处理流程: 2 机器学习分类: 有监督学习主要用于决策支持,它利用有标识的历史数据进行训练,以实现对新数据的表示的预测 1 分类分类计数预测的数据对象是离散的.如短信是否为垃圾短信,用 ...
(视频+图文)机器学习入门系列-第7章 KNN算法
机器学习入门系列,黄海广老师主讲.本站将持续更新,ppt.代码.课后习题见文末. 本系列的目录 01.引言 02.回归 03.逻辑回归 04.朴素贝叶斯 05.机器学习实践 06.机器学习库Sciki ...

机器学习入门01-K临近(KNN)的java实现

机器学习入门01-K临近(KNN)的java实现相关推荐

最新文章

热门文章