spark 实现K-means算法

package kmeans;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;.
import java.util.Arrays;
import java.util.Iterator;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;import scala.Tuple2;public class kmeans{static double[][] center = new double[4][2];  //这里有4个中心点，为2维static int[] number = new int[4];           //记录属于当前中心点的数据的个数，方便做除法static double[][] new_center = new double[4][2];    //计算出来的新中心点public static void main(String[] args) {// 从文件中读出中心点，并且放入center数组中ArrayList<String> arrayList = new ArrayList<String>();try {File file = new File("/usr/local/hadoop-2.7.3/centers.txt");InputStreamReader input = new InputStreamReader(new FileInputStream(file));BufferedReader bf = new BufferedReader(input);// 按行读取字符串String str;while ((str = bf.readLine()) != null) {arrayList.add(str);}bf.close();input.close();} catch (IOException e) {e.printStackTrace();}// 对ArrayList中存储的字符串进行处理 for (int i = 0; i < 4; i++) {for (int j = 0; j < 2; j++) {String s = arrayList.get(i).split(",")[j];center[i][j] = Double.parseDouble(s);}}//System.out.println("center+++" + center[3][1]);SparkConf conf = new SparkConf().setAppName("kmeans").setMaster("local[*]");JavaSparkContext jsc = new JavaSparkContext(conf);JavaRDD<String> datas = jsc.textFile("spark/input4/k-means.dat");     //从hdfs上读取datawhile(true) {for (int i = 0; i< 4;i++)           //注意每次循环都需要将number[i]变为0{number[i]=0;}//将data分开，得到key: 属于某个中心点的序号（0/1/2/3），value: 与该中心点的距离JavaPairRDD<Integer, Tuple2<Double, Double>> data = datas.mapToPair(new PairFunction<String, Integer,Tuple2<Double, Double>>() {private static final long serialVersionUID = 1L;@Overridepublic Tuple2<Integer,Tuple2<Double, Double>> call(String str) throws Exception {final double[][] loc = center;  String[] datasplit = str.split(",");    double x = Double.parseDouble(datasplit[0]);double y = Double.parseDouble(datasplit[1]);double minDistance = 99999999;int centerIndex = 0;  for(int i = 0;i < 4;i++){double itsDistance = (x-loc[i][0])*(x-loc[i][0])+(y-loc[i][1])*(y-loc[i][1]);if(itsDistance < minDistance){minDistance = itsDistance;centerIndex = i; }}number[centerIndex]++;        //得到属于4个中心点的个数return new Tuple2<Integer,Tuple2<Double, Double>>(centerIndex, new Tuple2<Double,Double>(x,y));// the center's number & data}});//得到key: 属于某个中心点的序号， value:新中心点的坐标JavaPairRDD<Integer, Iterable<Tuple2<Double, Double>>> sum_center = data.groupByKey();//System.out.println(sum_center.collect());JavaPairRDD<Integer,Tuple2<Double, Double>> Ncenter = sum_center.mapToPair(new PairFunction<Tuple2<Integer, Iterable<Tuple2<Double, Double>>>,Integer,Tuple2<Double, Double>>() {private static final long serialVersionUID = 1L;@Overridepublic Tuple2<Integer, Tuple2<Double, Double>> call(Tuple2<Integer, Iterable<Tuple2<Double, Double>>> a)throws Exception {//System.out.println("i am here**********new center******");int sum_x = 0;int sum_y = 0;Iterable<Tuple2<Double, Double>> it = a._2;for(Tuple2<Double, Double> i : it) {sum_x += i._1;sum_y +=i._2;}double average_x = sum_x / number[a._1];double average_y = sum_y/number[a._1];//System.out.println("**********new center******"+a._1+" "+average_x+","+average_y);return new Tuple2<Integer,Tuple2<Double,Double>>(a._1,new Tuple2<Double,Double>(average_x,average_y));} });     //将中心点输出  Ncenter.foreach(new VoidFunction<Tuple2<Integer,Tuple2<Double,Double>>>() {private static final long serialVersionUID = 1L;@Overridepublic void call(Tuple2<Integer,Tuple2<Double,Double>> t) throws Exception {new_center[t._1][0] = t._2()._1;new_center[t._1][1] = t._2()._2;System.out.println("the new center: "+ t._1+"  "+t._2()._1+" , "+t._2()._2);}});//判断新的中心点和原来的中心点是否一样，一样的话退出循环得到结果，不一样的话继续循环（这里可以设置一个迭代次数）double distance = 0;for(int i=0;i<4;i++) {      distance += (center[i][0]-new_center[i][0])*(center[i][0]-new_center[i][0]) + (center[i][1]-new_center[i][1])*(center[i][1]-new_center[i][1]);    }if(distance == 0.0) {//finishedfor(int j = 0;j<4;j++) {System.out.println("the final center: "+"  "+center[j][0]+" , "+center[j][1]);}break;}else {for(int i = 0;i<4;i++) {center[i][0] = new_center[i][0];center[i][1] = new_center[i][1];new_center[i][0] = 0;new_center[i][1] = 0;System.out.println("the new center: "+"  "+center[i][0]+" , "+center[i][1]);}}}}}

输入：

1. centers.txt ：96,826606,776 474,866400,768

data.dat:
存放所有点的坐标存放所有点的坐标。

spark 实现K-means算法相关推荐

kmeans改进 matlab,基于距离函数的改进k―means 算法
摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...
k means算法C语言伪代码,K均值算法（K-Means）
1. K-Means算法步骤算法步骤收敛性定义,畸变函数(distortion function): 伪代码: 1) 创建k个点作为K个簇的起始质心(经常随机选择) 2) 当任意一个点的蔟分配结果 ...
k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
K means 图片压缩
k-means的基本原理较为清晰,这里不多赘述,本次博客主要通过基础的k means算法进行图像的压缩处理. 原理分析在彩色图像中,每个像素的大小为3字节(RGB),可以表示的颜色总数为256 * ...
spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...
Spark mlib KMeans聚类算法
1. 聚类 1.1 什么是聚类? 所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用算法将集合D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度 ...
独家 | R语言中K邻近算法的初学者指南：从菜鸟到大神（附代码＆链接）
作者:Leihua Ye, UC Santa Barbara 翻译:陈超校对:冯羽本文约2300字,建议阅读10分钟本文介绍了一种针对初学者的K临近算法在R语言中的实现方法. 本文呈现了一种在R ...
Spark中常用的算法
Spark中常用的算法: 3.2.1 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类.分类在数据挖掘中是一项重要 ...
OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类目标学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数输入参数样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
OpenCV官方文档理解k - means聚类
理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论我们将这个处理是常用的一个例子. t恤尺寸问题考虑一个公司要发布一个新模型的t恤. 显然 ...

spark 实现K-means算法

spark 实现K-means算法

输入：

spark 实现K-means算法相关推荐

最新文章

热门文章