通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候,不能更常用了

在使用map之前 首先要定义一个转换的函数 格式如下:

Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型@Overridepublic LabeledPoint call(String row) throws Exception {//重写call方法String[] rowArr = row.split(",");int rowSize = rowArr.length;double[] doubleArr = new double[rowSize-1];//除了第一位的lable外 其余的部分解析成double 然后放到数组中for (int i = 1; i < rowSize; i++) {String each = rowArr[i];doubleArr[i] = Double.parseDouble(each);}//用刚才得到的数据 转成向量Vector feature = Vectors.dense(doubleArr);double label = Double.parseDouble(rowArr[0]);//构造用于分类训练的数据格式 LabelPointLabeledPoint point = new LabeledPoint(label, feature);return point;}};

  需要特别注意的是:

1、call方法的输入应该是转换之前的数据行的类型  返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

public class TreeEnsemble implements Serializable {
}

  3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

  这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留@Overridepublic Boolean call(String row) throws Exception {//重写call方法boolean flag = row!=null;return flag;}};

  通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

然后是调用方式

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

  

三、mapToPair

该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

同样,需要先定义一个转换函数

Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动@Overridepublic Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动double predicton = thismodel.predict(row.features());double label = row.label();return new Tuple2(predicton, label);}});

  关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

相应的调用如下:

JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);

  然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待

如有补充,或者质疑,或者有相关问题,请发邮件给我,或者直接回复  邮箱:326543991@qq.com

 

转载于:https://www.cnblogs.com/starwater/p/9195764.html

java-spark的各种常用算子的写法相关推荐

  1. java序列化写法_java-spark的各种常用算子的写法

    通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的.然而,目前java开发者特别多,尤其进行数据对接.上线服务的时候,这时候,就需要掌握一些spark在java中的使 ...

  2. java fel_开发中常用Fel的写法

    直接看代码吧: package javademo; import java.util.HashMap; import java.util.Map; import com.greenpineyu.fel ...

  3. 2021年大数据Spark(十五):Spark Core的RDD常用算子

    目录 常用算子 基本算子 分区操作函数算子 重分区函数算子 1).增加分区函数 2).减少分区函数 3).调整分区函数 ​​​​​​​聚合函数算子 ​​​​​​​Scala集合中的聚合函数 ​​​​​ ...

  4. 【Spark】Spark的常用算子

    Spark的常用算子 目录内容 Spark的常用算子 一.转换算子(Transformation) 二.行动算子(Action) 三.键值对算子(PairRDDFunctions) 四.文件系统算子( ...

  5. spark 常用算子

    一.概述 算子 英文翻译为:Operator(简称op) 狭义:指从一个函数空间到另一个函数空间(或它自身)的映射. 广义:指从一个空间到另一个空间的映射 通俗理解:指事物(数据或函数)从一个状态到另 ...

  6. db2dual_DB2常用SQL的写法(持续更新中...)

    DB2常用SQL的写法(持续更新中...) -- Author: lavasoft -- Date  :  2006-12-14 -- 创建一个自定义单值类型 create  distinct typ ...

  7. Spark _07_补充部分算子【二】

    接Spark _06_补充部分算子[一] https://blog.csdn.net/qq_41946557/article/details/102673673 scala API package d ...

  8. Java程序员最常用的20%技术总结

    我听说编程语言,经常使用的是其中20%的技术.在Java这门语言中,这20%包括哪些内容?想找到一份Java初级程序员的工作,有哪些是必须掌握的,有哪些是可以现学现卖的?一个完整的Javaweb项目, ...

  9. psid mysql_DB2常用SQL的写法(持续更新中...)

    DB2常用SQL的写法(持续更新中...) -- Author: lavasoft -- Date  :  2006-12-14 -- 创建一个自定义单值类型 create  distinct typ ...

  10. java日期时间库-常用案例-不保留全分享

    java日期时间库-常用案例-不保留全分享 除了lambda表达式,stream以及几个小的改进之外,Java 8还引入了一套全新的时间日期API,在本篇教程中我们将通过几个简单的任务示例来学习如何使 ...

最新文章

  1. 笔记 - ES6 - 学前浅析
  2. 仙居机器人_【101巨喜讯】又一个全国冠军!仙居学子机器人全国赛获奖啦!
  3. node 之 ... 扩展运算符报错
  4. linux 系统命令
  5. 外企软件测试笔试,外企软件测试面试题目50道
  6. urllib、requests库整理
  7. MS-SQL中创建索引
  8. Python Selenium 调用IE浏览器失败Unexpected error launching Internet Explorer解决方法
  9. PostgreSQL 中文手册
  10. frp内网穿透https
  11. 查看笔记本电脑型号等数据
  12. 计算机开关机操作记录,win7电脑操作记录怎么查看|win7查看电脑操作记录的方法...
  13. 基于仿360小说网站(校园网)的源码设计实现(升级版)
  14. c语言中的fab是什么意思,FAB法则中的F是指什么
  15. 关于docker容器启动后修改或添加端口
  16. unsigned在c语言中的作用,c语言中unsigned char的意义何在
  17. 传感器实验——DHT11温湿度传感器
  18. JDBC 面试题 | 玉琼楼 慵归去
  19. SERVICE03 - Split分离解析 RAID磁盘阵列 进程管理 日志管理
  20. 如何让多行文本出现省略号?

热门文章

  1. Excel不好吗?为什么非要用Python做数据分析
  2. 当R用户用ggplot2 package时,经常问的10个问题
  3. 敲黑板!从零开始,小白如何通过Kaggle竞赛提高数据分析能力!
  4. R for data science之purrr包(上)
  5. learning java AWT 布局管理器 GridLayout
  6. xshell用ssh连接VMware中的ubuntu
  7. RMAN备份与恢复资料
  8. [整理]让winCE支持中文界面(可切换至英文界面)
  9. web前端炫酷特效-CSS3制作环形星星发光动画
  10. 偏差、方差和噪声的权衡关系