spark常用RDD算子 - take(),takeOrdered(),top(),first()
take(),takeOrdered(),top() 返回一个列表,first()返回一个值
take
def take(num: Int): Array[T]
take用于获取RDD中从0到num-1下标的元素,不排序。
top
def top(num: Int)(implicit ord: Ordering[T]): Array[T]
top函数用于从RDD中,按照默认(降序)或者指定的排序规则,返回前num个元素。
takeOrdered
def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]
takeOrdered和top类似,只不过以和top相反的顺序返回元素。
代码示例
List<String> names = Arrays.asList("w13","w24","w55","w16","w7","w11","w22","w18","w99","w10","w11","w52");//将list转为RDD并且分为2个partition
JavaRDD<String> nameRDD = javaSparkContext.parallelize(names,2);List<String> take = nameRDD.take(3);
//take返回结果 w13, w24, w55List<String> top = nameRDD.top(3);
//top返回结果 w99, w7, w55List<String> takeOrderList = nameRDD.takeOrdered(3);
//takeOrdered 返回结果 w10, w11, w11String first = nameRDD.first();
//first 返回结果 w13
spark常用RDD算子 - take(),takeOrdered(),top(),first()相关推荐
- spark常用RDD算子 汇总(java和scala版本)
github: https://github.com/zhaikaishun/spark_tutorial spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将s ...
- Spark常用RDD算子 - saveAsTextFile、saveAsObjectFile 可保存到本地文件或hdfs系统中
saveAsTextFile 函数原型 def saveAsTextFile(path: String): Unit def saveAsTextFile(path: String, codec: C ...
- Spark常用的算子以及Scala函数总结
上海站 | 高性能计算之GPU CUDA培训 4月13-15日 三天密集式学习 快速带你晋级 阅读全文 > 正文共11264个字,7张图,预计阅读时间28分钟. Spark与Scala 首先, ...
- Spark 基础——RDD 算子
RDD弹性分布式数据集(Resilient Distributed Dataset)是 Spark 最基本也是最根本的数据抽象 RDD 它具备像 MapReduce 等数据流模型的容错性(fault- ...
- Spark 常用行动算子使用总结
前言 Spark RDD 中提供了丰富的 行动算子可以帮助我们完成对RDD数据的一些常用统计.聚合等业务的操作,下面将常用的行动算子进行使用总结: reduce 函数签名 def reduce(f: ...
- Spark框架——RDD算子mapPartitions迭代器(基于Scala语言)
/*mapPartitions 和map算子是一样的,只不过map是针对每一条数据进行转换,mapPartitions 针对一整个分区的数据进行转换 1.map的func的参数是单条数据,mapPar ...
- RDD编程-RDD算子的使用
文章目录 前言 一.map 二.mapPartition 三.mapPartitionsWithIndex 四.flatMap 五.glom 六.mapValues 七.filter 八.keyBy ...
- spark应用程序转换_Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
- Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...
最新文章
- iOS开发 BLE 蓝牙4.0
- Adhesive框架系列文章--分布式组件客户端模块使用
- Windows下Python 3.6 + VS2017 + Anaconda 解决Unable to find vcvarsall.bat问题
- 前端日拱一卒D9——ES6笔记之基础篇
- FlashInspector 【Firefox浏览器插件,flash分析工具】
- java jls8_GitHub - scmod/jls8
- 用最简单的方法判断一个LONG整形的数A是2^n(2的n次方)
- 2018年最新Spring Boot视频教程附代码笔记资料(50G)
- JavaScript学习(四十二)—利用工厂模式创建对象以及工厂模式创建对象的不足
- 初学FPGA一些建议
- 45. Element isDefaultNamespace() 方法
- 采用new分配内存失败时为什么会出现两种错误报告方式?
- 【SVN】解决SVN安装语言包后无法选择中文的问题
- 沪深300指数的跟踪基金最近1年收益排名
- 网络资源下载操作及其原理学习: 如迅雷与百度网盘
- Latex 学术撰写工具推荐(在线、Windows、Mac、Linux)
- matlab生成的数值为inf,计算值时为Nan / inf
- 打造属于自己的量化投资系统9——支持向量机SVM算法在股票预测涨跌中应用
- android图片布局填冲满,Android图片裁剪库——cropper使用,完美解决图片填充不满布局问题...
- 致我们失去但美好回忆的青春