Spark中RDD的sortBy排序的5种实现方法

在RDD，ortBy可以指定对键还是value进行排序，sortBy可以通过下面5中方式实现排序
假如数据的格式如下，list中元素中分别为名称、单价、数量，字符之间用空格连接，要实现按照单价和数量降序

val products = sc.parallelize(List("A 100 10","B 200 20","C 200 30","D 400 30"))

1.通过Tuple方式，按照数组的元素进行排序，代码如下

products.map(x => {val splits  = x.split(" ")val name = splits(0)val price = splits(1).toDoubleval amount = splits(2).toInt(name,price,amount)}).sortBy(x =>(-x._2,-x._3)).foreach(println)

2. 自定义一个class，继承Ordered 并混入序列化，实现排序方法

class Products(val name :String, val price:Double, val amount:Int) extends Ordered[Products] with Serializable {override def compare(that: Products) = {that.amount-that.amount}override def toString(): String = name + "\t" + price + "\t" + amount
}

在排序的时候，代码如下

 products.map(x => {val splits  = x.split(" ")val name = splits(0)val price = splits(1).toDoubleval amount = splits(2).toIntnew Products(name,price ,amount)}).sortBy(x => x).foreach(println)

3. 使用case class实现排序，推荐使用
case默认实现序列化，并重写toString、equal、hashcode方法，class代码如下

case class Products2(name: String, price : Double, amount: Int) extends Ordered[Products2]{override def compare(that: Products2) = {this.amount - that.amount}
}

在排序时，代码如下

 products.map(x => {val splits  = x.split(" ")val name = splits(0)val price = splits(1).toDoubleval amount = splits(2).toIntProducts2(name,price ,amount)}).sortBy(x => x).foreach(println)

4.使用隐式转换，实现带有排序功能的class，代码如下

    products.map(x => {val splits  = x.split(" ")val name = splits(0)val price = splits(1).toDoubleval amount = splits(2).toIntnew Products3(name,price ,amount)}).sortBy(x => x).foreach(println)implicit  def products3ToOrdered(products3:Products3) :Ordered[Products3] = new Ordered[Products3] {override def compare(that: Products3): Int = {products3.amount - that.amount}}

5.使用Ordering on 实现排序，这种方式比较优雅，但是不推荐使用
先定义class类

class Products3(val name: String, val price : Double, val amount : Int) extends Serializable {override def toString(): String = name + "\t" + price + "\t" + amount
}

在排序时，代码如下

// Ording on 语法
val product4 =  products.map(x => {val splits  = x.split(" ")val name = splits(0)val price = splits(1).toDoubleval amount = splits(2).toInt(name,price,amount)
})implicit  var ord = Ordering[(Double,Int)].on[((String, Double, Int))](x =>(-x._2,-x._3))
product4.sortBy(x=>x).foreach(println)

Spark中RDD的sortBy排序的5种实现方法相关推荐

Spark中RDD转换成DataFrame的两种方式（分别用Java和scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: [plain] view plain copy print? <code class=&q ...
Spark中 RDD之coalesce与repartition区别
Spark中 RDD之coalesce与repartition区别 coalesce def coalesce(numPartitions: Int, shuffle: Boolean = false ...
Java针对ArrayList自定义排序的2种实现方法
这篇文章主要介绍了Java针对ArrayList自定义排序的2种实现方法,结合实例形式总结分析了Java操作ArrayList自定义排序的原理与相关实现技巧,下面就和动力节点java学院小编一起来看看 ...
java代码二进制转为十六进制_Java 中二进制转换成十六进制的两种实现方法
Java 中二进制转换成十六进制的两种实现方法每个字节转成16进制,方法1 /** * 每个字节转成16进制,方法1 * * @param result */ private static Stri ...
Springboot中关于跨域问题的一种解决方法
Springboot中关于跨域问题的一种解决方法参考文章: (1)Springboot中关于跨域问题的一种解决方法 (2)https://www.cnblogs.com/zishu/p/107272 ...
PHP实现对多维数组按照某个键值排序的两种解决方法
实现对多维数组按照某个键值排序的两种解决方法(array_multisort和array_sort): 第一种: array_multisort()函数对多个数组或多维数组进行排序. //对数组$ho ...
Spark中RDD、DataFrame和DataSet的区别与联系
一.RDD.DataFrame和DataSet的定义在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Dataset ...
Spark中RDD与DataFrame与DataSet的区别与联系
1.概述这是一个面试题在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似传统数据库中的二维表格 DataFrame与RDD的主要区别在于,前者带有schema元数据信息,既 ...
Spark 中 RDD 的详细介绍
RDD ---弹性分布式数据集 RDD概述 RDD论文中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.html RDD产生背景为了解决开发人员 ...

Spark中RDD的sortBy排序的5种实现方法

Spark中RDD的sortBy排序的5种实现方法相关推荐

最新文章

热门文章