用Spark写UDF

操作的数据：

{"city":"St. John's","avgHigh":8.7,"avgLow":0.6}
{"city":"Charlottetown","avgHigh":9.7,"avgLow":0.9}
{"city":"Halifax","avgHigh":11.0,"avgLow":1.6}
{"city":"Fredericton","avgHigh":11.2,"avgLow":-0.5}
{"city":"Quebec","avgHigh":9.0,"avgLow":-1.0}
{"city":"Montreal","avgHigh":11.1,"avgLow":1.4}

object UdfDemo1 {def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setAppName("").setMaster("local")val sc = new SparkContext(conf)// 可以执行SQL语句的实例val sct: SQLContext = new SQLContext(sc)// 以json格式读取文件val file: DataFrame = sct.read.json("E://words.txt")// 创建表file.createOrReplaceTempView("citytemps")// 注册一个函数，  输出的每个数都进行处理sct.udf.register("CTOF",(dc:Double)=>((dc*9.0/5.0)+32.0))// 调用函数         自定义函数(参数)sct.sql("select city,CTOF(avgLow) as avgLows, CTOF(avgHigh) as avgHighs from citytemps").show()sc.stop()}
}

输出结果：

+-------------+-------+--------+
|         city|avgLows|avgHighs|
+-------------+-------+--------+
|         null|   null|    null|
|Charlottetown|  33.62|   49.46|
|      Halifax|  34.88|    51.8|
|  Fredericton|   31.1|   52.16|
|       Quebec|   30.2|    48.2|
|     Montreal|  34.52|   51.98|
+-------------+-------+--------+

用Spark写UDF相关推荐

HQL写topN、Spark写topN
HQL写topN用窗口函数rank() .row_number().dense_rank() 1.rank(),跳跃排序,假如第一第二相同,那么第三个就是3 select * from( select ...
Spark编写UDF函数案例
Spark编写UDF函数案例一.前述二.UDF函数需求:将orders表中 order_dow和order_number进行求和一.前述 SparkSql中自定义函数包括UDF和UDAF UD ...
spark写mysql优化简书_spark读写mysql、hive、kafka数据demo
读取hive库数据 pom.xml依赖配置 org.apache.spark spark-core_2.11 2.1.1 org.apache.spark spark-hive_2.11 2.1.1 ...
spark的UDF和UDAF用法
UDF(user defined function) UDF: 输入一行, 返回一个结果. 一对一关系放入函数一个值, 就返回一个值, 而不会返回多个值. 如下面的例子就可以看出: (x: Stri ...
Spark 写出MySQL报错，java.sql.BatchUpdateException
spark DataFrame 写出到MySQL时报如下错误: java.sql.BatchUpdateException: Column 'name' specified twice at sun. ...
spark hive udf java_【填坑六】 spark-sql无法加载Hive UDF的jar
/usr/custom/spark/bin/spark-sql --deploy-mode client add jar hdfs://${clusterName}/user/hive/udf/udf ...
Spark写Redis+Spark资源配置总结
1. 起源于Error 19/10/16 11:22:06 ERROR YarnClusterScheduler: Lost executor 28 on **********: Container ...
spark写出分布式的训练算法_利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍...
在 Ibotta,我们训练了许多机器学习模型.这些模型为我们的推荐系统.搜索引擎.定价优化引擎.数据质量等提供动力.它们在与我们的移动应用程序交互时为数百万用户做出预测. 当我们使用 Spark 进行 ...
扩展mysql_扩展mysql - 手把手教你写udf
1 MySQL简介 MySQL是最流行的开放源码SQL数据库管理系统,相对于Oracle,DB2等大型数据库系统,MySQL由于其开源性.易用性.稳定性等特点,受到个人使用者.中小型企业甚至一些大型企 ...

用Spark写UDF

用Spark写UDF相关推荐

最新文章

热门文章