大体思路是这样的:
1.读取mysql数据,转换成dataframe
2.通过sql增加name和password的均值两个列,分别为name_avg,password_avg
3.name_avg替换name的空值,password_avg替换password的空值

涉及到的点:
1.开窗函数
avg(password) over(rows between 4 preceding and 4 following) 上下4列
2.调优,
case when,防止不必要的计算
3,coalesce函数的使用

package sparksqlimport org.apache.spark.SparkConf
import org.apache.spark.sql.catalyst

基于Scala开发的spark临界点均值法填充缺失值的job相关推荐

  1. 【基于scala语言的spark编程】

    2.1Scala介绍及安装 scala是一门类JAVA的多范式语言,它整合了面向对象编程和函数式编程的最佳特性 Scala运行于Java虚拟机 (JVM)之上,并且兼容现有的Java程序 Scala是 ...

  2. 基于IntelliJ Idea的Scala开发demo一Spark开发demo

    顺着之前SBT的HelloWorld案例(具体请参考我的另外一篇博文<基于IntelliJ Idea的Scala开发demo-SBT包管理demo>) 今天给出一个基于Scala的spar ...

  3. 如何基于Jupyter notebook搭建Spark集群开发环境

    摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...

  4. Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用

    前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境. 本文的目标是写一个Spark应用,并可以在集群中测试. ...

  5. 大数据高级开发工程师——Spark学习笔记(6)

    文章目录 Spark内存计算框架 Spark SQL SparkSQL概述 1. SparkSQL的前世今生 2. 什么是 SparkSQL SparkSQL的四大特性 1. 易整合 2. 统一的数据 ...

  6. 全国大学生大数据技能竞赛——基于Scala和Echart的大数据分析与挖掘

    基于Scala和Echart的大数据分析与挖掘 题目三:大数据分析与挖掘案例 Spark基站统计分析 Scala语法基础 数据读取 1.读取文件数据 (1)按行读取 (2)按字符读取 2.写入数据 数 ...

  7. [学习笔记]黑马程序员Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程

    文章目录 视频资料: 思维导图 一.Spark基础入门(环境搭建.入门概念) 第二章:Spark环境搭建-Local 2.1 课程服务器环境 2.2 Local模式基本原理 2.3 安装包下载 2.4 ...

  8. 《循序渐进学Spark》一1.6 使用Spark Shell开发运行Spark程序

    本节书摘来自华章出版社<循序渐进学Spark>一书中的第1章,第1.6节,作者 小象学院 杨 磊,更多章节内容可以访问云栖社区"华章计算机"公众号查看. 1.6 使用S ...

  9. 好爽 java_Intellij是进行scala开发的一个非常好用的工具,可以非常轻松查看scala源码,当然用它来开发Java也是很爽的,之前一直在用scala ide和ec...

    Intellij是进行scala开发的一个非常好用的工具,可以非常轻松查看scala源码,当然用它来开发Java也是很爽的,之前一直在用scala ide和eclipse,现在换成intellij简直 ...

  10. macos 安装scala_如何在MacOS上安装Scala和Apache Spark

    macos 安装scala by Jose Marcial Portilla 通过何塞·马西尔·波蒂利亚(Jose Marcial Portilla) 如何在MacOS上安装Scala和Apache ...

最新文章

  1. MyBatis中jdbcType=INTEGER、VARCHAR作用
  2. 对于python来说、一个模块就是一个文件-彻底明白Python package和模块
  3. 线程 、进程、协程 三者区别
  4. air display的实践
  5. 一个计算机爱好者的不完整回忆(二十八)关于计算机书籍
  6. MooTools教程(5):事件处理
  7. mysql数据库如何配置服务_MySQL服务如何实现安装及配置
  8. 从前端view到数据访问逻辑的思维导图
  9. 数据分析的5层解读,报表仍是有效的落地实践!
  10. [转载] python numpy 笔记(一)
  11. 视差角计算公式及其推导
  12. [渝粤教育] 天水师范学院 陶质文物保护修复 参考 资料
  13. android 2.1你好八月,八月你好优美句子
  14. Finger.02 - 搭建MQTT服务器
  15. 学习树莓派的几个推荐站点
  16. peewee mysql_tornado+peewee-async+peewee+mysql(一)
  17. Asterisk 实现语音提示:您呼叫的号码无法接通
  18. whm面板降mysql_在cPanel&WHM 78版上可以取消阻止MySQL 5.5
  19. KSO-Linux下Centos7.5防火墙开放某个端口号权限
  20. 浪潮信息推出服务器操作系统Inspur KOS的底气与豪气

热门文章

  1. NoteExpress的使用方法
  2. 关于一维数组(小朋友都能明白的一维数组超详细介绍)
  3. Specification动态查询
  4. python实用30个小技巧
  5. 如何剪辑音频,音频剪辑的简单操作
  6. 博客整理——软件工程实践总结
  7. PCI 卫星影像处理流程(PCI+Inpho+Global Mapper+PS)
  8. 百度地图迁徙大数据_百度地图迁徙大数据:2月5日,成都为全国迁入城市第二;迁出城市第一...
  9. 解决Python无法找到入口——无法定位到程序输入点
  10. 2020年国赛密码学湖湘杯密码学第一题writeup