目录

  • distinct和dropDuplicates的区别联系
  • IDEA下载Git项目
  • 解决A master URL must be set in your configuration错误
  • IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息
  • Scala集合:Map、Set、List
  • scala使用Range来填充一个集合
  • dataframe增加列
  • 将记录中某个值替换成另外一个值
  • SPARK-SQL内置函数之时间日期类
  • Scala之Calendar,SimpleDateFormat简单用法
  • Window.partitionBy
  • Spark查看变量数据类型和Dataframe每列类型
  • Scala中 zip或者zipWithIndex的用法
  • Spark-SQL之DataFrame操作
  • spark 获取dataframe所有列
  • Spark中DataFrame的schema讲解
  • spark dataframe的时间类型和String类型转化
  • Spark中对Dataframe的union 、unionAll和 unionByName方法说明
  • spark的union和join操作演示
  • DataFrame的repartition、partitionBy、coalesce区别
  • spark编译问题解决 object apache is not a member of package org
  • IDEA错误:Cannot start compilation: the output path is not specified for module "Test". Specify the out
  • Spark中 = = 、= = =之间的区别
  • spark自定义函数之——UDF使用详解及代码示例
  • Spark之中map与flatMap的区别
  • MapReduce基本原理及应用
  • DataFrame的apply()、applymap()、map()方法
  • spark自定义函数之——UDF使用详解及代码示例
  • Scala错误: 找不到或无法加载主类
  • Idea启动项目报错:Command line is too long.
  • random.nextInt()的用法

distinct和dropDuplicates的区别联系

distinct数据去重
使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。

dropDuplicates:根据指定字段去重
跟distinct方法不同的是,此方法可以根据指定字段去重。

IDEA下载Git项目

参考:https://blog.csdn.net/my_springlove/article/details/80184560

解决A master URL must be set in your configuration错误

参考:https://blog.csdn.net/shenlanzifa/article/details/42679577

IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息

参考

Scala集合:Map、Set、List

参考

scala使用Range来填充一个集合

对于支持range方法的集合你可以直接调用range方法,或者创建一个Range对象然后把它转化为一个目标集合。
参考

dataframe增加列

参考

将记录中某个值替换成另外一个值

df1 = df1.withColumn("columnA", when($"date_1" === 10000, lit(null)).otherwise($"date_1"))

SPARK-SQL内置函数之时间日期类

参考

Scala之Calendar,SimpleDateFormat简单用法

参考

Window.partitionBy

参考

Spark查看变量数据类型和Dataframe每列类型

参考

Scala中 zip或者zipWithIndex的用法

参考

Spark-SQL之DataFrame操作

参考

spark 获取dataframe所有列

dataFrame.schema.fields.map(f =>f.name).toList

Spark中DataFrame的schema讲解

参考

spark dataframe的时间类型和String类型转化

参考

Spark中对Dataframe的union 、unionAll和 unionByName方法说明

参考

spark的union和join操作演示

参考

DataFrame的repartition、partitionBy、coalesce区别

参考

spark编译问题解决 object apache is not a member of package org

解决:

右键工程-open module setting-Libraries-spark-assembly-1.0.0-hadoop1.0.4.jar(添加spark的jar包-保存

IDEA错误:Cannot start compilation: the output path is not specified for module “Test”. Specify the out

参考

Spark中 = = 、= = =之间的区别

参考

spark自定义函数之——UDF使用详解及代码示例

参考

Spark之中map与flatMap的区别

参考

MapReduce基本原理及应用

参考

DataFrame的apply()、applymap()、map()方法

参考

spark自定义函数之——UDF使用详解及代码示例

参考

Scala错误: 找不到或无法加载主类

参考

Idea启动项目报错:Command line is too long.

参考

random.nextInt()的用法

参考

Scala,Spark和IDEA学习笔记相关推荐

  1. 第14课:spark RDD解密学习笔记

    第14课:spark RDD解密学习笔记 本期内容: 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 精通了RDD,学习Spark的时间大大缩短.解决问题能力大大提高, 彻底把精 ...

  2. pythonsparkpickle_Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

    <Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...

  3. spark RDD解密学习笔记

    本期内容: 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 精通了RDD,学习Spark的时间大大缩短.解决问题能力大大提高, 彻底把精力聚集在RDD的理解上,SparkStre ...

  4. Scala下Play框架学习笔记(Actions,Controllers and Results)

    Scala下Play框架的学习是一件辛苦的事情,因为该框架比较新,scala语言也较新,所以中文资料很少,经过同事推荐,去了如下英文网站看资料: https://www.playframework.c ...

  5. spark之sparkcore学习笔记

    SparkCore 第一章 Spark和hadoop的关系 1.Spark是一种基于内存的快速.通用.可扩展的大数据分析计算引擎,spark的调度系统和存储都是基于hadoop的组件hdfs. 2.S ...

  6. 深度实践SPARK机器学习_学习笔记_第二章2.3加载数据

    2.3加载数据 1.下载数据文件u.user head -3 u.user ##查看文件前几行 cat u.user |wc -l 或者 more u.user |wc -l    ##数文件记录数 ...

  7. Spark GraphX学习笔记

    概述 GraphX是 Spark中用于图(如Web-Graphs and Social Networks)和图并行计算(如 PageRank and Collaborative Filtering)的 ...

  8. Spark基础学习笔记10:Scala集成开发环境

    文章目录 零.本讲学习目标 一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目 二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...

  9. Spark学习笔记[1]-scala环境安装与基本语法

    Spark学习笔记[1]-scala环境安装与基本语法   正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里 ...

最新文章

  1. javaScript原生定义的函数
  2. ZooKeeper 3.4.5 分布式环境搭建详解
  3. dojo/aspect源码解析
  4. 【千字过程分析】剑指 Offer 04. 二维数组中的查找
  5. D - Undoubtedly Lucky Numbers CodeForces - 244B(数论 )
  6. 为你总结了N个真实线上故障,从容应对面试官!
  7. 项目管理——任务分配闲谈
  8. 2017-08-14 前端日报
  9. 苹果年底推出搭载M2芯片MacBook Air和MacBook Pro
  10. Golang错误和异常处理的正确姿势
  11. cc2530设计性实验代码三
  12. 山寨手机软件_有哪些非常好用但是小众的手机软件
  13. windows环境搭建hadoop
  14. 百度任玉刚写的对学习Android的理解
  15. 网站别黑了怎么解决?如何处理网站被黑问题详解
  16. 设计模式之简单工厂、工厂方法、抽象工厂
  17. linux中tac命令详解,详解Linux中输出文件内容的rev与tac命令使用
  18. 计算机绘图图框实验报告,制图基础及计算机绘图实验报告.doc
  19. spin_lock详解
  20. Win8快速关机命令

热门文章

  1. MFC提供的集合类CStringArray类和CPtrArray类
  2. 【ESP8266】使用ESP8266 NONOS SDK的JSON API
  3. 数学理论—— 蒙特卡洛近似
  4. C++ Primer 5th笔记(chap 16 模板和泛型编程)转发参数包
  5. 区块链BaaS云服务(25)边界智能 IRITA服务
  6. (chap8 确认访问用户身份的认证) BASIC认证(基本认证)
  7. 数学建模——ARIMA时间序列预测模型Python代码
  8. python_面向对象进阶之多继承
  9. JDK的安装与环境变量配置
  10. [architecture]-AXI/APB/AHB/ACE的介绍