Scala,Spark和IDEA学习笔记
目录
- distinct和dropDuplicates的区别联系
- IDEA下载Git项目
- 解决A master URL must be set in your configuration错误
- IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息
- Scala集合:Map、Set、List
- scala使用Range来填充一个集合
- dataframe增加列
- 将记录中某个值替换成另外一个值
- SPARK-SQL内置函数之时间日期类
- Scala之Calendar,SimpleDateFormat简单用法
- Window.partitionBy
- Spark查看变量数据类型和Dataframe每列类型
- Scala中 zip或者zipWithIndex的用法
- Spark-SQL之DataFrame操作
- spark 获取dataframe所有列
- Spark中DataFrame的schema讲解
- spark dataframe的时间类型和String类型转化
- Spark中对Dataframe的union 、unionAll和 unionByName方法说明
- spark的union和join操作演示
- DataFrame的repartition、partitionBy、coalesce区别
- spark编译问题解决 object apache is not a member of package org
- IDEA错误:Cannot start compilation: the output path is not specified for module "Test". Specify the out
- Spark中 = = 、= = =之间的区别
- spark自定义函数之——UDF使用详解及代码示例
- Spark之中map与flatMap的区别
- MapReduce基本原理及应用
- DataFrame的apply()、applymap()、map()方法
- spark自定义函数之——UDF使用详解及代码示例
- Scala错误: 找不到或无法加载主类
- Idea启动项目报错:Command line is too long.
- random.nextInt()的用法
distinct和dropDuplicates的区别联系
distinct数据去重
使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。
dropDuplicates:根据指定字段去重
跟distinct方法不同的是,此方法可以根据指定字段去重。
IDEA下载Git项目
参考:https://blog.csdn.net/my_springlove/article/details/80184560
解决A master URL must be set in your configuration错误
参考:https://blog.csdn.net/shenlanzifa/article/details/42679577
IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息
参考
Scala集合:Map、Set、List
参考
scala使用Range来填充一个集合
对于支持range方法的集合你可以直接调用range方法,或者创建一个Range对象然后把它转化为一个目标集合。
参考
dataframe增加列
参考
将记录中某个值替换成另外一个值
df1 = df1.withColumn("columnA", when($"date_1" === 10000, lit(null)).otherwise($"date_1"))
SPARK-SQL内置函数之时间日期类
参考
Scala之Calendar,SimpleDateFormat简单用法
参考
Window.partitionBy
参考
Spark查看变量数据类型和Dataframe每列类型
参考
Scala中 zip或者zipWithIndex的用法
参考
Spark-SQL之DataFrame操作
参考
spark 获取dataframe所有列
dataFrame.schema.fields.map(f =>f.name).toList
Spark中DataFrame的schema讲解
参考
spark dataframe的时间类型和String类型转化
参考
Spark中对Dataframe的union 、unionAll和 unionByName方法说明
参考
spark的union和join操作演示
参考
DataFrame的repartition、partitionBy、coalesce区别
参考
spark编译问题解决 object apache is not a member of package org
解决:
右键工程-open module setting-Libraries-spark-assembly-1.0.0-hadoop1.0.4.jar(添加spark的jar包-保存
IDEA错误:Cannot start compilation: the output path is not specified for module “Test”. Specify the out
参考
Spark中 = = 、= = =之间的区别
参考
spark自定义函数之——UDF使用详解及代码示例
参考
Spark之中map与flatMap的区别
参考
MapReduce基本原理及应用
参考
DataFrame的apply()、applymap()、map()方法
参考
spark自定义函数之——UDF使用详解及代码示例
参考
Scala错误: 找不到或无法加载主类
参考
Idea启动项目报错:Command line is too long.
参考
random.nextInt()的用法
参考
Scala,Spark和IDEA学习笔记相关推荐
- 第14课:spark RDD解密学习笔记
第14课:spark RDD解密学习笔记 本期内容: 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 精通了RDD,学习Spark的时间大大缩短.解决问题能力大大提高, 彻底把精 ...
- pythonsparkpickle_Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...
- spark RDD解密学习笔记
本期内容: 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 精通了RDD,学习Spark的时间大大缩短.解决问题能力大大提高, 彻底把精力聚集在RDD的理解上,SparkStre ...
- Scala下Play框架学习笔记(Actions,Controllers and Results)
Scala下Play框架的学习是一件辛苦的事情,因为该框架比较新,scala语言也较新,所以中文资料很少,经过同事推荐,去了如下英文网站看资料: https://www.playframework.c ...
- spark之sparkcore学习笔记
SparkCore 第一章 Spark和hadoop的关系 1.Spark是一种基于内存的快速.通用.可扩展的大数据分析计算引擎,spark的调度系统和存储都是基于hadoop的组件hdfs. 2.S ...
- 深度实践SPARK机器学习_学习笔记_第二章2.3加载数据
2.3加载数据 1.下载数据文件u.user head -3 u.user ##查看文件前几行 cat u.user |wc -l 或者 more u.user |wc -l ##数文件记录数 ...
- Spark GraphX学习笔记
概述 GraphX是 Spark中用于图(如Web-Graphs and Social Networks)和图并行计算(如 PageRank and Collaborative Filtering)的 ...
- Spark基础学习笔记10:Scala集成开发环境
文章目录 零.本讲学习目标 一.搭建Scala的Eclipse开发环境 (一)安装Scala插件 (二)创建Scala项目 二.搭建Scala的IntelliJ IDEA开发环境 (一)启动IDEA ...
- Spark学习笔记[1]-scala环境安装与基本语法
Spark学习笔记[1]-scala环境安装与基本语法 正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里 ...
最新文章
- javaScript原生定义的函数
- ZooKeeper 3.4.5 分布式环境搭建详解
- dojo/aspect源码解析
- 【千字过程分析】剑指 Offer 04. 二维数组中的查找
- D - Undoubtedly Lucky Numbers CodeForces - 244B(数论 )
- 为你总结了N个真实线上故障,从容应对面试官!
- 项目管理——任务分配闲谈
- 2017-08-14 前端日报
- 苹果年底推出搭载M2芯片MacBook Air和MacBook Pro
- Golang错误和异常处理的正确姿势
- cc2530设计性实验代码三
- 山寨手机软件_有哪些非常好用但是小众的手机软件
- windows环境搭建hadoop
- 百度任玉刚写的对学习Android的理解
- 网站别黑了怎么解决?如何处理网站被黑问题详解
- 设计模式之简单工厂、工厂方法、抽象工厂
- linux中tac命令详解,详解Linux中输出文件内容的rev与tac命令使用
- 计算机绘图图框实验报告,制图基础及计算机绘图实验报告.doc
- spin_lock详解
- Win8快速关机命令
热门文章
- MFC提供的集合类CStringArray类和CPtrArray类
- 【ESP8266】使用ESP8266 NONOS SDK的JSON API
- 数学理论—— 蒙特卡洛近似
- C++ Primer 5th笔记(chap 16 模板和泛型编程)转发参数包
- 区块链BaaS云服务(25)边界智能 IRITA服务
- (chap8 确认访问用户身份的认证) BASIC认证(基本认证)
- 数学建模——ARIMA时间序列预测模型Python代码
- python_面向对象进阶之多继承
- JDK的安装与环境变量配置
- [architecture]-AXI/APB/AHB/ACE的介绍