spark dataFrame withColumn
说明:withColumn用于在原有DF新增一列
1. 初始化sqlContext
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
2.导入sqlContext隐式转换
import sqlContext.implicits._
3. 创建DataFrames
val df = sqlContext.read.json("file:///usr/local/spark-2.3.0/examples/src/main/resources/people.json")
4. 显示内容
df.show()
5. 为原有df新加一列
df.withColumn("id2", monotonically_increasing_id()+1)
6. 显示添加列后的内容
res6.show()
完成的过程如下:
转载于:https://www.cnblogs.com/abcdwxc/p/9225855.html
spark dataFrame withColumn相关推荐
- Spark DataFrame 添加自增id
方法一:利用窗口函数 /*** 设置窗口函数的分区以及排序,因为是全局排序而不是分组排序,所有分区依据为空* 排序规则没有特殊要求也可以随意填写*/val spec = Window.partitio ...
- spark dataframe 一列分隔多列,一列分隔多行(scala)
关于spark dataframe ,这里介绍三种实用中实现可能比较麻烦的操作,首先上原始数据集 mRecord: 一,合并content列,将name相同的content合并到一行,用逗号隔开: m ...
- 如何优雅的实现pandas DataFrame 和spark dataFrame 相互转换
如何优雅的实现pandas DataFrame 和spark dataFrame 相互转换 #!/usr/bin/env python3 # -*- coding: utf-8 -*- "& ...
- 学习笔记Spark(七)—— Spark SQL应用(2)—— Spark DataFrame基础操作
二.Spark DataFrame基础操作 2.1.DataFrame DataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表. 数据集的每一列都带有名称和类 ...
- 基于Alluxio系统的Spark DataFrame高效存储管理技术
介绍 越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能.Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平 ...
- pyspark —— spark dataframe 从hdfs读写文件:按照指定文件格式读写文件(读写csv、json、text文件,读取hive表,读取MySQL表)、按照指定分隔符读写文件
spark有3种数据结构--RDD.DataFrame.DataSet.这里展示的文件读写方式,都是针对dataFrame数据结构的,也就是文件读进来之后,是一个spark dataFrame. 0. ...
- spark dataframe的select和selectexpr的区别
对比: spark dataframe的select和selectexpr的区别 select是把要遍历的集合ienumerable逐一遍历,每次返回一个t,合并之后直接返回一个ienumerable ...
- [Spark进阶]-- Spark Dataframe操作
参考:https://github.com/rklick-solutions/spark-tutorial/wiki/Spark-SQL#introduction Skip to co Spark S ...
- spark DataFrame新增一列id列(单调递增,不重复)的几种方法
1.使用functions里面的monotonically_increasing_id(),生成单调递增,不保证连续,最大64bit,的一列.分区数不变. import org.apache.spar ...
最新文章
- Oracle RAC错误之--oifcfg错误案例
- cdev_alloc和cdev_init 的使用
- 用一个小球揭开地球的面纱,探索地球运转的秘密!
- (王道408考研操作系统)第五章输入/输出(I/O)管理-第一节1:I/O设备的概念和分类
- Sharepoint定制的时候应该注意的事项
- JS 立即执行的函数表达式(function)写法
- win7计算机时间显示错误,win7系统时间调不对的解决方法
- 一次通过PMP认证考试的心得分享
- 数据特征分析方法总结
- 手机html图片自适应屏幕大小,手机端 图片自适应屏幕尺寸
- 「Slack」- 安装 @20210303
- 哈工大计算机网络Mooc 最后的总结
- 第58章 热力学、热量和你
- Cannot unpack file C:\Users\ADMINI~1\AppData\Local\Temp\pip-ilsapnxq-unpack\simple.htm
- Direct3D Devices
- 深夜磨刀,Linux Graphics Stack 概述 | Linux 驱动
- Apollo星火计划学习笔记——Apollo开放空间规划算法原理与实践
- STC 单片机应使用何种编译器/汇编器
- 各类学习网站分享和好用的工具及插件
- 武汉理工计算机学硕是几年,2021年武汉理工大学计算机技术考研成功经验分享...