pyspark dataframe生成一列常量数组
pyspark dataframe生成一列常量数组
>>> from pyspark.sql.types import *
>>> from pyspark.sql.functions import array>>> tag=array(lit("oracle"),lit("java")
>>> df2.withColumn("tags",tag).show()
结果:
|gender| ethinicity|first_name|count|rank|year| tag|
+------+--------------+----------+-----+----+----+--------------+
| MALE| HISPANIC| JAYDEN| 364| 1|2012|[oracle, java]|
| MALE|WHITE NON HISP| JOSEPH| 300| 2|2012|[oracle, java]|
| MALE|WHITE NON HISP| JOSEPH| 300| 2|2012|[oracle, java]|
| MALE| HISPANIC| JACOB| 293| 4|2012|[oracle, java]|
| MALE| HISPANIC| JACOB| 293| 4|2012|[oracle, java]|
| MALE|WHITE NON HISP| DAVID| 289| 6|2012|[oracle, java]|
| MALE|WHITE NON HISP| DAVID| 289| 6|2012|[oracle, java]|
| MALE| HISPANIC| MATTHEW| 279| 8|2012|[oracle, java]|
| MALE| HISPANIC| MATTHEW| 279| 8|2012|[oracle, java]|
| MALE| HISPANIC| ETHAN| 254| 10|2012|[oracle, java]|
| MALE| HISPANIC| ETHAN| 254| 10|2012|[oracle, java]|
| MALE|WHITE NON HISP| MICHAEL| 245| 12|2012|[oracle, java]|
| MALE|WHITE NON HISP| MICHAEL| 245| 12|2012|[oracle, java]|
| MALE|WHITE NON HISP| JACOB| 242| 14|2012|[oracle, java]|
| MALE|WHITE NON HISP| JACOB| 242| 14|2012|[oracle, java]|
| MALE|WHITE NON HISP| MOSHE| 238| 16|2012|[oracle, java]|
| MALE|WHITE NON HISP| MOSHE| 238| 16|2012|[oracle, java]|
| MALE| HISPANIC| ANGEL| 236| 18|2012|[oracle, java]|
| MALE| HISPANIC| AIDEN| 235| 19|2012|[oracle, java]|
| MALE|WHITE NON HISP| DANIEL| 232| 20|2012|[oracle, java]|
+------+--------------+----------+-----+----+----+--------------+
only showing top 20 rows
>>> arr=["oracle","java"]
>>> mp=[ (lambda x:lit(x))(x) for x in arr ]
>>> df.withColumn("mk",array(mp)).show()
+------+---+----------+----------+--------------+
| name|age| role|experience| mk|
+------+---+----------+----------+--------------+
| John| 25| Developer| 2.56|[oracle, java]|
| Scott| 30| Tester| 5.2|[oracle, java]|
| Jim| 28| DBA| 3.0|[oracle, java]|
| Mike| 35|Consultant| 10.0|[oracle, java]|
|Daniel| 26| Developer| 3.2|[oracle, java]|
| Paul| 29| Tester| 3.6|[oracle, java]|
| Peter| 30| Developer| 6.5|[oracle, java]|
+------+---+----------+----------+--------------+
【参考】https://stackoverflow.com/questions/59532087/pyspark-equivalent-of-adding-a-constant-array-to-a-dataframe-as-column
pyspark dataframe生成一列常量数组相关推荐
- pyspark Dataframe添加一列常量列
比如添加1列 "0" 使用 from pyspark.sql.functions import lit dm.withColumn('Flag_last_entry',lit(0) ...
- PySpark:DataFrame及其常用列操作
Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...
- pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)
pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate n ...
- pandas将dataframe日期数据列的日期转化为日期当月第一天(每月1号)的日期并生成新的数据列(Setting date to beginning of month in dataframe)
pandas将dataframe日期数据列的日期转化为日期当月第一天(每月1号)的日期并生成新的数据列(Setting date to beginning of month in dataframe) ...
- R语言dplyr包为dataframe添加数据列实战( Add Columns):基于mutate()函数添加一个或者多个数据列(尾部添加、头部添加、条件生成、某个具体数据列的前后)
R语言dplyr包为dataframe添加数据列实战( Add Columns):基于mutate()函数添加一个或者多个数据列(尾部添加.头部添加.条件生成.某个具体数据列的前后) 目录
- python 根据判断产生新列_pandas DataFrame 根据多列的值做判断,生成新的列值实例...
环境:Python3.6.4 + pandas 0.22 主要是DataFrame.apply函数的应用,如果设置axis参数为1则每次函数每次会取出DataFrame的一行来做处理,如果axis为1 ...
- PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南.pyspark.dataframe跟pandas的差别还是挺大的. 文章目录 1.-------- 查 -------- -- ...
- 拯救pandas计划(16)——将DataFrame的奇偶列位置进行前后对调
拯救pandas计划(16)--将DataFrame的奇偶列位置进行前后对调 / 数据需求 / 需求拆解 / 需求处理 / 总结 最近发现周围的很多小伙伴们都不太乐意使用pandas,转而投向其他的数 ...
- access vba 常量数组赋值_VBA数组是什么?有何作用?别担心,你只需用1分钟就明白它是什么...
Hello,大家好,在前面我们说过Excel函数中间的数组含义,那么你是否知道VBA中间的两个数据处理利器字典+数组呢?他们一旦结合起来将会发挥无可估量的作用,提升执行效率就在分秒之间.今天我们先说说 ...
最新文章
- 通过 JS 脚本去除csdn广告
- 软件分享大会之Bonny使用感想
- uiiamgeview 设置圆角
- 关联关系和依赖关系的区别
- 用VS 2008开发WCF(一)——最快速的WCF入门
- linux的nvme驱动需要关心的统计项
- Centos 7网络属性配置及命令
- MyEclipse6.5与Perforce的集成
- 轻量级开源小程序SDK发车啦
- 高阶函数 实现sum(2)(3) 柯里化
- UE4之脚本导入fbx
- 系统映像恢复计算机重启失败,学会使用win10系统的winRE进行系统启动修复、系统还原、系统重置、系统映像恢复等-网络教程与技术
-亦是美网络...
- teststand调用python模块_TestStand 界面重置【小技巧】
- linux下部署maven的web项目
- Excel如何转化成PDF?教你几个简单的方法
- 联想昭阳E43L笔记本无线开关停掉解决方案
- 万能通用!权限系统就该这么设计
- 基于HAL库的stm32F7串口通信
- 照片OCD问题,滑动窗口分类器,上限分析
- Android开发之自动更换壁纸
热门文章
- 盘古分词 - 多元分词
- 从入学到现在,我de感悟
- linux get_user,linux内核中的get_user和put_user
- 【LaTeX教程】一.LaTeX源文件基本结构
- 怎么删除计算机网络连接不上去,本地连接连不上怎么办?电脑本地接连不上如何解决?...
- GE Historian9.0服务器安装步骤
- 离线下载,腾讯插入迅雷的利刃
- 软文 解决网 许怀哲 那些在APP刷榜的公司:为了融资 不刷也得刷
- 怎么将c语言作业保存到word,C++程序中导出Word文档的简易方法_c语言
- 达梦数据库DCA培训分享