pyspark dataframe生成一列常量数组

>>> from pyspark.sql.types import *
>>> from pyspark.sql.functions import array>>> tag=array(lit("oracle"),lit("java")
>>> df2.withColumn("tags",tag).show()

结果:

|gender|    ethinicity|first_name|count|rank|year|           tag|
+------+--------------+----------+-----+----+----+--------------+
|  MALE|      HISPANIC|    JAYDEN|  364|   1|2012|[oracle, java]|
|  MALE|WHITE NON HISP|    JOSEPH|  300|   2|2012|[oracle, java]|
|  MALE|WHITE NON HISP|    JOSEPH|  300|   2|2012|[oracle, java]|
|  MALE|      HISPANIC|     JACOB|  293|   4|2012|[oracle, java]|
|  MALE|      HISPANIC|     JACOB|  293|   4|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     DAVID|  289|   6|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     DAVID|  289|   6|2012|[oracle, java]|
|  MALE|      HISPANIC|   MATTHEW|  279|   8|2012|[oracle, java]|
|  MALE|      HISPANIC|   MATTHEW|  279|   8|2012|[oracle, java]|
|  MALE|      HISPANIC|     ETHAN|  254|  10|2012|[oracle, java]|
|  MALE|      HISPANIC|     ETHAN|  254|  10|2012|[oracle, java]|
|  MALE|WHITE NON HISP|   MICHAEL|  245|  12|2012|[oracle, java]|
|  MALE|WHITE NON HISP|   MICHAEL|  245|  12|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     JACOB|  242|  14|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     JACOB|  242|  14|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     MOSHE|  238|  16|2012|[oracle, java]|
|  MALE|WHITE NON HISP|     MOSHE|  238|  16|2012|[oracle, java]|
|  MALE|      HISPANIC|     ANGEL|  236|  18|2012|[oracle, java]|
|  MALE|      HISPANIC|     AIDEN|  235|  19|2012|[oracle, java]|
|  MALE|WHITE NON HISP|    DANIEL|  232|  20|2012|[oracle, java]|
+------+--------------+----------+-----+----+----+--------------+
only showing top 20 rows
>>> arr=["oracle","java"]
>>> mp=[ (lambda x:lit(x))(x) for x in arr ]
>>> df.withColumn("mk",array(mp)).show()
+------+---+----------+----------+--------------+
|  name|age|      role|experience|            mk|
+------+---+----------+----------+--------------+
|  John| 25| Developer|      2.56|[oracle, java]|
| Scott| 30|    Tester|       5.2|[oracle, java]|
|   Jim| 28|       DBA|       3.0|[oracle, java]|
|  Mike| 35|Consultant|      10.0|[oracle, java]|
|Daniel| 26| Developer|       3.2|[oracle, java]|
|  Paul| 29|    Tester|       3.6|[oracle, java]|
| Peter| 30| Developer|       6.5|[oracle, java]|
+------+---+----------+----------+--------------+

【参考】https://stackoverflow.com/questions/59532087/pyspark-equivalent-of-adding-a-constant-array-to-a-dataframe-as-column

pyspark dataframe生成一列常量数组相关推荐

  1. pyspark Dataframe添加一列常量列

    比如添加1列 "0" 使用 from pyspark.sql.functions import lit dm.withColumn('Flag_last_entry',lit(0) ...

  2. PySpark:DataFrame及其常用列操作

    Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...

  3. pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)

    pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate n ...

  4. pandas将dataframe日期数据列的日期转化为日期当月第一天(每月1号)的日期并生成新的数据列(Setting date to beginning of month in dataframe)

    pandas将dataframe日期数据列的日期转化为日期当月第一天(每月1号)的日期并生成新的数据列(Setting date to beginning of month in dataframe) ...

  5. R语言dplyr包为dataframe添加数据列实战( Add Columns):基于mutate()函数添加一个或者多个数据列(尾部添加、头部添加、条件生成、某个具体数据列的前后)

    R语言dplyr包为dataframe添加数据列实战( Add Columns):基于mutate()函数添加一个或者多个数据列(尾部添加.头部添加.条件生成.某个具体数据列的前后) 目录

  6. python 根据判断产生新列_pandas DataFrame 根据多列的值做判断,生成新的列值实例...

    环境:Python3.6.4 + pandas 0.22 主要是DataFrame.apply函数的应用,如果设置axis参数为1则每次函数每次会取出DataFrame的一行来做处理,如果axis为1 ...

  7. PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理

    笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南.pyspark.dataframe跟pandas的差别还是挺大的. 文章目录 1.-------- 查 -------- -- ...

  8. 拯救pandas计划(16)——将DataFrame的奇偶列位置进行前后对调

    拯救pandas计划(16)--将DataFrame的奇偶列位置进行前后对调 / 数据需求 / 需求拆解 / 需求处理 / 总结 最近发现周围的很多小伙伴们都不太乐意使用pandas,转而投向其他的数 ...

  9. access vba 常量数组赋值_VBA数组是什么?有何作用?别担心,你只需用1分钟就明白它是什么...

    Hello,大家好,在前面我们说过Excel函数中间的数组含义,那么你是否知道VBA中间的两个数据处理利器字典+数组呢?他们一旦结合起来将会发挥无可估量的作用,提升执行效率就在分秒之间.今天我们先说说 ...

最新文章

  1. 通过 JS 脚本去除csdn广告
  2. 软件分享大会之Bonny使用感想
  3. uiiamgeview 设置圆角
  4. 关联关系和依赖关系的区别
  5. 用VS 2008开发WCF(一)——最快速的WCF入门
  6. linux的nvme驱动需要关心的统计项
  7. Centos 7网络属性配置及命令
  8. MyEclipse6.5与Perforce的集成
  9. 轻量级开源小程序SDK发车啦
  10. 高阶函数 实现sum(2)(3) 柯里化
  11. UE4之脚本导入fbx
  12. 系统映像恢复计算机重启失败,学会使用win10系统的winRE进行系统启动修复、系统还原、系统重置、系统映像恢复等-网络教程与技术 -亦是美网络...
  13. teststand调用python模块_TestStand 界面重置【小技巧】
  14. linux下部署maven的web项目
  15. Excel如何转化成PDF?教你几个简单的方法
  16. 联想昭阳E43L笔记本无线开关停掉解决方案
  17. 万能通用!权限系统就该这么设计
  18. 基于HAL库的stm32F7串口通信
  19. 照片OCD问题,滑动窗口分类器,上限分析
  20. Android开发之自动更换壁纸

热门文章

  1. 盘古分词 - 多元分词
  2. 从入学到现在,我de感悟
  3. linux get_user,linux内核中的get_user和put_user
  4. 【LaTeX教程】一.LaTeX源文件基本结构
  5. 怎么删除计算机网络连接不上去,本地连接连不上怎么办?电脑本地接连不上如何解决?...
  6. GE Historian9.0服务器安装步骤
  7. 离线下载,腾讯插入迅雷的利刃
  8. 软文 解决网 许怀哲 那些在APP刷榜的公司:为了融资 不刷也得刷
  9. 怎么将c语言作业保存到word,C++程序中导出Word文档的简易方法_c语言
  10. 达梦数据库DCA培训分享