python两个dataframe求差集_spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集、交集、合集,只选择某一列来对比比较好。新建两个 dataframe :
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("TTyb").setMaster("local")
val sc = new SparkContext(conf)
val spark = new SQLContext(sc)
val sentenceDataFrame = spark.createDataFrame(Seq(
(1, "asf"),
(2, "2143"),
(3, "rfds")
)).toDF("label", "sentence")
sentenceDataFrame.show()
val sentenceDataFrame1 = spark.createDataFrame(Seq(
(1, "asf"),
(2, "2143"),
(4, "f8934y")
)).toDF("label", "sentence")
sentenceDataFrame1.show()
}
差集 except
val newDF = sentenceDataFrame1.select("sentence").except(sentenceDataFrame.select("sentence"))
newDF.show()
+——–+
|sentence|
+——–+
|f8934y |
+——–+
交集 intersect
val newDF = sentenceDataFrame1.select("sentence").intersect(sentenceDataFrame.select("sentence"))
newDF.show()
+——–+
|sentence|
+——–+
| asf|
| 2143|
+——–+
合集 union
val newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence"))
newDF.show()
+——–+
|sentence|
+——–+
| asf|
| 2143|
| f8934y|
| asf|
| 2143|
| rfds|
+——–+
合集最好去一下重 distinct :
val newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence")).distinct()
newDF.show()
+——–+
|sentence|
+——–+
| rfds|
| asf|
| 2143|
| f8934y|
+——–+
python两个dataframe求差集_spark计算两个DataFrame的差集、交集、合集相关推荐
- C语言 有两个矩形 求重叠面积,计算两个矩形重叠面积的简单方法
实验需要,需要计算两个矩形重叠面积 想来想去觉得挺复杂,搜了下,看见一个超给力的方法 这里分享下: function D = DecideOberlap(Reframe,GTframe) x1 = R ...
- python两个集合的交集 合集 差集
python两个集合的交集 合集 差集 https://blog.csdn.net/qq_17753903/article/details/84899612 python & | and or ...
- python的datetime举例_Python datetime库计算两个时间点之间的分钟(秒、天)数
计算两个时间点之间的分钟数 import datetime def minNums(startTime, endTime): '''计算两个时间点之间的分钟数''' # 处理格式,加上秒位 start ...
- python用链表求两数之和_python 算法 - 008 计算两个链表所代表的整数之和 (整数相加法)...
python 算法 - 008 计算两个链表所代表的整数之和 (整数相加法) 知之者不如好之者, 好之者不如乐之者.--<雍也> 知道德者不如好道德者, 好道德者不如乐道德者, 是为形容人 ...
- python求两数之和的命令_python计算两个数的百分比方法
工作中遇到了要计算两个数百分比的问题,python 2.7 环境. 代码: #!/usr/bin/env python #function: 计算百分比 #USAGE: python calculat ...
- python计算两个矩形的重叠_python计算两个矩形框重合百分比的实例
python计算两个矩形框重合百分比的实例 如下所示: def mat_inter(box1,box2): # 判断两个矩形是否相交 # box=(xA,yA,xB,yB) x01, y01, x02 ...
- 【Python实践-1】求一元二次方程的两个解
知识点: import sys, sys模块包含了与Python解释器和它的环境有关的函数. "sys"是"system"的缩写.sys.exit() 中途退出 ...
- python时间差转换成天数_Python实现计算两个时间之间相差天数的方法
本文实例讲述了Python实现计算两个时间之间相差天数的方法.分享给大家供大家参考,具体如下: #-*- encoding:UTF-8 -*- from datetime import date im ...
- Python使用更相减损术计算两个整数的最大公约数
更相减损术是<九章算术>中给出的一种用于约分的方法,也可以用来计算最大公约数,其步骤为: 1)如果两个整数都是偶数,就使用2约简,直到两个整数不再都是偶数,然后执行第2步.如果两个整数不都 ...
最新文章
- 设计模式-备忘录模式
- oracle中app文件夹下,Oracle Form开发之folder(文件夹)功能开发(一)
- 给网页上加广告的一点感受
- Python深浅拷贝教程-面试必问内容
- Linux文本处理命令:cut grep awk sed printf
- python服务器搭建 实战_实战讲解:如何用Python搭建一个服务器
- 天平应什么放置_电子天平讲义全解(使用/维护/分类)
- 外模告急时薪翻倍?中国AI虚拟模特取代高价外模,效果逼真与真人无异。
- 自定义Excel导出简易组件
- IP defragment
- jquey知识点整理
- 【源码】高精度31波段音频均衡器
- ecshop 模板支持php,ecshop模板文件不支持php语句解决办法
- 3DMAX渲染完卡住不动该怎么办?
- 读《饥饿的盛世-乾隆时代的得与失》
- 【Qt5】关于Qt5对xp的兼容说明
- IC验证必备的数字电路基础知识(一):数字逻辑基础
- Nexus因异常重启导致OrientDB数据库变为只读的问题修复
- 微软三维人脸重建论文总结——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》
- HPLC工作原理及仪器组成