spark 计算两个dataframe 的差集、交集、合集,只选择某一列来对比比较好。新建两个 dataframe :

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.SQLContext

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TTyb").setMaster("local")

val sc = new SparkContext(conf)

val spark = new SQLContext(sc)

val sentenceDataFrame = spark.createDataFrame(Seq(

(1, "asf"),

(2, "2143"),

(3, "rfds")

)).toDF("label", "sentence")

sentenceDataFrame.show()

val sentenceDataFrame1 = spark.createDataFrame(Seq(

(1, "asf"),

(2, "2143"),

(4, "f8934y")

)).toDF("label", "sentence")

sentenceDataFrame1.show()

}

差集 except

val newDF = sentenceDataFrame1.select("sentence").except(sentenceDataFrame.select("sentence"))

newDF.show()

+——–+

|sentence|

+——–+

|f8934y |

+——–+

交集 intersect

val newDF = sentenceDataFrame1.select("sentence").intersect(sentenceDataFrame.select("sentence"))

newDF.show()

+——–+

|sentence|

+——–+

| asf|

| 2143|

+——–+

合集 union

val newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence"))

newDF.show()

+——–+

|sentence|

+——–+

| asf|

| 2143|

| f8934y|

| asf|

| 2143|

| rfds|

+——–+

合集最好去一下重 distinct :

val newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence")).distinct()

newDF.show()

+——–+

|sentence|

+——–+

| rfds|

| asf|

| 2143|

| f8934y|

+——–+

python两个dataframe求差集_spark计算两个DataFrame的差集、交集、合集相关推荐

  1. C语言 有两个矩形 求重叠面积,计算两个矩形重叠面积的简单方法

    实验需要,需要计算两个矩形重叠面积 想来想去觉得挺复杂,搜了下,看见一个超给力的方法 这里分享下: function D = DecideOberlap(Reframe,GTframe) x1 = R ...

  2. python两个集合的交集 合集 差集

    python两个集合的交集 合集 差集 https://blog.csdn.net/qq_17753903/article/details/84899612 python & | and or ...

  3. python的datetime举例_Python datetime库计算两个时间点之间的分钟(秒、天)数

    计算两个时间点之间的分钟数 import datetime def minNums(startTime, endTime): '''计算两个时间点之间的分钟数''' # 处理格式,加上秒位 start ...

  4. python用链表求两数之和_python 算法 - 008 计算两个链表所代表的整数之和 (整数相加法)...

    python 算法 - 008 计算两个链表所代表的整数之和 (整数相加法) 知之者不如好之者, 好之者不如乐之者.--<雍也> 知道德者不如好道德者, 好道德者不如乐道德者, 是为形容人 ...

  5. python求两数之和的命令_python计算两个数的百分比方法

    工作中遇到了要计算两个数百分比的问题,python 2.7 环境. 代码: #!/usr/bin/env python #function: 计算百分比 #USAGE: python calculat ...

  6. python计算两个矩形的重叠_python计算两个矩形框重合百分比的实例

    python计算两个矩形框重合百分比的实例 如下所示: def mat_inter(box1,box2): # 判断两个矩形是否相交 # box=(xA,yA,xB,yB) x01, y01, x02 ...

  7. 【Python实践-1】求一元二次方程的两个解

    知识点: import sys, sys模块包含了与Python解释器和它的环境有关的函数. "sys"是"system"的缩写.sys.exit() 中途退出 ...

  8. python时间差转换成天数_Python实现计算两个时间之间相差天数的方法

    本文实例讲述了Python实现计算两个时间之间相差天数的方法.分享给大家供大家参考,具体如下: #-*- encoding:UTF-8 -*- from datetime import date im ...

  9. Python使用更相减损术计算两个整数的最大公约数

    更相减损术是<九章算术>中给出的一种用于约分的方法,也可以用来计算最大公约数,其步骤为: 1)如果两个整数都是偶数,就使用2约简,直到两个整数不再都是偶数,然后执行第2步.如果两个整数不都 ...

最新文章

  1. 设计模式-备忘录模式
  2. oracle中app文件夹下,Oracle Form开发之folder(文件夹)功能开发(一)
  3. 给网页上加广告的一点感受
  4. Python深浅拷贝教程-面试必问内容
  5. Linux文本处理命令:cut grep awk sed printf
  6. python服务器搭建 实战_实战讲解:如何用Python搭建一个服务器
  7. 天平应什么放置_电子天平讲义全解(使用/维护/分类)
  8. 外模告急时薪翻倍?中国AI虚拟模特取代高价外模,效果逼真与真人无异。
  9. 自定义Excel导出简易组件
  10. IP defragment
  11. jquey知识点整理
  12. 【源码】高精度31波段音频均衡器
  13. ecshop 模板支持php,ecshop模板文件不支持php语句解决办法
  14. 3DMAX渲染完卡住不动该怎么办?
  15. 读《饥饿的盛世-乾隆时代的得与失》
  16. 【Qt5】关于Qt5对xp的兼容说明
  17. IC验证必备的数字电路基础知识(一):数字逻辑基础
  18. Nexus因异常重启导致OrientDB数据库变为只读的问题修复
  19. 微软三维人脸重建论文总结——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》
  20. HPLC工作原理及仪器组成

热门文章

  1. 数据资产管理直面企业哪些痛点
  2. 医疗大数据的风险及应对方法
  3. eSIM物联网卡的优点有哪些
  4. html如何添加时钟效果,基于HTML5+CSS3实现简单的时钟效果
  5. SWPU第二届天梯选拔赛暨蓝桥杯训练赛题解
  6. AcWing 873. 欧拉函数(单个欧拉模板)
  7. 算法基础部分1-递归
  8. [linux]远程kill进程
  9. 一篇搞定导航守卫(vue-router源码学习)
  10. Server.Variables属性大全(转载)