文章目录

  • 解决思路
  • 例子

解决思路

一种解决思路是使用group by。即group by用于判断数据重复的多个字段,再使用:

collect_set(非group by字段)[0]

从group by获取的数据中随意取一个非group by字段。

例子

例如,有下表:

我需要以前两列的字段作为判断重复的标准,即user_name和commentid字段。如若重复,其他列随机取字段值就行了。如下为hive操作语句:

SELECT user_name,commentid,collect_set(title)[0] as title,collect_set(source)[0] as source,
collect_set(content)[0] as content ,collect_set(time)[0] as time,collect_set(car_model)[0] as car_modelFROM user_2morecars GROUP BY user_name,commentid;

如下为hive语句的执行结果:

hive基于多列去重操作相关推荐

  1. python数据框去重_【Python】基于某些列删除数据框中的重复值

    Python按照某些列去重,可用drop_duplicates函数轻松处理.本文致力用简洁的语言介绍该函数. 一.drop_duplicates函数介绍 drop_duplicates函数可以按某列去 ...

  2. Hive 按某列的部分排序 以及 删列操作

    Hive 按某列的部分排序 以及 删列操作 脑袋果然还是智商不足. 涉及到的小需求: 某个表test 有一列 tc: a字符串+b字符串+c字符串 拼接组成 把test表,按b字符串排序 输出 遇到的 ...

  3. python列转行函数_Python pandas 列转行操作详解(类似hive中explode方法)

    最近在工作上用到Python的pandas库来处理excel文件,遇到列转行的问题.找了一番资料后成功了,记录一下. 1. 如果需要爆炸的只有一列: df=pd.DataFrame({'A':[1,2 ...

  4. python在txt中的替换数据清洗_数据清洗过程中常见的排序和去重操作

    数据操作中排序和去重是比较常见的数据操作,本专题对排序和去重做专门介绍,并且给出一种不常用却比较有启发意义的示例:多列无序去重 目 录 1 排序 1.1 sort 单列排序返回值 1.2 order ...

  5. python绘制星空图_【Python】基于某些列删除数据框中的重复值

    阿黎逸阳 精选Python.SQL.R.MATLAB等相关知识,让你的学习和工作更出彩(可提供风控建模干货经验). Python按照 某些列去重 ,可用 drop_duplicates函数轻松处理 . ...

  6. 怎样用python对Excel的一列或几列去重

    怎样用python对Excel中的某些列去重? 你好! 需求描述: 依据某一列去重,结果包含原表所有的列: 依据某几列去重,结果表只含这几列: 提供.xlsx格式,输出也要表格. 难点: 表格数据量大 ...

  7. python对excel某一列去重-python中怎么对dataframe列去重

    python中对已经生成的Series,怎样组合成DataFrame 如 a = Series([1,2,3]) b = Series([2,3,4]) 怎样将a b组合成一个DataFzip函数接受 ...

  8. JVM学习笔记之-StringTable String的基本特性,内存分配,基本操作,拼接操作,intern()的使用,垃圾回收 ,G1中的String去重操作

    String的基本特性 string:字符串,使用一对""引起来表示. String s1 = ""; //字面量的定义方式 String s2 = new S ...

  9. mysql去重操作哪个最快_如何将 MySQL 去重操作优化到极致?| CSDN 博文精选

    作者 | wzy0623 责编 | 屠敏 出品 | CSDN 博客 前言 问题提出 源表t_source结构如下: item_id int, created_time datetime, modifi ...

最新文章

  1. java后台分页插件怎么写_Java分页技术(从后台传json到前台解析显示)
  2. python内置函数open_Python的内置函数open()的注意事项
  3. Kafka设计解析(六)- Kafka高性能关键技术解析
  4. 【机器学习入门笔记0:OpenCV+TensorFlow学习内容(目录)】20190122
  5. Win10电脑录屏,视频有杂音,用耳机录音
  6. mysql导入多条数据语句_MySQL插入多条记录和REPLACE语句
  7. Http协议的Delete和Put方法是做什么的?怎么用?
  8. Java基础——增强for循环(foreach)
  9. iOS学习之Object-C语言继承和初始化方法
  10. mqtt 推送的客户端测试方法
  11. Vijos P1123均分纸牌
  12. 屏幕录像软件使用教程?
  13. 创客教室-中小学创客教育课程介绍
  14. Matlab中插值函数汇总及使用说明
  15. GBase8s数据库MINUS 运算符
  16. win10 桌面右键菜单内容修改
  17. Oracle官网下载JDK8需要注册怎么办
  18. DialogFragment的OnDismissListener
  19. MYSQL 列转行方法
  20. 莫道C站小,这边风景独好~

热门文章

  1. 参加 CSDN 2009 英雄大会有感(二)
  2. 打造×××互连无极限,多WAN口×××防火墙
  3. TypeScript入门教程 之 Promise
  4. TypeScript入门教程 之 点差算子/散布运算符/...运算符/剩余参数/...参数
  5. 面试官系统精讲Java源码及大厂真题 - 26 惊叹面试官:由浅入深手写队列
  6. 我是如何 2 个月拿到 4 份 Offer 并收入翻倍的?
  7. BGP——路由抖动惩罚机制(讲解+配置)
  8. 微型计算机在工作过程中突然遇到电源中断,微型计算机在工作过程中突然遇到电源中断,则计算机 中的信息将全部丢失,再次接通电源后也不能恢复数据。...
  9. 【Java】计算一组同学一门课程的平均成绩、最高成绩和最低成绩
  10. 【Python】Tkinter图形界面设计(GUI)