hive基于多列去重操作
文章目录
- 解决思路
- 例子
解决思路
一种解决思路是使用group by。即group by用于判断数据重复的多个字段,再使用:
collect_set(非group by字段)[0]
从group by获取的数据中随意取一个非group by字段。
例子
例如,有下表:
我需要以前两列的字段作为判断重复的标准,即user_name和commentid字段。如若重复,其他列随机取字段值就行了。如下为hive操作语句:
SELECT user_name,commentid,collect_set(title)[0] as title,collect_set(source)[0] as source,
collect_set(content)[0] as content ,collect_set(time)[0] as time,collect_set(car_model)[0] as car_modelFROM user_2morecars GROUP BY user_name,commentid;
如下为hive语句的执行结果:
hive基于多列去重操作相关推荐
- python数据框去重_【Python】基于某些列删除数据框中的重复值
Python按照某些列去重,可用drop_duplicates函数轻松处理.本文致力用简洁的语言介绍该函数. 一.drop_duplicates函数介绍 drop_duplicates函数可以按某列去 ...
- Hive 按某列的部分排序 以及 删列操作
Hive 按某列的部分排序 以及 删列操作 脑袋果然还是智商不足. 涉及到的小需求: 某个表test 有一列 tc: a字符串+b字符串+c字符串 拼接组成 把test表,按b字符串排序 输出 遇到的 ...
- python列转行函数_Python pandas 列转行操作详解(类似hive中explode方法)
最近在工作上用到Python的pandas库来处理excel文件,遇到列转行的问题.找了一番资料后成功了,记录一下. 1. 如果需要爆炸的只有一列: df=pd.DataFrame({'A':[1,2 ...
- python在txt中的替换数据清洗_数据清洗过程中常见的排序和去重操作
数据操作中排序和去重是比较常见的数据操作,本专题对排序和去重做专门介绍,并且给出一种不常用却比较有启发意义的示例:多列无序去重 目 录 1 排序 1.1 sort 单列排序返回值 1.2 order ...
- python绘制星空图_【Python】基于某些列删除数据框中的重复值
阿黎逸阳 精选Python.SQL.R.MATLAB等相关知识,让你的学习和工作更出彩(可提供风控建模干货经验). Python按照 某些列去重 ,可用 drop_duplicates函数轻松处理 . ...
- 怎样用python对Excel的一列或几列去重
怎样用python对Excel中的某些列去重? 你好! 需求描述: 依据某一列去重,结果包含原表所有的列: 依据某几列去重,结果表只含这几列: 提供.xlsx格式,输出也要表格. 难点: 表格数据量大 ...
- python对excel某一列去重-python中怎么对dataframe列去重
python中对已经生成的Series,怎样组合成DataFrame 如 a = Series([1,2,3]) b = Series([2,3,4]) 怎样将a b组合成一个DataFzip函数接受 ...
- JVM学习笔记之-StringTable String的基本特性,内存分配,基本操作,拼接操作,intern()的使用,垃圾回收 ,G1中的String去重操作
String的基本特性 string:字符串,使用一对""引起来表示. String s1 = ""; //字面量的定义方式 String s2 = new S ...
- mysql去重操作哪个最快_如何将 MySQL 去重操作优化到极致?| CSDN 博文精选
作者 | wzy0623 责编 | 屠敏 出品 | CSDN 博客 前言 问题提出 源表t_source结构如下: item_id int, created_time datetime, modifi ...
最新文章
- java后台分页插件怎么写_Java分页技术(从后台传json到前台解析显示)
- python内置函数open_Python的内置函数open()的注意事项
- Kafka设计解析(六)- Kafka高性能关键技术解析
- 【机器学习入门笔记0:OpenCV+TensorFlow学习内容(目录)】20190122
- Win10电脑录屏,视频有杂音,用耳机录音
- mysql导入多条数据语句_MySQL插入多条记录和REPLACE语句
- Http协议的Delete和Put方法是做什么的?怎么用?
- Java基础——增强for循环(foreach)
- iOS学习之Object-C语言继承和初始化方法
- mqtt 推送的客户端测试方法
- Vijos P1123均分纸牌
- 屏幕录像软件使用教程?
- 创客教室-中小学创客教育课程介绍
- Matlab中插值函数汇总及使用说明
- GBase8s数据库MINUS 运算符
- win10 桌面右键菜单内容修改
- Oracle官网下载JDK8需要注册怎么办
- DialogFragment的OnDismissListener
- MYSQL 列转行方法
- 莫道C站小,这边风景独好~
热门文章
- 参加 CSDN 2009 英雄大会有感(二)
- 打造×××互连无极限,多WAN口×××防火墙
- TypeScript入门教程 之 Promise
- TypeScript入门教程 之 点差算子/散布运算符/...运算符/剩余参数/...参数
- 面试官系统精讲Java源码及大厂真题 - 26 惊叹面试官:由浅入深手写队列
- 我是如何 2 个月拿到 4 份 Offer 并收入翻倍的?
- BGP——路由抖动惩罚机制(讲解+配置)
- 微型计算机在工作过程中突然遇到电源中断,微型计算机在工作过程中突然遇到电源中断,则计算机 中的信息将全部丢失,再次接通电源后也不能恢复数据。...
- 【Java】计算一组同学一门课程的平均成绩、最高成绩和最低成绩
- 【Python】Tkinter图形界面设计(GUI)