Flink实战(九十三):数据倾斜(二)keyby 窗口数据倾斜的优化
在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。
我们先来看一个可能产生数据倾斜的sql.
select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,plat,count(*) as pv from source_kafka_table
group by TUMBLE(proc_time, INTERVAL '1' MINUTE) ,plat
在这个sql里,我们统计一个网站各个端的每分钟的pv,从kafka消费过来的数据首先会按照端进行分组,然后执行聚合函数count来进行pv的计算。如果某一个端产生的数据特别大,比如我们的微信小程序端产生数据远远大于其他app端的数据,那么把这些数据分组到某一个算子之后,由于这个算子的处理速度跟不上,就会产生数据倾斜。
查看flink的ui,会看到如下的场景。
对于这种简单的数据倾斜,我们可以通过对分组的key加上随机数,再次打散,分别计算打散后不同的分组的pv数,然后在最外层再包一层,把打散的数据再次聚合,这样就解决了数据倾斜的问题。
优化后的sql如下:
select winEnd,split_index(plat1,'_&
Flink实战(九十三):数据倾斜(二)keyby 窗口数据倾斜的优化相关推荐
- 大数据(二)大数据相关的技术
大数据(二)大数据相关的技术 1. 云技术 大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十.数百或甚至数万的电脑分配工作.可以说,云计算充当了工业革命时期的发动机的角色 ...
- MATLAB应用实战系列(五十二)-Excel数据的读取
前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据 ...
- 时空数据系统概述二(时空数据的感知)
2.1 时空数据的分类 为了更好的了解时空数据的感知方式,我们把时空数据暂时分为四大类,基础地理数据.能源环境数据.交通数据.生活数据.后面小节分别介绍. 2.1.1 基础地理数据 基础地理数 ...
- 大数据(二)大数据存储
文章目录 说明 分享 大数据存储特性和要求 特性 要求 大数据存储现状 hadoop系 优点 缺点 非hadoop系 优点 缺点 总结 说明 本博客每周五更新一次. 大数据存储是大数据平台的基石,数据 ...
- Python爬虫实战(三):定时爬取数据存入SqlServer
目录
- 送5本刚出版的Flink实战书籍!
文末赠书 以下内容节选自<Flink实战派>一书! --正文-- 大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破. 在通常情况下,大数据技术与机器学习是互相促进. ...
- FPGA(3)验证数字逻辑(与门、与非门、二选一数据选择器、2-4译码器、半加器、全加器)
目录 一.验证与门 二.验证与非门 三.验证二选一数据选择器 四.验证2-4译码器 五.验证半加器 六.验证全加器 0.初始化定义 1.第一个半加器 2.第二个半加器 3.得到最终进位Co 代码 0决 ...
- 【EasyExcel】Java读取一维及二维Excel数据并存入数组
EasyExcel是一个基于Java的.快速.简洁.解决大文件内存溢出的Excel处理工具.它能让你在不用考虑性能.内存的等因素的情况下,快速完成Excel的读.写等功能. Java基于EasyExc ...
- python数据可视化是什么_python3数据可视化是什么?
今天又给大家带来新的词啦,初入python学习的小伙伴可能不是很了解,但是再进阶学习时候,肯定是要遇到的,因为这个也是我们之前阐述过的python学习的必学内容,因此,掌握好这部分内容很重要哦~好啦, ...
最新文章
- mysql8.0查看用户_MySQL 8.0用户及安全管理
- Python爬虫开发:中文字符编码问题quote解决
- Bootstrap4+MySQL前后端综合实训-Day09-AM【项目功能展示视频、小组汇报PPT、项目介绍】
- Hadoop-rpc调用案例,服务端,客户端代码案例
- 根据一个属性,剔除 Json 中重复元素(删除 JSON 中重复的部分)
- 面试基础算法及编程 第三弹(树(二叉树)相关:主要考察指针相关的操作)
- [转]谈谈团队的凝聚力
- ryzen linux 搭配显卡,AMD锐龙Ryzen5 2600X配什么显卡好?锐龙R5-2600X最佳显卡搭配知识...
- mysql ibatis 批量插入_ibatis 批量插入逻辑
- MESOS集群高可用部署
- c++ SIMD AVX2比较 例子
- 这是我的计算机房英语怎么写,小学英语人教(12版三起点)四年级下册Unit 1
- 特殊字符图案大全c语言,特殊符号大全
- 极速办公(Excel)如何方框内打勾
- 计算机关机时间设置方法,电脑如何设置定时关机 电脑定时关机设置方法
- Android 强制设置应用横屏或竖屏
- 低通滤波器的一阶RC电路模型
- linux用户的目录结构,Linux下用户管理、目录结构
- [论文笔记] Detection of Glottal Closure Instants from Speech Signals: CNN Method
- 【数据库原理及应用】——数据库设计(学习笔记)