在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。

我们先来看一个可能产生数据倾斜的sql.

select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,plat,count(*) as pv  from source_kafka_table
group by TUMBLE(proc_time, INTERVAL '1' MINUTE) ,plat

在这个sql里,我们统计一个网站各个端的每分钟的pv,从kafka消费过来的数据首先会按照端进行分组,然后执行聚合函数count来进行pv的计算。如果某一个端产生的数据特别大,比如我们的微信小程序端产生数据远远大于其他app端的数据,那么把这些数据分组到某一个算子之后,由于这个算子的处理速度跟不上,就会产生数据倾斜。

查看flink的ui,会看到如下的场景。

对于这种简单的数据倾斜,我们可以通过对分组的key加上随机数,再次打散,分别计算打散后不同的分组的pv数,然后在最外层再包一层,把打散的数据再次聚合,这样就解决了数据倾斜的问题。

优化后的sql如下:

select winEnd,split_index(plat1,'_&

Flink实战(九十三):数据倾斜(二)keyby 窗口数据倾斜的优化相关推荐

  1. 大数据(二)大数据相关的技术

    大数据(二)大数据相关的技术 1. 云技术 大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十.数百或甚至数万的电脑分配工作.可以说,云计算充当了工业革命时期的发动机的角色 ...

  2. MATLAB应用实战系列(五十二)-Excel数据的读取

    前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据 ...

  3. 时空数据系统概述二(时空数据的感知)

    2.1 时空数据的分类 ​ 为了更好的了解时空数据的感知方式,我们把时空数据暂时分为四大类,基础地理数据.能源环境数据.交通数据.生活数据.后面小节分别介绍. 2.1.1 基础地理数据 ​ 基础地理数 ...

  4. 大数据(二)大数据存储

    文章目录 说明 分享 大数据存储特性和要求 特性 要求 大数据存储现状 hadoop系 优点 缺点 非hadoop系 优点 缺点 总结 说明 本博客每周五更新一次. 大数据存储是大数据平台的基石,数据 ...

  5. Python爬虫实战(三):定时爬取数据存入SqlServer

    目录

  6. 送5本刚出版的Flink实战书籍!

    文末赠书 以下内容节选自<Flink实战派>一书! --正文-- 大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破. 在通常情况下,大数据技术与机器学习是互相促进. ...

  7. FPGA(3)验证数字逻辑(与门、与非门、二选一数据选择器、2-4译码器、半加器、全加器)

    目录 一.验证与门 二.验证与非门 三.验证二选一数据选择器 四.验证2-4译码器 五.验证半加器 六.验证全加器 0.初始化定义 1.第一个半加器 2.第二个半加器 3.得到最终进位Co 代码 0决 ...

  8. 【EasyExcel】Java读取一维及二维Excel数据并存入数组

    EasyExcel是一个基于Java的.快速.简洁.解决大文件内存溢出的Excel处理工具.它能让你在不用考虑性能.内存的等因素的情况下,快速完成Excel的读.写等功能. Java基于EasyExc ...

  9. python数据可视化是什么_python3数据可视化是什么?

    今天又给大家带来新的词啦,初入python学习的小伙伴可能不是很了解,但是再进阶学习时候,肯定是要遇到的,因为这个也是我们之前阐述过的python学习的必学内容,因此,掌握好这部分内容很重要哦~好啦, ...

最新文章

  1. mysql8.0查看用户_MySQL 8.0用户及安全管理
  2. Python爬虫开发:中文字符编码问题quote解决
  3. Bootstrap4+MySQL前后端综合实训-Day09-AM【项目功能展示视频、小组汇报PPT、项目介绍】
  4. Hadoop-rpc调用案例,服务端,客户端代码案例
  5. 根据一个属性,剔除 Json 中重复元素(删除 JSON 中重复的部分)
  6. 面试基础算法及编程 第三弹(树(二叉树)相关:主要考察指针相关的操作)
  7. [转]谈谈团队的凝聚力
  8. ryzen linux 搭配显卡,AMD锐龙Ryzen5 2600X配什么显卡好?锐龙R5-2600X最佳显卡搭配知识...
  9. mysql ibatis 批量插入_ibatis 批量插入逻辑
  10. MESOS集群高可用部署
  11. c++ SIMD AVX2比较 例子
  12. 这是我的计算机房英语怎么写,小学英语人教(12版三起点)四年级下册Unit 1
  13. 特殊字符图案大全c语言,特殊符号大全
  14. 极速办公(Excel)如何方框内打勾
  15. 计算机关机时间设置方法,电脑如何设置定时关机 电脑定时关机设置方法
  16. Android 强制设置应用横屏或竖屏
  17. 低通滤波器的一阶RC电路模型
  18. linux用户的目录结构,Linux下用户管理、目录结构
  19. [论文笔记] Detection of Glottal Closure Instants from Speech Signals: CNN Method
  20. 【数据库原理及应用】——数据库设计(学习笔记)

热门文章

  1. 了凡四训——改变命运之学
  2. mysql-sandbox_mysql-sandbox 安装
  3. Android Wifi P2P 入门
  4. 基于空间平滑MUSIC算法的相干信号DOA估计(2)
  5. 电子电路设计基本概念100问(三)【学习目标:原理图、PCB、阻抗设计、电子设计基本原则、基本原器件等】
  6. AD画原理图保留十字节点
  7. 每日词根——viv(生命)
  8. 夕拾朝花——我的2016
  9. js中数组的高逼格操作(filter、sort、map、reduce)
  10. 2022-2028全球气动吸尘器行业调研及趋势分析报告