2023年高职大数据省赛,任务详解与参考实现。

  • 2022-2023赛季高职大数据竞赛-赛规说明
  • 2022-2023赛季高职大数据竞赛-赛规任务剖析
  • 2022-2023赛季高职大数据竞赛(样题解析)-离线数据处理-任务一:数据抽取
  • 2022-2023赛季高职大数据竞赛(样题解析)-离线数据处理-任务二:数据清洗
  • 2022-2023赛季高职大数据竞赛(样题解析)-离线数据处理-任务三:指标计算
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务一:特征工程(一)
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务二:推荐系统(一)
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务三:特征工程(二)
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务四:推荐系统(二)
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务一:实时数据采集
  • 2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务二:使用Flink处理Kafka中的数据
  • 补充-Spark将DataFrame写入HBase表(demo)
  • 补充-Spark读取HBase表数据到DataFrame中
  • 补充:Flink流数据写入HBase表并以yarn-per-job模式部署运行
  • 2023福建省赛样题解析-离线数据处理_任务一:数据抽取
  • 2023福建省赛样题解析-离线数据处理_任务二:数据清洗
  • 2023福建省赛样题解析-离线数据处理_任务三:指标计算
  • 2023湖南省赛样题解析-数据采集:离线数据采集
  • 2023湖南省赛样题解析-数据采集:实时数据采集_子任务1
  • 2023湖南省赛样题解析-数据采集:实时数据采集_子任务2
  • 2023湖南省赛样题解析-实时数据处理:实时数据清洗
  • 2023湖南省赛样题解析-实时数据处理:实时指标计算_子任务1
  • 2023湖南省赛样题解析-实时数据处理:实时指标计算_子任务2
  • 2023湖南省赛样题解析-离线数据处理
  • 2023江苏省赛样题解析-离线数据处理_任务一:数据抽取
  • 2023江苏省赛样题解析-离线数据处理 任务二:数据清洗
  • 2023江苏省赛样题解析-离线数据处理_任务三:指标计算
  • 2023江苏省赛样题解析-数据采集与实时计算_任务一:实时数据采集
  • 2023江苏省赛样题解析-数据采集与实时计算_任务二:使用Flink处理Kafka中的数据
  • 2023江苏省赛样题解析-数据挖掘_任务一:特征工程
  • 2023江苏省赛样题解析-数据挖掘_任务二:基于SVD分解的推荐系统

任务一:大数据平台环境搭建

任务要求

按照任务书要求,需要基于Docker环境完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume安装配置、ClickHouse安装配置、HBase安装配置等中的任意三个组件的安装配置。

分析

与以前的任务相比,这次一个显著的变化是“任意三个组件的安装配置”。下面列出了可参考的配置资源:

  • Hadoop完全分布式:请参考Hadoop-3.2.1环境搭建(3)_完全分布模式。
  • Spark安装配置:《Spark实用教程_v3.1.2》,参考1.5小节内容
  • Flink安装配置:Flink完全分布式集群安装
  • Hive安装配置:安装和使用Hive
  • Kafka安装配置:安装Kafka集群
  • Flume安装配置:安装Apache Flume
  • ClickHouse安装配置:安装ClickHouse数据库
  • HBase安装配置:HBase的安装和部署(3)_完全分布模式

任务二:数据采集

任务要求

按照任务书要求基于Scala语言基于Spark完成离线数据采集,将数据存入Hive的ods层中;按照任务书要求使用Linux命令,利用Flume、Maxwell等工具完成实时数据采集,将数据存入Kafka指定的Topic中。

分析

与以前的任务相比,这次增加了新的工具Maxwell,用来实时采集MySQL的数据变更日志。下面列出了可参考的配置资源:

  • 编程语言采用Scala:请参考Scala3教程
  • 开发工具:IDEA 2019社区版。本次样卷中没有给出更多的说明,但参考往年对IDEA的要求,应该是会要求创建Maven类型的项目,出卷方会给出pom.xml依赖配置文件(竞赛环境是不能上外网的,创建项目后把pom.xml复制进去即可)。因此参赛选手需要掌握如何使用IDEA创建Maven项目,可参考小白学苑的教程:使用IntelliJ IDEA开发Spark Maven应用程序。
  • 任务中提到“基于Spark完成离线数据采集,将数据存入Hive的ods层中”,这个任务要求涉及到以下几个知识点:
    • ODS层:我们理解为出卷方意指Hive的ODS层。ODS是个数据仓库的概念“数据贴源层”,简单理解就是刚加载到Hive中的原始数据所存放的层就是ODS层,表就是ODS表。更详细的概念解释,请自行google或biying。
    • Spark集成Hive:既然要将数据ETL到Hive中,就需要配置Spark能访问Hive的元数据库Metastore。集成方法请参考《Spark实用教程_v3.1.2》,5.7小节内容。
    • IDEA开发环境支持Hive:同样,要在IDEA中添加相应的依赖配置、JDBC驱动等。集成方法请参考《Spark实用教程_v3.1.2》,5.7小节内容。
    • 以上任务要求所涉及到的开发编程技术,可参考小白学苑的案例_Spark SQL实现数据ETL到Hive ODS教程,里面有详细的讲解和参考代码实现。
  • 任务中提到“要求使用Linux命令,利用Flume、Maxwell等工具完成实时数据采集,将数据存入Kafka指定的Topic中”,这个任务实际涉及两个子任务:
    • (1)实时数据生成器 -> Flume Socket端口 -> Kafka Topic;
    • (2)MySQL binlog -> Maxwell -> Kafka Topic
    • Kafka的安装、配置和使用,以及与Flume的集成,请参考小白学苑Kafka教程。
    • Maxwell配置及使用,请参考本系列解析教程。
    • PBCP2023(个人大数据竞赛练习平台)内置了实时数据源脚本、Maxwell以及MySQL binlog配置。

任务三:实时数据处理

任务要求

按照任务书要求使用Scala语言基于Flink完成Kafka中的数据消费,将数据分发至Kafka的dwd层中,并在HBase中进行备份同时建立Hive外表,基于Flink完成相关的数据指标计算并将计算结果存入Redis、ClickHouse中。

分析

与上一赛季相比,本赛季对于实时数据仓库部分,加大了占比(25%),并增加了新的考核点:1)将流数据写入HBase;2)通过Hive查询HBase数据;3)将数据写入ClickHouse。

可参考资源如下:

  • 项目使用Maven构建。《Flink实用教程》第2.2节,或使用IntelliJ IDEA+Maven开发Flink项目
  • Flink写Redis和MySQL,请参考《Flink实用教程》相关章节。
  • 样题库中实时部分任务较多,相关参考实现,请访问本系列解析教程相应部分的内容。

任务四:离线数据处理

任务要求

按照任务书要求使用Scala语言基于Spark完成离线数据清洗、处理、计算,包括数据的合并、去重、排序、数据类型转换等并将计算结果存入MySQL、HBase、ClickHouse中。

分析

与上一赛季相比,离线数据处理部分,增加了新的考核点:1)将处理结果写入HBase(但在样题库中没有发现有此任务);2)将处理结果写入写入ClickHouse。

  • 清洗任务使用Spark SQL DataFrame API实现,可参考小白学苑的教程“示例_数据缺失值处理”和“示例_数据整合、清洗与转换”。
  • “统计指定几个月的销售额并存入MySQL”:与上一任务类似,再加上使用where(或filter)过滤指定的几个月销售数据。
  • 以上几个任务涉及“存入MySQL”的要求,实际上是要求将统计的结果集DataFrame写出到MySQL数据库中,可参考小白学苑的教程“存储DataFrame”中的示例-“示例2:将DataFrame存储到MySQL表中”。
  • 以上几个任务涉及“存入ClickHouse”的要求,实际上是要求将统计的结果集DataFrame写出到ClickHouse数据库中,可参考本系列解析教程中相应部分的内容。

任务五:数据可视化

任务要求

按照任务书要求编写前端代码,调用后台数据接口,使用Vue.js、ECharts完成数据可视化。

分析

可视化部分与上一赛季相比,没有明显变化,仍然考察前端框架Vue.js、图表库ECharts以及RESTful API接口调用。其中:

  • 使用ECharts绘制柱状图、折线图、饼图等,比较简单,参考ECharts官网上的Demo即可,实现时将其中静态数据替换为服务器端获取的动态数据即可;
  • 可视化所需数据,比赛服务器已经提供好了Web Service接口,我们只需要在Vue工程文件中调用此接口获取数据就可以了。在小白学苑PBCP2023平台中,提供了模拟RESTful API接口以供测试。
  • Web程序客户端实现:要求使用vue.js前端框架,倒创建Vue工程,使用ECharts可视化组件。开发工具要求使用的是Visual Studio Code。这部分技术请参考小白学苑Vue.js系列教程。

任务六:综合分析报告

任务要求

按照任务书要求,完成综合分析报告编写。

分析

综合分析部分,通常涉及到性能优化、比赛中遇到的难点的解析方案(或思路)。前者,可参考2022(7.20更新)高职大数据竞赛-任务书模块F-综合分析-参考解答部分。后者,则需要大家根据自己比赛中遇到的问题进行阐述,记得一点要有问题应对或解决方法的内容。

2022-2023赛季高职大数据竞赛-赛规任务剖析相关推荐

  1. 2022高职大数据竞赛0720更新参考实现

    2022国赛专区(7.20更新) 2022年高职大数据国赛(7.20更新),任务书详解与参考实现. 2022(7.20更新)高职大数据竞赛-官方样例数据说明 2022(7.20更新)高职大数据竞赛(任 ...

  2. 最新2022年高职大数据国赛任务书详解与模拟练习

    2022高职大数据竞赛模拟练习-模拟数据说明 2022高职大数据竞赛模拟练习-离线数据处理任务一:数据抽取

  3. 2022年第三届MathorCup 大数据竞赛 赛道B 北京移动用户体验影响因素研究 完整建模方案及代码实现详解

    北京移动用户体验影响因素研究 移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷.随着网络不断的建设,网络覆盖越来越完善.各个移动运营商,越来越重视客户的网络使用 ...

  4. 2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛(baseline)

    教育部<高等学校人工智能创新行动计划>教技[2018]3号,鼓励对计算机专业类的智能科学与技术.数据科学与大数据技术等专业进行调整和整合,鼓励各个领域与大数据进行深度融合,通过大数据技术促 ...

  5. 全世界都在说中国话?2022国际大数据竞赛首次以“中文”命题

    8月10日, IKCEST第四届"一带一路"国际大数据竞赛暨第八届百度&西安交大大数据竞赛(以下简称"国际大数据竞赛")正式启动,本届赛题聚焦" ...

  6. 必看!嘉宾寄语 × 赛制 Q&A:2023年(第16届)中国大学生计算机设计大赛大数据主题赛 - 和鲸赛道 正式开赛

    导语:中国大学生计算机设计大赛 - 大数据应用大类 - 大数据主题赛 - 和鲸赛道已于 1 月 28 日正式开赛,作为协办方,和鲸特别邀请到了大赛组委会常务副主任杜小勇教授为广大参赛选手寄语,此外,我 ...

  7. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  8. 2022 年 MathorCup 高校数学建模挑战赛——大数据竞赛(北京移动用户体验影响因素研究全套代码)

    赛道 B:北京移动用户体验影响因素研究      移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷.随着网络不断的建设,网络覆盖越来越完善.各个移动运营商,越来 ...

  9. 【2022年计算机设计大赛大数据主题赛--和鲸赛道】参赛作品:当疫情对上经济:是毁灭性的打击还是重生

    这是我们小队在2022年参加计算机设计大赛大数据主题赛–和鲸赛道的作品,用尽心思历时一个多星期完成,但是在最后很遗憾只取得了校赛二等奖的成绩,发出来与大家分享一下. 当疫情对上经济:是毁灭性的打击还是 ...

最新文章

  1. CentOS7系统下修改网卡为eth0
  2. HTML的标签描述18
  3. 用python读写excel(xlrd、xlwt)
  4. JPA连接Mysql数据库时提示:Table 'jpa.sequence' dosen't exisit
  5. Hi3516A开发--挂载SD卡和U盘
  6. 解决linux下cocos2dx不能播放声音
  7. stdio.h库函数
  8. 软件项目管理 hw1
  9. c语言程序设计实验结果与分析,C语言程序设计实验报告(7)
  10. 高通CAMERA 调试
  11. 使用百度的地图生成器部署到https域名
  12. AMAX 深度学习服务器重装系统
  13. Android 自定义Activity的主题
  14. Python-深度学习-学习笔记(13):keras搭建卷积神经网络(对二维数据进行一维卷积)
  15. Vue + Matomo 实现访问流量统计
  16. python怎么导入math库_Python math数学库的用法
  17. Java调用arcgis导入shape,java for arcgis 之——将shapefile导入SDE
  18. 多路HDMI编码转RTMP多平台推流直播导播方案
  19. JavaScript实现字符串翻转
  20. 循环链表-约瑟夫问题-猴子选大王

热门文章

  1. LoadRunner各版本对IE版本支持
  2. 艾永亮:B端产品创新,应该关注哪些方面,打造超级产品为第一
  3. 第3课 Altium Designer20(AD20)+VESC6.4实战教程:新建工程(北冥有鱼)
  4. HTML5新标签对IE低版本浏览器的兼容处理
  5. AD日常维护之一:处理.Net runtime Optimization报错
  6. 《中国电力报》| 远光让园区用能更低碳高效
  7. 网康敲定首家全国总代 与佳杰科技签署战略合作
  8. CUDA库之NPP入门(一):NVIDIA 2D Image and Signal Processing Performance Primitives
  9. The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more than one time zone问题解决
  10. VLOOKUP函数使用方法