今年参加了安徽省大数据与人工智能比赛,第一次参加、获得省级二等奖,(队友很给力,我拖后腿了), 自己实力还是有所欠缺、比赛过程中时间安排不是很合理,导致最后一题综合题(spark数据处理)没有时间做,现附上20年网络赛真题,供以后参加比赛的同学参考,

2020年安徽省大数据与人工智能应用初赛题目

  • 第一部分:大数据平台部署(10分)
  • 第二部分:大数据预处理部分(20分)
  • 第三部分:大数据分析(20分)
  • 第四部分:可视化(15分)
  • 第五部分 人工智能(20分)
  • 第六部分:综合题(15分)
  • 数据获取

第一部分:大数据平台部署(10分)

数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个大数据平台,开源框架中由Hadoop和Hive为主要核心框架组成,下面请你完成hadoop和hive的安装:
任务一、Hadoop安装(按下面要求提供核心步骤)(5分)
1、配置SSH免密登录(截图成功ssh登录到子节点截图)(0.5分)
2、解压Hadoop安装包并修改配置文件(截图Slaves文件中内容)(0.5分)
3、配置hadoop环境变量(截图profile文件配置的关键位置)(1分)
4、拷贝hadoop到其他的机器上(截图拷贝命令)(0.5分)
5、初始化hadoop集群(截图执行命令)(1分)
6、启动Hadoop集群(启动成功后执行jps命令,截图主节点和子节点的进程)(0.5分)
7、在浏览器中访问 主节点:50070端口的webUI页面。并截图(建议Chrome浏览器)(1分)任务二、Hive安装(按下面要求提供核心步骤)(5分)
1、基于Linux系统Mysql安装、在Mysql中创建一个以你队伍组名英文全拼命名的数据库(截图结果界面2分)
2、Hive搭建,修改hive-site.xml文件中默认元数据库驱动为mysql的驱动(截图2分)
3、启动hive,启动成功后,执行show databases;(截图结果1分)

第二部分:大数据预处理部分(20分)

2020年新冠肺炎对我国社会各方面影响巨大,大数据技术在抗击疫情过程中发挥了巨大作用,尤其在新增、确认等相关病例数据的采集及统计上应用颇广,下面有一份数据是今年1月20-4月29日的全国各省市及国外的疫情数据,请你按照要求使用MapReduce程序完成相关数据预处理。
1、数据转换:请将数据中日期字段格式,替换成日期格式为xxxx年xx月xx日(5分)。
请粘贴代码和运行结果截图(在hadoop环境中查看hdfs结果数据截图)2、数据清洗:以下规则同时进行(请粘贴代码和运行结果截图)
规则1 从上述小题中,截取前5个字段。(5分)
规则2 过滤出省份为湖北省的数据。(5分)
规则3 对5个字段去重,生成新的数据,将结果数据输出到hdfs。(5分)

第三部分:大数据分析(20分)

疫情期间各类政府媒体及社交网站,均发布了相关疫情每日统计数据,下面基于数据仓库工具Hive请你统计分析相关疫情数据。

数据字段为:日期、省份、城市、新增确诊、新增出院、新    增死亡、消息来源、来源1,来源2,来源3
1、请在hdfs根目录下中创建一个目录,以你的小组名称英文全拼命名_data,并将以上疫情数据上传到这个目录中,截图成功后结果(2分)。
2、请你在hive中创建数据库名为: ods_yiqing_data,并切换使用这个数据库,截图成功后结果(2分)。3、创建一个hive外部表,字段为以上疫情数据全部字段(自行命名字段),数据存储位置为第1小题创建的hdfs目录,请粘贴建表语句及运行成功截图(3分)。4、统计湖北省各市2月新增确诊病例总数,按照总数降序排列,请提供SQL语句及运行结果截图(4分)5统计文件中安徽省合肥市每月新增确诊病例总数,按照降序排列,请提供SQL语句及运行结果截图(4分)6统计文件中湖北每月新增出院病例总数最多的前2个城市,请提供SQL语句及运行结果截图(5分)

第四部分:可视化(15分)

 大数据时代已经到来,各企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为和评价体系的分析尤为重要。利用大数据来分析商品评分与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度。用户在选择商品的时候也可以根据商品评分去衡量。
数据:
某电商网站商品的评价:共有400行、2列。这代表本训练集共有400条数据,每条数据有2类信息。包括:
• Id => 用户ID
• 评价等级 (1-5个等级,类似于1星-5星评价)
要求用以上数据集合做可视化数据分析:
1利用柱状图显示各种评价的数量并保存结果(5分)2通过饼图来展示各等级评价的占比(10分)

第五部分 人工智能(20分)

作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,国家高度重视人工智能产业的发展。2017年国务院发布《新一代人工智能发展规划》,对人工智能产业进行战略部署;在2018年3月和2019年3月的政府工作报告中,均强调指出要加快新兴产业发展,推动人工智能等研发应用,培育新一代信息技术等新兴产业集群壮大数字经济。下面请你完成人工智能技术框架TensorFLow 的安装及算法实现。
一、TensorFlow安装(6分)
1 请在linux环境下安装Python环境(3分)
2 请在linux下安装tensorflow(3分)
二、TensorFlow编程实现(14分)
1 请你构建一个简单的图计算(4分)两个常量点(3.6)、(4.6),请你创建对两个 Tensor 执行 + 操作
请提供代码及截图()
2 Iris数据集是常用的分类实验数据集,也称鸢尾花卉数据集,是一类多重变量分析的数据集。请你从python相关库中导入获取并使用tensorflow实现一个简单的二值分类器来预测一朵花是否为山鸢尾(提供相关代码和输出结果)(5分)3 请绘制分类器拟合曲线图(代码和结果图)(5分)

第六部分:综合题(15分)

一、请完成下面相关统计
请你将以下学生成绩数据,存放在Hdfs上,使用Spark读取完成下面分析学生表字段描述:学号,姓名,年龄,性别,班级
分数表字段描述:学号,科目名,分数
科目表字段描述:科目名,总分1、使用Spark统计每个班级学生的人数,将统计好的结果保存到文件中(请提供编程代码和截图)(3分)
输出样式:
班级,人数
文科一班,392、使用Spark sql统计每个班级总分排名前十的学生,将统计好的结果保存到文件中 (请提供编程代码和截图)(3分)
输出样式:
班级,姓名,总分
文科一班,张三,4003、请使用你擅长的一种编程语言和框架统计每科都及格的学生 (请提供编程代码和结果截图)(4分)
输出样式
学号,姓名,班级,科目名,分数
1500100001,施笑槐,文科六班,语文,80

数据获取

链接: https://pan.baidu.com/s/1inMdpqKhLP7lye5Z6u55vw 提取码: y1bx

2020安徽省大数据与人工智能网络赛题目相关推荐

  1. 2019年安徽省大数据与人工智能应用赛总结---本科组

    前言 2019年安徽省大数据与人工智能决赛于10月13日在安徽省职业经济管理学院举办.现场赛共计90支队伍,经过4个小时的激烈追逐,我们组获得了22名的不错成绩,荣获省级二等奖 .严格意义上说,这是我 ...

  2. 2020安徽省大数据竞赛可视化题目解析

    题目 安徽省大数据竞赛-可视化题目 分析某公司订单数据 数据 数据下载 数据说明: Order.csv是订单数据 订单数据格式为: 订单ID 订单日期 省/自治区 产品ID 类别 销售额 数量 折扣 ...

  3. 2020年安徽省大数据网络赛与现场赛hive习题

    目录 第一章 2020年安徽省大数据比赛hive习题 (网络赛) 第二章 2020年安徽省大数据比赛hive习题 (现场赛) 前言 主要记录hive习题 一.2020年安徽省大数据比赛hive习题(网 ...

  4. 2021年安徽省大数据与人工智能应用竞赛人工智能(网络赛)-本科组赛题

    第一部分:人工智能基础环境搭建部署(15分) 注:任务1与任务2任选一题完成即可. o 任务1:Anaconda 3.scikit-learn.OpenCV 3.X.PyTorch 1.8.X.tor ...

  5. 安徽省大数据与人工智能竞赛经验分享-3【从赛题中分析比赛需要的技能】

    写在前面 本模块内容为我们团队一位优秀的童鞋总结的,分享给各位参加比赛的同学们,如果有感兴趣的同学或者友友,可以微信搜索BI and BME理解更多内容. 比赛中需要哪些技能,"大数据&qu ...

  6. 2021年安徽省大数据与人工智能应用竞赛大数据(网络赛)-高职组赛题第三部分可视化

    第三部分:可视化(30分) 这是一份用户消费行为数据,用来分析用户消费情况及品牌情况,可视化消费变化趋势. 数据中中文字符为UTF-8编码,字段分隔符为 @@ 列名 说明 montha 购买月份 us ...

  7. 云计算、大数据和人工智的区别和联系

    云计算.大数据和人工智的区别和联系 今天跟大家讲讲云计算.大数据和人工智能.这三个词现在非常火,并且它们之间好像互相有关系. 一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时 ...

  8. CCF大专委2020年大数据发展趋势预测

    CCF大专委2020年大数据发展趋势预测 周涛, 程学旗, 陈宝权 论文引用格式: 周涛, 程学旗, 陈宝权. CCF大专委2020年大数据发展趋势预测. 大数据[J], 2020, 6(1): 11 ...

  9. 疫情下,2020年大数据产业展望

    一场突如其来的疫情,给经济发展带来一定冲击.但在抗"疫"过程中,以大数据.人工智能.云计算等为代表的新一代信息技术也发挥了重要作用,并极大推动了应用发展.机会与压力并存,疫情是否会 ...

最新文章

  1. 手机中的计算摄影:多摄融合
  2. MetagenoNets:在线宏基因组网络分析实操教程
  3. 服务器php 启动命令_服务端的cli方式运行
  4. Question | 网站被黑客扫描撞库该怎么应对防范?
  5. python的requests模块功能_python-Requests模块的使用
  6. python百题百练 二级题目_计算机二级选择题(公共基础新大纲)
  7. leetcode 27 移除元素 (python)
  8. QT添加资源文件并使用
  9. 网络设备自动化运维工具——ansible入门笔记
  10. Mac Navicat Premium 12.1.13 破解版本下载
  11. 8片74151扩展为64选1数据选择器
  12. 红帽9linux安装ios,红帽linux9.0安装教程
  13. 统计素数并求和python_C语言实现的统计素数并求和代码分享
  14. Android应用开发编译框架流程与IDE及Gradle概要
  15. 劳动法 第四章 工作时间和休息休假
  16. Android事件分发机制在实战开发中的应用之二
  17. 将cooledit作为一个音频信号发生器(http://www.zsjys.net/JYJY/ShowArticle.asp?ArticleID=64)
  18. 美团:没有存款在硅谷银行,后者破产事件对公司无影响;苹果 A17 处理器性能跑分曝光;Rust 1.68.0 发布|极客头条
  19. creo绘图属性模板_Proe_creo完整制作工程图格式和模板
  20. 【3D商城】三维场景搭建与开发流程

热门文章

  1. 编译 pg_repack
  2. 计算机测电阻伏安特性实验报告,《电学元件伏安特性的测量》实验报告附页
  3. oracle 运维入门,Oracle日常基本运维命令及基本体系结构
  4. python运维小工具_Python实现跨平台运维小神器
  5. jquery 手型 鼠标穿过时_css各种手型集合(css禁止手型)-Fun言
  6. 商品订单从购物车页面提交
  7. 一个小技巧告诉你,邮箱域名地址格式怎么选择?
  8. How to Reassign Workflow Task in Sharepoint 2007
  9. 学习之旅10-R语言介绍
  10. 《矩阵理论与方法》lambda矩阵及Jordan标准形