了解HDFS命令、Hadoop、Spark SQL、SQL查询、ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题

你会学到什么
作为本课程的一部分,学生将获得在Spark Hadoop环境中工作的实践经验,该环境是免费且可下载的。
学生将有机会在沙箱环境中使用Hadoop集群上的Spark解决数据工程和数据分析问题
发布HDFS命令。
将存储在HDFS的一组给定格式的数据值转换为新的数据值或新的数据格式,并将其写入HDFS。
从HDFS加载数据用于Spark应用&使用Spark将结果写回HDFS。
以各种文件格式读写文件。
使用Spark API对数据执行标准的提取、转换、加载(ETL)过程。
使用metastore表作为Spark应用程序的输入源或输出接收器。
在Spark中应用查询数据集的基础知识。
使用Spark过滤数据。
编写计算聚合统计信息的查询。
使用Spark连接不同的数据集。
产生分级或分类的数据。

流派:电子学习| MP4 |视频:h264,1280×720 |音频:AAC,44.1 KHz
语言:英语+中英文字幕(根据原英文字幕机译更准确)|大小解压后:8..37GB 含课程文件 |时长:5h 37m
课程获取:SparkSQL和Hadoop(面向数据科学家和大数据分析师)_云桥网络

Spark SQL & Hadoop (For Data Scientists & Big Data Analysts)

描述
Apache Spark是目前最流行的大数据处理系统之一。

许多希望在本地存储数据的组织继续使用Apache Hadoop。Hadoop允许这些组织高效地存储从千兆字节到千兆字节的大数据集。

随着数据科学、大数据分析和数据工程职位空缺数量的持续增长,对具备Spark和Hadoop技术知识的个人填补这些空缺的需求也将持续增长。

本课程专为希望利用Hadoop和Apache Spark的力量来理解大数据的数据科学家、大数据分析师和数据工程师设计。

本课程将帮助那些希望交互式分析大数据或开始编写生产应用程序的人准备数据,以便在Hadoop环境中使用火花SQL进行进一步分析。

该课程也非常适合希望接触Spark & Hadoop的大学生和应届毕业生,或者只想在使用Spark-SQL的大数据环境中应用自己的SQL技能的任何人。

本课程旨在简明扼要,并为学生提供必要和足够的理论,足以让他们能够使用Hadoop & Spark,而不会陷入太多关于RDDs等旧的低级APIs的理论。

在解决本课程中包含的问题时,学生将开始发展这些技能&处理生产环境中出现的真实场景所需的信心。

(一)这门课程的问题不到30个。这些包括hdfs命令、基本数据工程任务和数据分析。

全面解决所有问题。

(c)还包括Verulam Blue虚拟机,这是一个已经安装了spark Hadoop集群的环境,以便您可以练习解决问题。

该虚拟机包含一个Spark Hadoop环境,该环境允许学生读写Hadoop文件系统中的数据,并将元存储表存储在Hive元存储上。

学生解决问题所需的所有数据集都已经加载到HDFS上,所以学生不需要做任何额外的工作。

虚拟机还安装了阿帕奇齐柏林飞艇。这是一款专门针对Spark的笔记本,类似于Python的Jupyter笔记本。

本课程将允许学生在实践过程中获得在Spark Hadoop环境中工作的实践经验

将存储在HDFS的一组给定格式的数据值转换为新的数据值或新的数据格式,并将其写入HDFS。

从HDFS加载数据用于Spark应用&使用Spark将结果写回HDFS。

以各种文件格式读写文件。

使用Spark API对数据执行标准的提取、转换、加载(ETL)过程。

使用metastore表作为Spark应用程序的输入源或输出接收器。

在Spark中应用查询数据集的基础知识。

使用Spark过滤数据。

编写计算聚合统计信息的查询。

使用Spark连接不同的数据集。

产生分级或分类的数据。

这门课是给谁的
本课程专为希望利用Hadoop和Apache Spark的力量来理解大数据的数据科学家、大数据分析师和数据工程师设计。
这门课程也非常适合大学生和刚毕业的学生,他们渴望在一家希望填补大数据相关职位的公司找到工作,或者任何只想在使用Spark-SQL的大数据环境中应用他们的SQL技能的人。
希望进入数据工程领域的软件工程师和开发人员也会发现本课程很有帮助。

SparkSQL和Hadoop(面向数据科学家和大数据分析师)相关推荐

  1. 数据科学家和大数据技术人员工具包

    数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科 ...

  2. 数据分析师、数据科学家、大数据专家三个职位的区别

    数据分析师.数据科学家.大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载. 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称 ...

  3. 数据科学 vs. 大数据 vs. 数据分析:定义,内涵,应用,所需技能

    什么是数据科学? 什么是大数据? 什么是数据分析? 数据科学的应用 大数据的应用 数据分析的应用 成为数据科学家所需的技能 成为大数据专家所需的技能 成为数据分析师所需的技能 薪资趋势 结论 数据无处 ...

  4. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 "昔我十年前,与君始相识." 一瞬间Hadoop也到了要 ...

  5. 详解:从Greenplum、Hadoop到现在的阿里大数据技术

    对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起 ...

  6. hadoop应用开发技术..._大数据技术与应用——万物皆可数据化

    万|物|皆|可|数|据|化 大数据技术与应用  专业概况 专业名称:大数据技术与应用 专业代码:610215 专业方向:数据可视化技术 数据采集与处理  行业趋势  近几年来,互联网行业发展风起云涌, ...

  7. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  8. Hadoop当下最简洁的大数据各种技术介绍与总结

    当下最简洁的大数据各种技术介绍与总结 当下最简洁的大数据各种技术介绍与总结 1.大数据的发展历史 1.1 启蒙阶段:数据仓库的出现 1.2 技术变革:Hadoop诞生 1.3 数据商业化:数据湖系统 ...

  9. 基于hadoop和echarts的教育大数据可视化系统 毕设完整的代码+数据集

    一.摘 要 在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台.统一资源管理的数字化教学系统.如何评估系统平台的健康程度.学生的学习体验和在线课程的质量对于课 ...

最新文章

  1. .Net Framework 3.0 概述
  2. 香港中文大学(深圳)吴保元教授课题组招收全奖PhD、实习/访问学生
  3. 详解:数据库名、实例名、ORACLE_SID、数据库域名、全局数据库名、服务名及手工脚本创建oracle数据库...
  4. “抢滩”中高端酒店,新老玩家谁会更先跑出来?
  5. SAP CRM里的settype和relationship有什么区别
  6. 数据分析sql面试必会6题经典_师兄大厂面试遇到这条 SQL 数据分析题,差点含泪而归!...
  7. HDOJ 2074 叠筐
  8. 30. 价格区间设置
  9. Ubuntu20.04、22.04安装nvidia显卡驱动
  10. Python爬虫——下载韩寒博客文章
  11. flutter从零开发完整好客租房App(已完结)
  12. 选择高防空间应该注意什么?
  13. oracle SO币种默认设置,Oracle EBS 11i 表结构——OE模块 so_headers_all;so_lines_all
  14. 汉诺塔问题(Towers of Hanoi)
  15. css tabindex
  16. EasyExcel对列同类项进行单元格合并
  17. Python 负数的补码表示
  18. stm32f10x_conf.h是个什么东东?
  19. liunx基础—zabbix5.0监控系统安装部署
  20. 移动端PC地图导航定位通用模板无AK

热门文章

  1. 【题解】BZOJ 3065: 带插入区间K小值——替罪羊树套线段树
  2. USB_HID C#测试例程
  3. ios 图片自动轮播
  4. wp 删除独立存储空间文件(多级非空文件夹删除)
  5. 中国挪动批改KPI查核制度将器重客户满意度
  6. c语言char转wchar t,c语言char和wchar_t 转换
  7. mysql不同实例数据同步_两台Mysql数据库数据同步实现实例
  8. keep健身软件电脑版_keep下载安装2020官方版-keep健身软件免费版下载v6.125.0 安卓最新版...
  9. jqgrid如何渲染表格数据_jqgrid,jquery_jqGrid pivot 增加分项小计,jqgrid,jquery,jquery插件,javascript,表格 - phpStudy...
  10. linux版魔兽服务端,linux下玩warcraft III(魔兽)