• 视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04
  • 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码:6666
  1. 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】
  2. 【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】
  3. 【P038-P050】大数据Hadoop教程-学习笔记03【Hadoop MapReduce与Hadoop YARN】
  4. 【P051-P068】大数据Hadoop教程-学习笔记04【数据仓库基础与Apache Hive入门】
  5. 【P069-P083】大数据Hadoop教程-学习笔记05【Apache Hive DML语句与函数使用】
  6. 【P084-P096】大数据Hadoop教程-学习笔记06【Hadoop生态综合案例:陌陌聊天数据分析】

目录

01【大数据导论】

P001【01-课程内容大纲与学习目标】

P002【02-数据分析与企业数据分析方向】

P003【03-数据分析基本流程步骤】

P004【04-大数据时代】

P005【05-分布式与集群概念】

02【Linux操作系统概述】

P006【06-Linux操作系统概述】

03【VMware Workstation虚拟机使用】

P007【07-VMware虚拟机概念与安装】

P008【08-Centos操作系统的虚拟机导入】

P009【09-VMware虚拟机常规使用、快照】

P010【10-FinalShell介绍使用】

04【Linux常用基础命令】

P011【11-Linux文件系统基础知识】

P012【12-Linux常用操作命令(1)-ls、cd、mkdir、rm】

P013【13-Linux常用操作命令(2)-mv、cp、cat、tail、管道、重定向】

P014【14-Linux常用操作命令(3)-tar命令解压缩包】

05【Linux常用系统命令】

P015【15-Linux常用系统命令--时间日期、内存磁盘使用率、进程查看】

06【vi/vim文本编辑器】

P016【16-vim编辑器介绍、3种工作模式】

P017【17-vim基本操作命令】


01【大数据导论】

P001【01-课程内容大纲与学习目标】

2022年最新Hadoop3.x教程,零基础小白也能学会的大数据入门课程,快速入门Hadoop。

Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。

本套教程让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间。以企业实用场景为依托,以企业最终数据应用为目标,引导学习方向,让有经验的工程师也能有所收获。

掌握课程三部分内容:Linux、Hadoop、Hive,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发。

目录

  1. 大数据导论
  2. Linux操作系统概述
  3. VMware Workstation虚拟机使用
  4. Linux常用基础命令
  5. Linux常用系统命令
  6. vi/vim文本编辑器基础使用

学习目标

  1. 理解大数据基本概念
  2. 掌握数据分析基本步骤
  3. 理解分布式、集群概念
  4. 学会VMware虚拟机的导入与使用
  5. 掌握Linux常用操作命令使用
  6. 掌握vi/vim编辑器基础使用

P002【02-数据分析与企业数据分析方向】

企业数据分析方向

  1. 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
  2. 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
  3. 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。

P003【03-数据分析基本流程步骤】

03总结:一切围绕着数据,数据从数据源来到应用的地方去。

P004【04-大数据时代】

大数据定义

  1. 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
  2. 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

P005【05-分布式与集群概念】

05:全球一台服务器的话,用户访问量太大,服务器肯定受不了;多台服务器,北京天津上海分别一台服务器,多个省多台服务器都来提供搜索支持。

我来打个比方,分布式就像钢铁侠的铠甲,各个组件是可以各自独立开的,但又是合在一起发挥功能。集群就像核弹基地,一个国家分布在各地的核弹头组成了核武器集群。

02【Linux操作系统概述】

P006【06-Linux操作系统概述】

搭建局域网环境

VMware

Workstation是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上 运行;用户可以在虚拟机上重现服务器、桌面和平板电脑环境,无需重新启动即可跨不同操作系统同时运行应用。

03【VMware Workstation虚拟机使用】

P007【07-VMware虚拟机概念与安装】

P008【08-Centos操作系统的虚拟机导入】

Centos操作系统的虚拟机导入。

蓝屏因为版本不兼容,换个软件版本;蓝屏的可以安装一个最新版的VMware,亲试可以:VMware17。

ifconfig

ping www.baidu.com

P009【09-VMware虚拟机常规使用、快照】

挂起:挂起虚拟机,下次打开VMware后虚拟机状态为挂起时的状态。

快照:把某一时间的状态记录下来,备份。

快照使用

  1. VMware虚拟机软件提供了非常便捷的快照功能,用于记录某一时间点的状态,用于备份恢复;
  2. 拍好快照之后,可以在任何时间恢复到指定的快照时间点;
  3. 本课程中提供的虚拟机,制作了3个不同时间点的快照,可供大家选择使用。


可以选择任意快照,跳转到指定快照的时间点。

注意:如果需要快照跳转恢复,3台虚拟机必须都要同时进行恢复,避免彼此之间时间状态不同步。

P010【10-FinalShell介绍使用】

SSH工具 SSH客户端

终端使用帮助   相关快捷键

终端:
alt 命令历史
双击ctrl 切换到命令输入框

命令输入框:
alt 命令历史
tab 补全 
双击ctrl 切换到终端

列表窗口:
backspace 上一级目录
alt/tab/esc 关闭窗口
上下箭头 选择行

C:\Windows\System32\drivers\etc

192.168.88.151 node1 node1.itcast.cn(ip地址、别名短名、全名)

192.168.88.152 node2 node2.itcast.cn

192.168.88.153 node3 node3.itcast.cn

 

 

04【Linux常用基础命令】

P011【11-Linux文件系统基础知识】

Linux 命令大全 | 菜鸟教程

P012【12-Linux常用操作命令(1)-ls、cd、mkdir、rm】

  1. ctrl+L:清屏。
  2. Linux ls(英文全拼: list directory contents)命令:用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。
  3. ll命令:ll并不是linux下一个基本的命令,它实际上是ls -l的别名,可以罗列出当前文件或目录的详细信息,含有时间、读写权限、大小、时间等信息,像windows显示的详细信息。
  1. ls(list files)命令:用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。
  2. cd(change directory)命令:用于切换当前工作目录。切换的路径可为绝对路径或相对路径。若路径省略,则变换至使用者的home目录。
  3. mkdir(make directory)命令:用于创建目录。 -p 确保父目录名称存在,不存在的就建一个。
  4. touch命令:创建一个空文件,无任何内容。
  5. rm(remove)命令:用于删除一个文件或者目录。 -f 强制直接删除,无需用户确认。 -r 将目录及以下所有递归逐一删除。
  6. cp(copy file)命令:用于复制文件或目录。 -r:若给出的源文件是一个目录文件,此时将复制该目录下所有的子目录和文件。
  7. mv(move file)命令:用来为文件或目录改名、或将文件或目录移入其它位置。
  8. cat(concatenate)命令:用于连接文件并打印到标准输出设备如console控制台上。适合小文件内容查看。
  9. more 命令:类似cat,不过会以一页一页的形式显示,更方便使用者逐页阅读,翻页结束自动退出。适合大文件查看。按space键翻下一页,按b往回(back)上一页。
  10. tail 命令:用于查看文件的结尾部分的内容。
  11. | 管道命令:将前一个命令执行的结果作为内容交给下一个命令处理。可以形成多级管道操作。
  12. echo命令:用于内容的输出,将内容输出到console控制台上。

P013【13-Linux常用操作命令(2)-mv、cp、cat、tail、管道、重定向】

tail命令:用于查看文件的结尾部分的内容。

  1. -n:用于显示行数,默认为10,即显示10行的内容。
  2. -f:用于实时显示文件动态追加的内容。会把文件里的最尾部的内容显示在屏幕上,并且不断刷新,只要文件有更新,就可以看到最新的文件内容。数据收集与实时采集。

ps -ef:显示当前Linux运行的进程。

ps -ef | grep tomcat:在当前正在运行的进程中搜索Tomcat进程,grep:搜索。

P014【14-Linux常用操作命令(3)-tar命令解压缩包】

打包、解包

tar(tape archive )命令:常用于备份文件。是用来建立,还原备份文件的工具程序,它可以加入,解开备份文件内的文件。

  1. -c 或--create 建立新的备份文件。
  2. -x 或--extract或--get 从备份文件中还原文件。
  3. -v 或--verbose 显示指令执行过程。
  4. -f 或--file= 指定备份文件。

打包压缩、解包解压缩

在打包备份或者解包的过程中,可以通过指定压缩算法,对打包的文件进行压缩,解压的时候也需要指定相应的算法。

  1. -z 或--gzip或--ungzip 通过gzip指令处理备份文件。
  2. 最重要的搭配: tar -zxvf xxxxx.tar.gz

tar -cvf itcast.tar test001.txt test002.txt

tar -zcvf itheima.tar.gz test001.txt test002.txt
 tar -zcvf itheima.tgz test001.txt test002.txt
tar -zxvf itheima.tgz -C ccc

05【Linux常用系统命令】

P015【15-Linux常用系统命令--时间日期、内存磁盘使用率、进程查看】

[root@node1 ~]# date
2023年 02月 21日 星期二 10:57:05 CST
[root@node1 ~]# cal二月 2023
日 一 二 三 四 五 六1  2  3  45  6  7  8  9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28[root@node1 ~]# freetotal        used        free      shared  buff/cache   available
Mem:        4026224      365164     3444232       11916      216828     3426056
Swap:       4063228           0     4063228
[root@node1 ~]# free -htotal        used        free      shared  buff/cache   available
Mem:           3.8G        355M        3.3G         11M        211M        3.3G
Swap:          3.9G          0B        3.9G
[root@node1 ~]# df -h
文件系统                       容量  已用  可用 已用% 挂载点
devtmpfs                       2.0G     0  2.0G    0% /dev
tmpfs                          2.0G     0  2.0G    0% /dev/shm
tmpfs                          2.0G   12M  2.0G    1% /run
tmpfs                          2.0G     0  2.0G    0% /sys/fs/cgroup
/dev/mapper/centos_node1-root   38G  4.1G   33G   11% /
/dev/sda1                     1014M  139M  876M   14% /boot
/dev/mapper/centos_node1-home   19G   33M   19G    1% /home
tmpfs                          394M     0  394M    0% /run/user/0

06【vi/vim文本编辑器】

P016【16-vim编辑器介绍、3种工作模式】

[root@node1 ~]# echo test002.txt
test002.txt
[root@node1 ~]# echo 222 >  test002.txt
[root@node1 ~]# cat test002.txt
222
[root@node1 ~]# vim test002.txt
[root@node1 ~]# cat test002.txt
222
2222
hello[root@node1 ~]# vim test002.txt

P017【17-vim基本操作命令】

vim基本操作命令

  • 方向键控制移动

    • 翻页 pageup pagedown
    • 行首(home 0) 行尾(end $)
    • 跳到文件的最后一行 G
    • 跳到文件的第一行 gg
  • 复制粘贴
    • yy 复制光标当前所在行内容
    • nyy 复制当前行往下n行
    • p 当前行的下一行粘贴
    • P 当前行的上一行粘贴
  • 删除命令
    • dd 删除光标所在当前行内容
    • ndd 删除当前行往下n行
  • 撤销、反撤销
    • u 撤销上一步的操作(后悔药)
    • ctrl+r 反撤销

大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】相关推荐

  1. 大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666 [P001-P ...

  2. 大数据-Hadoop文件系统- 学习笔记 -BH2

    Hadoop文件系统(HDFS) HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器 ...

  3. 学习笔记(01):大数据云端实验室项目实战-微博舆情大数据分析-大数据云端实验室项目实战-微博舆情大数据分析-1...

    立即学习:https://edu.csdn.net/course/play/8728/179818?utm_source=blogtoedu 环境 项目  海量数据

  4. 学习笔记(01):大数据金融信贷项目实战(Spark2.3.x Streaming)-Spark SQL架构原理

    立即学习:https://edu.csdn.net/course/play/19569/272049?utm_source=blogtoedu 哈哈哈哈

  5. 学习笔记(01):大数据视频_Hive视频教程(上)-Hive安装_其他操作命令

    立即学习:https://edu.csdn.net/course/play/20038/255179?utm_source=blogtoedu  

  6. 学习笔记(01):大数据视频_Hadoop视频教程(上)-大数据课程

    立即学习:https://edu.csdn.net/course/play/19912/254968?utm_source=blogtoedu 1

  7. matlab游程检验结果分析,SPSS教程学习笔记6:数据随机化游程检验

    游程检验亦称"连贯检验",主要目的就是检验取值为二分类并且按某种顺序(例如时间顺序)排列的数据资料,是否确实是随机出现的,可以通俗理解为检验样本数据的随机性. 这个方法对于提前了解 ...

  8. Hadoop学习笔记(一):零Linux基础安装hadoop过程笔记

    环境及目标: - 系统:VMWare / Ubuntu 12.04 - Hadoop版本:0.20.2 - 我的节点配置 (完全分布式集群) Master (job tracker) 192.168. ...

  9. 学习笔记(01):【吴刚】PS软件基础实用技巧标准视频教程-04-文件的打开及注意事项...

    立即学习:https://edu.csdn.net/course/play/7468/152149?utm_source=blogtoedu 打开文件拖拽到菜单栏右侧灰色区域

最新文章

  1. python学习笔记(7-11)
  2. Ubuntu16.04如何换pip源
  3. WindowsXP 下的pix模拟器出炉了!!!
  4. 深入源码理解.NET Core中Startup的注册及运行
  5. USACO / Cow Pedigrees(DP)
  6. dnf会修改跨区服务器吗,dnf新跨区系统上线之后,整个游戏只有9个大区
  7. vue常用的按键修饰符
  8. Better And Better for Mac(Mac手势神器BAB)中文版
  9. oracle获取日期所在周,ORACLE 获取某一日期所在周的周一
  10. 终于进了阿里,记录一下我作为一名测试员磕磕碰碰的三个月找工作经历...
  11. 最详细的IIS发布站点步骤
  12. 【图片服务】深入分析阿里云中图片服务的架构经验
  13. 简述网页部分知识点:空链接、锚链接、网页图标等
  14. 问题 A: 【动态规划】机器人军团(最大不下降子序列)
  15. 巴黎报纸对拿破仑的描述
  16. 在 Arch Linux 上使用人脸识别(howdy)来登陆和认证
  17. 小乌龟代码提交Gitee
  18. HTML-table单行操作
  19. 2021.01.05丨根据基因名称拼接表达量与相关注释
  20. 百度地图切图工具的应用实例

热门文章

  1. 基于django奶茶店管理系统
  2. 如何在Twitch上与其他人一起串流
  3. linux横版游戏,横版传奇复古版-横版传奇平衡职业下载v1.76-Linux公社
  4. ES6 判断对象是否为空
  5. 《恐怖丛林生存》肉搏攻略,解开星星系统之谜
  6. 【老脸教你做游戏】小鸟飞过障碍物的游戏(下)
  7. 【网络编程知识】使用Socket通信,做一个简单的多人聊天室
  8. WIFI6 TWT机制介绍
  9. Manacher(马拉车算法)
  10. 梦想世界2014年5月29日服务器维护公告,《梦想世界》2018年3月29日维护公告