大数据？这些你了解吗？------之基础知识篇

下面介绍的这些是在Linux环境下学习大数据所必须要掌握的基础知识：

1、导入虚拟机 =》解压=》英文目录下=》导入VMware中【已移动】=》超级管理员用户root/123456

2、为了保证我们所有人虚拟机保持一致：修改VMware Vmnt8的适配器网段地址192.169.59.0
3、虚拟机配置约束-->职业化：使用普通用户 huadian/huadian：主机名：bigdata-hpsk01.huadian.com
4、基本操作(root用户来操作)：创建普通用户：#useradd huadian：#passwd huadian
5、查看主机名：hostname
6、修改主机名：vi /etc/sysconfig/network 按i进行编辑按esc和：wq保存，退出
7、修改网络：vi /etc/sysconfig/network-scripts/ifcfg-eth0 也可通过UI界面修改
8、修改网络映射：vi /etc/hosts（在Windows上也需要操作）
9、重新启动网络服务：service network start
10、重启/关机：reboot/halt
11、配置普通用户huadian具有sudo权限：visudo
12、关闭防火墙：当前关闭：sudo service iptables stop 查看防火墙状态：sudo service iptables status
13、开机不启动：sudo chkconfig iptables off 检查是否设置成功：chkconfig iptables --list
14、关闭selinux：vi /etc/selinux/config vi /etc/sysconfig/selinux 设置SELINUX=disabled 该设置必须重启才能生效
15、虚拟机快照
16、规划Linux系统的目录结构，以系统/opt目录为主安装软件包。在/opt上创建 /datas 测试数据 /softwares 软件包，上传的软件包 /mudules软件安装目录 /tools 开发的IDE及工具
17、安装jdk：卸载系统自带的openjdk 查看：sudo rpm -qa |grep java
18、linux系统自带上传和下载软件：sudo yum install -y lrzsz
19、rz:上传文件，上传到当前执行rz命令的路径 sz：下载文件
20、安装jdk：注意：Linux安装jdk类似于Windows安装一个绿色版本软件直接解压，然后配置环境变量即可
21、步骤（1）使用rz将jdk上传到/opt/softwares （2）解压：tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/ （3）配置环境变量 sudo vi /etc/profile
#JAVA_HOME export JAVA_HOME=/opt/modules/jdk1.8.0_91 export PATH=${PATH}:${JAVA_HOME}/bin 使其生效：source /etc/profile 验证：java -version
----快照-----
22、伪分布式安装2.7.3版本 -》上传解压 -》看看目录结构并删掉bin/*.cmd（rm -rf *.cmd） sbin/*.cmd（rm -rf *.cmd） share/doc（rm -rf doc）下的文件这几个文件
23、修改3个模块的环境变量（*.env） hadoop-env.sh、 yarn-env.sh、mapred-env.sh 添加JAVA_HOME环境变量，添加可执行权限(/opt/modules/hadoop-2.7.3/etc/hadoop) chmod u+x hadoop-env.sh yarn-env.sh mapred-env.sh
24、按照模块来进行配置:common模块-->配置的文件-->core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>
</property>
hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
26、slaves的配置slaves文件--->指定datanode运行在那些机器上--->bigdata-hpsk01.huadian.com--->一行一个主机名.
27、启动HDFS--->第一次使用文件系统，需要格式化--->-》格式系统 cd /opt/modules/hadoop-2.7.3--->bin/hdfs namenode -format
28、-》启动--》主节点--》sbin/hadoop-daemon.sh start namenode-->sbin/hadoop-daemon.sh stop namenode 从节点-->sbin/hadoop-daemon.sh start datanode-->sbin/hadoop-daemon.sh stop datanode
29、-》验证是否启动成功：方式一:jps,ps -ef |grep java 方式二: 通过webUI 界面查看 bigdata-hpsk01.huadian.com:50070
30、-》测试HDFS：帮助文档--》bin/hdfs dfs HDFS文件系统目录和Linux目录结构类似，命令也类似
31、创建目录：bin/hdfs dfs -mkdir /datas
32、查看目录：bin/hdfs dfs -ls /（datas）
33、上传文件：bin/hdfs dfs -put /opt/datas/input.data /datas/ 要先在opt下的datas下面创建一个input.data文件，然后再将数据上传
34、查看文件内容：--》bin/hdfs dfs -text /datas/input.data--》bin/hdfs dfs -cat /datas/input.data
35、下载文件：bin/hdfs dfs -get /datas/input.data ./ ./(当前目录)
36、删除文件：bin/hdfs dfs -rm -r /datas/input.data
37、配置YARN：对于分布式资源管理和任务调度来说--》哪些程序可以运行在YARN之上--->MapReduce-->并行数据处理框架.spark-->基于内存分布式处理框架-->storm/flink-->实时流式处理框架.TeZ-->分析数据，比MapReduce速度快.主节点-->resourceManager.从节点-->nodeManager
38、需要修改的配置---》 yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-hpsk01.huadian.com</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

slaves文件：
前面已经修改了（如果有多个可以修改）
39、启动：--》主节点：resourceManager--》sbin/yarn-daemon.sh start resourcemanager。从节点：nodeManager--》sbin/yarn-daemon.sh start nodemanager
40、验证：方式一：jps === ps -ef |grep java --》方式二：bigdata-hpsk01.huadian.com:8088
41、MapReduce:并行计算框架（2.X）--》思想：分而治之。核心 Map--》并行处理数据，将数据分割，一部分一部分的处理。Reduce--》将Map的处理结果进行合并，
42、配置：cd {Hadoop_home}/etc/hadoop ---》cp mapred-site.xml.template mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
43、这是配置文件的相关网站http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html（配置文件）
mapreduce程序运行在YARN上---》通过经典程序案例，wordcount，Hadoop提到测试案例，/opt/modules/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
-》准备数据，数据是放到hdfs上-》提交运行--》bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /output1
44、查看统计之后的结果： bin/hdfs dfs -text /output1/part*
45、配置历史服务器：查看监听已经运行完成的MapReduce任务的执行情况
46、配置mapred-site.xml

<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata-hpsk01.huadian.com:10020</value>
</property>
47、启动----》sbin/mr-jobhistory-daemon.sh start historyserver 注意：在启动historyServer服务之前运行的job相关信息已经没了，只有后面运行的才有。
48、日志集聚功能----》当MapReduce程序在YARN上运行完成之后，将产生日志文件上传到HDFS目录中，以便后续查看。
49、需配置的文件：---》yarn-site.xml

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
注意：重启YARN和jobHistoryServer ----快照，克隆----
50、日志信息：{Hadoop_home}/logs
组件名称-用户名-服务名称-主机名
hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
51、查看日志：cd logs 然后在查看具体的某一个日志：tail -100f name（日志名称）
52、根据后缀名：.log---》程序启动相关信息会在里面，进程启动失败 .out----》程序运行相关的输出 --》system.out.print/system.out.error
53、日志一般有三个等级：info warning error ， info等级最低 warning 等级其次最高的是error 设置日志输出的等级越高，输出的日志越少
54、在配置中常见的问题：博客中有答案：https://mp.csdn.net/postedit/80641273
（1）浏览器问题
（2）域名访问不了
（3）jdk问题
（4）还是域名问题，（可能是映射配置错误或者是文件的权限问题）
（5）权限问题
chown -R huadian:Huadain hadoop-2..../*
（6）防火墙问题：原因是防火墙的安全机制没有关机导致的需要将etc/selinux 设置为disabled的，才能配置成功。
55、maven项目打成jar包运行在yarn上面：开始先导入项目然后将存放的数据仓库替换成老师发过来的即可，避免下载很多的jar包。
56、导入到ideal之后，在命令行输入mvn clean、compile、package、install、test、Tomcat：run打包成功成功之后就将其上传到Linux上的/opt/modules/hadoop-2.7.3/share/hadoop/mapreduce这个文件夹下，然后查看是否成功
57、调用单词统计的方法，在浏览器上查看是否成功。在这个之前要先开其五个节点、namenode（sbin/hadoop-daemon.sh start namenode）、datanode、resourcemanager(sbin/yarn-daemon.sh start resourcemanager)、nodemanager、jobHistoryServer(sbin/mr-jobhistory-daemon.sh start historyserver)，
然后在进行统计，命令：bin/yarn jar share/hadoop/mapreduce/hadoop-1.0-SNAPSHOT.jar com.huadian.bigdata.mapreduce.WordCountMapReduce /datas/input.data /outputs

查看结果：bin/hdfs dfs -text /outputs/part*

只要记住这些，Linux与环境的配置你就没问题了！！！！！！！！

大数据？这些你了解吗？------之基础知识篇相关推荐

23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）
作者简介: 蓝桥签约作者.大数据&Python领域优质创作者.管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题. 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系 ...
23篇大数据系列（一）java基础知识全集（2万字干货，建议收藏）
大数据系列爽文,从技术能力.业务基础.分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer: ❖ 掌握大数据的基础知识,与其他同事沟通无障碍: ❖ 具备一定的 ...
企业级Hadoop大数据平台实战（1）——基础知识说明
#1 hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储 Hadoop实现 ...
大数据开发成长之路——Linux基础
Linux基础这里主要介绍学习大数据过程中用到的Linux基础知识,现在主攻的方向是大数据开发,欢迎大家共同交流. 环境推荐安装VMware虚拟机并安装CentOS操作系统,具体资源的下载和安装可 ...
大数据工资这么高，零基础可以学习吗?
大数据工资这么高,零基础可以学习吗? 目前大数据行业异常火爆,不少人都对大数据充满了兴趣,其中有大部分人都是之前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不了大数据了 ...
大数据HiveSQL学习笔记三-查询基础语法以及常用函数
大数据HiveSQL学习笔记三-查询基础语法以及常用函数一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...
100天精通Python丨基础知识篇 —— 05、7大基础数据类型详解（变量、列表、集合、字典、元组）
<100天精通Python专栏 - 快速入门到黑科技>是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主不吃西红柿倾力打造,专栏分为基础知识篇和黑科技应用篇.基础知识篇以理论 ...
计算机基础知识题库选择题,计算机基础知识篇选择题库
计算机基础知识篇选择题库 (6页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 15.9 积分计算机基础知识篇选择题库1.微型计算机的性能指标不包括___ ...
Hadoop学习笔记—15.HBase框架学习（基础知识篇）
Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...

大数据？这些你了解吗？------之基础知识篇

大数据？这些你了解吗？------之基础知识篇相关推荐

最新文章

热门文章