下面介绍的这些是在Linux环境下学习大数据所必须要掌握的基础知识:

1、导入虚拟机  =》解压=》英文目录下=》导入VMware中【已移动】=》超级管理员用户root/123456

2、为了保证我们所有人虚拟机保持一致:修改VMware Vmnt8的适配器网段地址192.169.59.0
3、虚拟机配置约束-->职业化:使用普通用户 huadian/huadian:主机名:bigdata-hpsk01.huadian.com
4、基本操作(root用户来操作):创建普通用户:#useradd huadian:#passwd huadian
5、查看主机名:hostname
6、修改主机名:vi /etc/sysconfig/network 按i进行编辑  按esc和:wq保存,退出
7、修改网络:vi /etc/sysconfig/network-scripts/ifcfg-eth0 也可通过UI界面修改
8、修改网络映射:vi /etc/hosts(在Windows上也需要操作)
9、重新启动网络服务:service network start
10、重启/关机:reboot/halt
11、配置普通用户huadian具有sudo权限:visudo
12、关闭防火墙:当前关闭:sudo service iptables stop   查看防火墙状态:sudo service iptables status
13、开机不启动:sudo chkconfig iptables off     检查是否设置成功:chkconfig iptables --list    
14、关闭selinux:vi /etc/selinux/config  vi /etc/sysconfig/selinux  设置SELINUX=disabled  该设置必须重启才能生效
15、虚拟机快照
16、规划Linux系统的目录结构,以系统/opt目录为主安装软件包。在/opt上创建   /datas 测试数据  /softwares 软件包,上传的软件包  /mudules软件安装目录 /tools 开发的IDE及工具
17、安装jdk:卸载系统自带的openjdk   查看:sudo rpm -qa |grep java
18、linux系统自带上传和下载软件:sudo yum install -y lrzsz
19、rz:上传文件,上传到当前执行rz命令的路径  sz:下载文件
20、安装jdk:注意:Linux安装jdk类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可
21、步骤(1)使用rz将jdk上传到/opt/softwares (2)解压:tar -zxf jdk-8u91-linux-x64.tar.gz -C /opt/modules/ (3)配置环境变量 sudo vi /etc/profile
#JAVA_HOME  export JAVA_HOME=/opt/modules/jdk1.8.0_91  export PATH=${PATH}:${JAVA_HOME}/bin  使其生效:source /etc/profile 验证:java -version
----快照-----
22、伪分布式安装2.7.3版本  -》上传解压  -》看看目录结构并删掉bin/*.cmd(rm -rf *.cmd)  sbin/*.cmd(rm -rf *.cmd) share/doc(rm -rf doc)下的文件这几个文件
23、修改3个模块的环境变量(*.env)   hadoop-env.sh、 yarn-env.sh、mapred-env.sh 添加JAVA_HOME环境变量,添加可执行权限(/opt/modules/hadoop-2.7.3/etc/hadoop) chmod u+x hadoop-env.sh yarn-env.sh mapred-env.sh
24、按照模块来进行配置:common模块-->配置的文件-->core-site.xml
<!--指定文件系统为HDFS及主节点NameNode运行的机器和端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>
</property>
<!--指定文件系统的本地临时存储目录,默认是当前系统/tmp-,执行创建临时目录(先在/opt/modules/hadoop-2.7.3下创建一个/data再创建一个/tmpData)->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
</property>
25、HDFS的配置--->hdfs-site.xml
<!--由于是伪分布式部署,仅有一台机器
所有block副本数没有必要设置为3,设置为1即可-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
26、slaves的配置slaves文件--->指定datanode运行在那些机器上--->bigdata-hpsk01.huadian.com--->一行一个主机名.
27、启动HDFS--->第一次使用文件系统,需要格式化--->-》格式系统 cd /opt/modules/hadoop-2.7.3--->bin/hdfs namenode -format
28、-》启动--》主节点--》sbin/hadoop-daemon.sh start namenode-->sbin/hadoop-daemon.sh stop namenode   从节点-->sbin/hadoop-daemon.sh start datanode-->sbin/hadoop-daemon.sh stop datanode
29、-》验证是否启动成功:方式一:jps,ps -ef |grep java  方式二: 通过webUI 界面查看 bigdata-hpsk01.huadian.com:50070
30、-》测试HDFS:帮助文档--》bin/hdfs dfs   HDFS文件系统目录和Linux目录结构类似,命令也类似
31、创建目录:bin/hdfs dfs -mkdir /datas 
32、查看目录:bin/hdfs dfs -ls /(datas)
33、上传文件:bin/hdfs dfs -put /opt/datas/input.data /datas/   要先在opt下的datas下面创建一个input.data文件,然后再将数据上传
34、查看文件内容:--》bin/hdfs dfs -text /datas/input.data--》bin/hdfs dfs -cat  /datas/input.data
35、下载文件:bin/hdfs dfs -get /datas/input.data ./   ./(当前目录)
36、删除文件:bin/hdfs dfs -rm -r /datas/input.data 
37、配置YARN:对于分布式资源管理和任务调度来说--》哪些程序可以运行在YARN之上--->MapReduce-->并行数据处理框架.spark-->基于内存分布式处理框架-->storm/flink-->实时流式处理框架.TeZ-->分析数据,比MapReduce速度快.主节点-->resourceManager.从节点-->nodeManager
38、需要修改的配置---》 yarn-site.xml
<!--resourceManager服务运行的主机名称-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-hpsk01.huadian.com</value>
</property>
<!--告知yarn ,mapreduce程序将在你这里运行-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

slaves文件:
前面已经修改了(如果有多个可以修改)
39、启动:--》主节点:resourceManager--》sbin/yarn-daemon.sh start resourcemanager。从节点:nodeManager--》sbin/yarn-daemon.sh start nodemanager
40、验证:方式一:jps  === ps -ef |grep java  --》方式二:bigdata-hpsk01.huadian.com:8088
41、MapReduce:并行计算框架(2.X)--》思想:分而治之。核心  Map--》并行处理数据,将数据分割,一部分一部分的处理。Reduce--》将Map的处理结果进行合并,
42、配置:cd  {Hadoop_home}/etc/hadoop ---》cp mapred-site.xml.template mapred-site.xml
<!--指定MapReduce程序运行在YARN上,默认值local-->
   <property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
43、这是配置文件的相关网站http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html(配置文件)
mapreduce程序运行在YARN上---》通过经典程序案例,wordcount,Hadoop提到测试案例,/opt/modules/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
-》准备数据,数据是放到hdfs上-》提交运行--》bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /output1
44、查看统计之后的结果: bin/hdfs dfs -text /output1/part*
45、配置历史服务器:查看监听已经运行完成的MapReduce任务的执行情况
46、配置mapred-site.xml
<!--配置历史服务器-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata-hpsk01.huadian.com:10020</value>
</property>
47、启动----》sbin/mr-jobhistory-daemon.sh start historyserver    注意:在启动historyServer服务之前运行的job相关信息已经没了,只有后面运行的才有。
48、日志集聚功能----》当MapReduce程序在YARN上运行完成之后,将产生日志文件上传到HDFS目录中,以便后续查看。
49、需配置的文件:---》yarn-site.xml
<!--日志集聚功能-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!--日志存储的时间1周 60*60*24*7-->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
注意:重启YARN和jobHistoryServer     ----快照,克隆----
50、日志信息:{Hadoop_home}/logs
组件名称-用户名-服务名称-主机名
hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
51、查看日志:cd logs    然后在查看具体的某一个日志:tail -100f name(日志名称)  
52、 根据后缀名:.log---》程序启动相关信息会在里面,进程启动失败       .out----》程序运行相关的输出 --》system.out.print/system.out.error
53、日志一般有三个等级:info  warning  error ,  info等级最低   warning 等级其次  最高的是error 设置日志输出的等级越高,输出的日志越少
54、在配置中常见的问题:博客中有答案:https://mp.csdn.net/postedit/80641273
   (1)浏览器问题
(2)域名访问不了
(3)jdk问题
(4)还是域名问题,(可能是映射配置错误或者是文件的权限问题)
(5)权限问题
    chown -R  huadian:Huadain hadoop-2..../*
(6)防火墙问题:原因是防火墙的安全机制没有关机导致的  需要将etc/selinux 设置为disabled的,才能配置成功。
55、maven项目 打成jar包运行在yarn上面:开始先导入项目  然后将存放的数据仓库替换成老师发过来的即可,避免下载很多的jar包。
56、导入到ideal之后,在命令行输入mvn clean、compile、package、install、test、Tomcat:run打包成功成功之后就将其上传到Linux上的/opt/modules/hadoop-2.7.3/share/hadoop/mapreduce这个文件夹下,然后查看是否成功
57、调用单词统计的方法,在浏览器上查看是否成功。在这个之前要先开其五个节点、namenode(sbin/hadoop-daemon.sh start namenode)、datanode、resourcemanager(sbin/yarn-daemon.sh start resourcemanager)、nodemanager、jobHistoryServer(sbin/mr-jobhistory-daemon.sh start historyserver),
然后在进行统计,命令:bin/yarn jar share/hadoop/mapreduce/hadoop-1.0-SNAPSHOT.jar com.huadian.bigdata.mapreduce.WordCountMapReduce /datas/input.data /outputs

查看结果:bin/hdfs dfs -text /outputs/part*

只要记住这些,Linux与环境的配置你就没问题了!!!!!!!!

大数据?这些你了解吗?------之基础知识篇相关推荐

  1. 23篇大数据系列(二)scala基础知识全集(史上最全,建议收藏)

    作者简介: 蓝桥签约作者.大数据&Python领域优质创作者.管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题. 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系 ...

  2. 23篇大数据系列(一)java基础知识全集(2万字干货,建议收藏)

    大数据系列爽文,从技术能力.业务基础.分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer: ❖ 掌握大数据的基础知识,与其他同事沟通无障碍: ❖ 具备一定的 ...

  3. 企业级Hadoop大数据平台实战(1)——基础知识说明

    #1 hadoop定义 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储 Hadoop实现 ...

  4. 大数据开发成长之路——Linux基础

    Linux基础 这里主要介绍学习大数据过程中用到的Linux基础知识,现在主攻的方向是大数据开发,欢迎大家共同交流. 环境 推荐安装VMware虚拟机并安装CentOS操作系统,具体资源的下载和安装可 ...

  5. 大数据工资这么高,零基础可以学习吗?

    大数据工资这么高,零基础可以学习吗? 目前大数据行业异常火爆,不少人都对大数据充满了兴趣,其中有大部分人都是之前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不了大数据了 ...

  6. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  7. 100天精通Python丨基础知识篇 —— 05、7大基础数据类型详解(变量、列表、集合、字典、元组)

    <100天精通Python专栏 - 快速入门到黑科技>是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主 不吃西红柿 倾力打造,专栏分为基础知识篇和黑科技应用篇.基础知识篇以理论 ...

  8. 计算机基础知识题库选择题,计算机基础知识篇选择题库

    计算机基础知识篇选择题库 (6页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 15.9 积分 计算机基础知识篇选择题库1.微型计算机的性能指标不包括___ ...

  9. Hadoop学习笔记—15.HBase框架学习(基础知识篇)

    Hadoop学习笔记-15.HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase ...

最新文章

  1. java telnet乱码_telnet乱码的解决方法
  2. getComputedStyle方法的那些事
  3. 【C语言进阶深度学习记录】二十二 指针的本质分析
  4. 利用IP组播技术传输视频信息
  5. 程序员的基本功:为什么非要用 Python 做数据分析?Excel 不好吗?
  6. html的代码作用域,JavaScript作用域的全面解析(附代码)
  7. ActionSheet的用法
  8. 图书管理系统UML课程设计
  9. qcnfa435_【路由知识小课堂番外篇】支持MU-MIMO技术设备一览表(2017.9.25第一版)...
  10. 手机上计算机开n次方,手机计算器还能这样用,99%的人都不知道
  11. 学习Java过程中创建动态数组的两种方法比较
  12. 搜索中文与外文数据库中的综述类文献
  13. 小米网卡驱动linux,小米笔记本 Air 13.3 在 Linux Mint 下安装 nvidia 驱动
  14. Mac下清除所有缓存
  15. 设置Excel单元格行宽列高
  16. 白盒测试模板用例:三角形测试
  17. Stochastic Answer Networks for Machine Reading Comprehension读书笔记
  18. 2019年区块链技术领域的三个主要冲突
  19. 在江南这四年(成长分享)
  20. 输入5整数,将其中最小的数与第一个数对换,把最大的数与最后一个数对换。

热门文章

  1. matplotlib.pyplot.figure
  2. C/C++语言学习的策略
  3. x-scan mysql_X-Scan使用教程
  4. 组策略同步的频率和设置修改
  5. 从零起步的数据中心规划和建设
  6. 101 Free VMware Tools
  7. Maven学习总结(40)——Maven安装项目jar到本地和私服相关总结
  8. 简述计算机j选件,计算机组成原理06new.ppt
  9. group() 数组java_java 根据每个分组个数,分解数组. | 学步园
  10. es 创建索引_es的基本原理和操作文档