Hadoop完全分布式搭建及测试

项目开始前准备工作

1.下载并安装VM workstation pro 15安装包，这里选择：
VMware-workstation-full-15.1.0-13591040.exe
2.下载并安装centos7，这里选择：
CentOS-7-x86_64-Minimal-1810.iso
（这里为minimal，及最小安装包，无图形化界面）
3.准备jdk、hadoop安装包，这里选择：
jdk版本：jdk-12.0.1
hadoop版本：hadoop-2.7.7
4.下载并安装本机与虚拟机的文件传输软件，这里选择：
Filezilla：FileZilla_3.37.0_win32-setup_bundled.exe
FTP：LeapFTP3.0.1.46.exe

搭建过程(hadoop集群)

虚拟机安装

1、下载workstation pro 15，通过centos7镜像文件安装centos7，这里给出安装centos7时的内存分配问题(手动分配内存)

2、装好后，修改内存，因为不需要图形界面，所以分配1024M内存，更改网络适配器为VMnet8（NAT）

3、运行虚拟机，进行网络配置：
1.输入：ip addr可以看到虚拟机网卡叫做ens33
2.输入：ls /etc/sysconfig/network-scripts/看到网卡ip信息的配置文件名叫做ifcfg-ens33

4、配置ifcfg-ens33 配置
输入：cat /etc/sysconfig/network-scripts/ifcfg-ens33查看，可以发现BOOTPROTO=dhcp(动态ip),ONBOOT=yes
**注意：**如果ONBOOT=“no”
需要输入：vi /etc/sysconfig/network-scripts/ifcfg-ens33将ONBOOT=no修改为yes，
如果文件不可修改：
进入root模式，输入：chmod 777 文件名把文件改为可写状态。
修改完毕后，cat查看文件是否修改成功

ONBOOT是指明在系统启动时是否激活网卡，只有在激活状态的网卡才能去连接网络，进行网络通讯

输入：vi /etc/sysconfig/network-scripts/ifcfg-ens33，进行静态ip设置，修改：BOOTPROTO="static | dhcp”
修改后执行：service network restart

显示“OK”,安装成功。

5、安装成功，执行 yum install net-tools，安装网络工具

输入两个yes：

使用ifconfig命令查询虚拟机ipv4地址：

得到信息：
INET：192.168.241.128（IPADDRESS）
NETMASK：255.255.255.0
BROADCAST：192.168.241.255
还有一个需要用到的信息，GATEWAY，关于GATEWAY的信息，查看虚拟机->编辑->虚拟网络编辑器，选中NAT,NAT设置：

得到
GATEWAY：192.168.241.2

6、编辑ip地址和子网掩码，输入：vi /etc/sysconfig/network-scripts/ifcfg-ens33，在文件末尾添加：

IPADDR: 192.168.241.128
NETMASK：255.255.255.0
GATEWAY：192.168.241.2
BROADCAST：192.168.241.255

修改后执行：service network restart

以上为第一台虚拟机的配置过程，每台虚拟机都应如此，但后续通过克隆虚拟机方式(克隆后需要修改ip地址)，克隆后主机名修改后分别为master、slave01、slave02，不再多加描述。

7、master安装ssh服务(每一台虚拟机)
输入：yum -y install openssh-server

输入：yum -y install openssh-clients（如图显示已经安装）

虚拟机克隆

1、克隆另外两台完全一模一样的虚拟机
克隆master的第一台虚拟机slave01，克隆过程如下：
首先进行拍摄快照

选择完整克隆：
和原始虚拟机完全独立的一个备份，可以脱离原始虚拟机独立使用

虚拟机名称最好不要带中文，防止后续配置出错，以及虚拟机克隆位置最好统一放在一起，点击完成前先在放的位置建一个文件夹，如这里的CentOs7.1（防止克隆后文件散乱），最后点击完成开始克隆（需要等待一会）：

无论是快照还是克隆，都是对虚拟机的一个状态生成了一个镜像，不同的是这个镜像是作为虚拟机的一部分存在还是作为独立的部分存在。
克隆的过程并不影响原始虚拟机，克隆的操作一但完成，克隆的虚拟机就可以脱离原始虚拟机独立存在，而且在克隆的虚拟机中和原始虚拟机中的操作是相对独立的，不相互影响。

2、slave01查看ipv4地址输入：ifconfig（slove01此处host主机名已改变的原因是，原来ip在后续配置过程中发生变化，故此截图为更改主机名后所截，原图删除）

得到信息：

INET：192.168.241.131
NETMASK：255.255.255.0
BROADCAST：192.168.241.255
GATEWAY：192.168.241.2

出现 127.0.0.1 重复：vi /etc/sysconfig/network-scripts/ifcfg-ens33 将ip地址最后一位改掉，改为192.168.241.131

修改后执行：service network restart

显示“OK”,安装成功。

3、同样的方式克隆第二个虚拟机slave02（过程一样，此处省略）
slove02查看ipv4地址输入：ifconfig

得到信息：

INET：192.168.241.130
NETMASK：255.255.255.0
BROADCAST：192.168.241.255
GATEWAY：192.168.241.2

出现 127.0.0.1 重复：vi /etc/sysconfig/network-scripts/ifcfg-ens33 将ip地址最后一位改掉，改为192.168.241.130

显示“OK”,安装成功。

以上完成虚拟机的克隆。

三台ip分别为：

master 192.168.241.128
slave01 192.168.241.131
slave02 192.168.241.130

检验

设置完毕，ping 下内网及外网，进行检验：
Master虚拟机ping slave01：

成功。

分别用windows主机ping一下配置好的三台虚拟机，截图如下：
ping 192.168.241.128

ping 192.168.241.131

ping 192.168.241.130

全部成功，以上完成ip配置。

关闭防火墙

centos7开始默认用的是firewalld ，7以下基于iptables
因为这里是centos7：CentOS 7.0默认使用的是firewall作为防火墙
第一步：直接关闭防火墙，输入：systemctl stop firewalld.service
第二步：禁止firewall开机启动，输入：systemctl disable firewalld.service

修改主机名

1、目前CentOS的最高版本是CentOS7.1，有较多CentOS6系列能使用的命令都不能使用或者做了有些改动。例如，在CentOS7或者CentOS7.1系统中，修改主机名已经被简化为下面这条命令：
修改三种主机名，hostnamectl set-hostname
修改static主机名，hostnamectl –static set-hostname 名字
重启后hostname就变化
将一个改为master，另外两个为slave01和slave02：
Master：

Slave01：

Slave02：

2、输入：vi /etc/hosts 追加内容如下:

192.168.241.128 master
192.168.241.131 slave01
192.168.241.130 slave02

这样在这三台主机间才能通过hostname来识别彼此：

再次通过ping验证：
Master ping slave01

成功，以上主机名修改完成。

生成公钥和私钥(每一台虚拟机)并设置无密码登录

①生成公钥和私钥(每台虚拟机)
输入：ssh-keygen -t rsa 一路回车即可

②将公钥复制到authorized_keys并赋予authorized_keys600权限(每一台虚拟机)

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

③将master节点上的authoized_keys远程传输到slave1和slave2的~/.ssh/目录下，

scp /root/.ssh/authorized_keys root@slave02:/root/.ssh/

验证无密码登录 ：
输入：ssh master 不需要输入密码即可登录 exit:退出：

安装jdk和hadoop

1、使用 filezilla 进行传输（三台设备均需要传输并且都传输在/root文件夹下）

2、传输完成后，解压jdk
输入：

tar zxvf jdk-12.0.1
tar axvf hadoop-2.7.7

解压jdk和hadoop包

3、配置jdk环境变量:
输入：vim /etc/profile 在末尾追加：

> export JAVA_HOME=/root/jdk-12.0.1
> export JRE_HOME=/root/jdk-12.0.1/jre
>CLASSPATH=.:$JRE_HOME/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
>PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
>export  HADOOP_HOME=/root/hadoop-2.7.7
>export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

刷新环境变量：source /etc/profile
验证是否安装成功: java –version

安装成功。

4、在hadoop文件夹下创建tmp、logs、hdfs、hdfs/name、hdfs/data五个文件夹，截图如下：

修改hadoop配置文件

1、使用ftp软件进行配置文件的更改:都在hadoop/etc/hadoop下
建立连接

连接成功

具体文件修改：
①hadoop-env.sh
修改第25行的 ${JAVA_HOME}为自己的jdk安装目录(/root/jdk-12.0.1)

②yarn-env.sh
修改第23行, 解注释(export JAVA_HOME=/root/jdk-12.0.1/)
修改为自己的jdk安装目录(/root/ jdk-12.0.1)

③slaves
修改localhost 为slave01和slave02

④在master命令行中执行重命名操作
(该文件在/root/hadoop-2.7.7/etc/hadoop/下)
输入：mv mapred-site.xml.template mapred-site.xml

⑤配置 core-site.xml文件
在之间，添加如下内容⑥配置hdfs-site.xml文件
在之间，添加如下内容
⑦配置yarn-site.xml
在之间，添加如下内容

⑧配置mapred-site.xml
在之间，添加如下内容

2、将root文件夹拷贝到slave01和slave02的root目录下
在master主机输入：

scp -r /root/ root@slave01:/
scp -r /root/ root@slave02:/

截图如下：
slave01拷贝完成：
验证一下是否复制成功，进入/root/Hadoop-2.7.7/etc/hadoop目录，随机查看一个之前在master配置过的文件，这里选择：slaves，结果是成功复制：

Slave02

拷贝完成：

同样地，验证一下是否复制成功，进入/root/Hadoop-2.7.7/etc/hadoop目录，随机查看一个之前在master配置过的文件，这里选择：core-site.xml，结果是成功复制：

3、将/etc/profile文件拷贝到slave01heslave02的/etc目录下

scp /etc/profile root@slave01:/etc/
scp /etc/profile root@slave01:/etc/

4、刷新slave01和slave02中的环境变量验证java是否配置成功, 输入：

source /etc/profile
java –version

（在本次实验中，由于是第一次的搭建，在之前分别单独修改了每台虚拟机的/etc/profile，这里可知用用复制的方法才是最优）

5、锁定时间同步(每一台虚拟机)
（这步在克隆虚拟机之前完成最优，由于第一次搭建，此处分别进行）
①安装时间同步软件，输入：yum install ntp ntpdate –y
②和网络时间进行同步，输入： ntpdate cn.pool.ntp.org
③把时间写入硬件进行锁定，输入：hwclock –systohc
Master

Slave01

Slave02

6、进入hadoop-2.7.7/bin目录
输入： ./hdfs namenode -format进行格式化
出现successfully formatted 表示成功，截图如下：
Master

Slave01

Slave02

7、进入 hadoop-2.7.7/sbin目录启动hdfs服务
输入： ./start-dfs.sh，截图如下：
Master

Slave01

Slave02

检验hadoop配置no.1

分别执行jps命令，出现以下结果，代表配置成功
master: NameNode SecondaryNameNode
slave01、slave02：DataNode
截图如下：
master

Slave01

Slave02

检验hadoop配置no.2

在sbin目录中启动yarn服务
输入：./start-yarn.sh
分别执行jps命令，出现以下结果，代表配置成功
Master：ResourceManager
slave01、slave02：NodeManager
截图如下：
Master

Slave01

Slave02

登录HDFS管理界面（NameNode）：

访问:http://192.168.241.128:50070

登录MR管理界面（DataNode）：

访问http://192.168.241.128:8088

maven、eclipse配置hadoop开发环境

准备

1.下载并安装maven，下载地址：http://maven.apache.org/download.cgi
2.准备hadoop-eclipse-plugin-2.7.3.jar插件
过程
解压eclipse 并运行
设置workspace工作空间
进入eclipse后,点击window–>Preferences–>Java–>Installed JREs -->设置jdk

创建maven工程

1、下载maven，截图如下：

在windows配置maven
M2_HOME 或 MAVEN_HOME
添加 M2_HOME 和 MAVEN_HOME 环境变量到 Windows 环境变量，并将其指向你的 Maven 文件夹
Maven 说只是添加 M2_HOME , 但一些项目仍引用 Maven 的文件夹 MAVEN_HOME, 因此，为了安全也把它添加进去。

更新 PATH 变量，添加 Maven bin 文件夹到 PATH 的最后，如： %M2_HOME%\bin, 这样就可以在命令中的任何目录下运行 Maven 命令了。

安装完成：

2、解压并安装maven，将meven的安装目录加入到/etc/profile
vi /etc/profile,添加：`


> export MAVEN_HOME=/opt/apache-maven-3.6.2export
> PATH=$MAVEN_HOME/bin:$PATH

3、配置文件生效source /etc/profile
查看mavenmvn -version
4、进入eclipse 点击window–>Preferences–>Maven–>Installations–>add–>将maven目录添加进去：

5、更改maven的下载网址

<mirrors><mirror><id>maven</id><name>maven</name><url>http://maven.apache.org/download.cgi</url><mirrorOf>central</mirrorOf> </mirror>
</mirrors>

6、点击window–>Preferences–>Maven–>User Settings–>Browse–将settings.xml导入

7、新建 maven project
eclipse 配置hadoop环境

8、将Linux master配置好的hadoop-2.7.7下载到本地

将插件中的bin目录的所有文件放入hadoop-2.7.7的bin目录中

9、将hadoop.dll文件放到C:\Windows\System32目录下

10、修改本机的hosts C:\Windows\System32\drivers\etc\hosts

   218.205.18.142     localhost192.168.241.136  master192.168.241.135  slave01192.168.241.137 slave02

11、将hadoop-eclipse-plugin-2.7.3.jar放入eclipse的dropins目录下

12、重启eclipse 点击window–>Preferences 出现Hadoop Map/Reduce选项

13、点击Browse 将hadoop路径（能够看到bin文件夹的路径）配置进去

配置环境变量

1、从桌面电脑图标右键进入“属性”界面，选择“高级系统配置”，选择“环境变量”，然后选择“系统变量”下的新建，添加一个HADOOP_HOME的变量，变量值为HADOOP安装路径（能够看到bin文件夹的路径）

往系统变量Path里追加

;%HADOOP_HOME%\bin

注意：win10系统按照以下格式添加,如果没有分号需要添加

同理往系统变量Path里追加

;%HADOOP_HOME%\sbin

在hadoop-2.7.3->etc->hadoop->hadoop-env.cmd在set JAVA_HOME
后面添加`

C:\PROGRA~1\Java\jdk1.8.0_181
（如果jdk在program files 把他改变为PROGRA)

（此步可以不用配置，hdfs.xml中配置权限免检测）

Windows安装hadoop成功：

将Hadoop的bin加到PATH中,并开启Hadoop后，可以
删除Hadoop的文件，例如hadoop fs -rmr /home/mm/lily2

配置Map/Reduce Locations

1、打开 Windows—> show view —> Other，选择MapReduce Tools下的Map/Reduce Locations。
eclipse下方出现Map/Reduce locations选项卡,点击右上角小蓝象新建一个Hadoop locations

2、在新窗口填入一下信息：之后点击finish
location name：hadoop
Host:
master ip地址 192.168.241.136
Port：9001
右面Port：9000
User name：root
其中，Location name自定义一个名字就行，配置Map/Reduce Master和DFS Mastrer，Host和Port配置成与core-site.xml的设置一致即可（Host为hadoop节点的hostname，DFS Mastrer下的port为HDFS端口号，User name为安装Hadoop节点用户名称：

3、左边出现DFS Locations 选项,点击新建的小蓝象。出现文件夹,文件夹中即为HDFS内容。

此时，在虚拟机中用Shell命令的形式可以对Hadoop进行管理，比如新建目录、文件、上传和下载等操作和在Eclipse下的可视化操作都是同步的了（如果没有同步请先右键点击refresh刷新一下）

项目问题

集群无法启动

1.检查并修改配置文件
2.删除三个主机上的hdfs中的name和data文件夹
3.重新修改并发送至slave01和slave02
4.重新格式化

ssh问题

解决方式：
1.查看ip地址与配置时的文件是否有所改变，若有则重新配置过
2.分别对三个虚拟机执行指令ifconfig，查看各虚拟机ip地址
发现slave01的ip地址发生变化，修改：

配置 /etc/hosts文件，修改slave01的ip，修改后：

Ping一下，成功，解决问题：

再次进行复制文件操作，如之前复制部分截图所示，成功。

网页访问

原因：防火墙未关闭导致

不能访问50070端口。重新关闭防火墙并设置为开机不启动，成功解决。

上传文件时报错

File /user/sort.text.COPYING could only be replicated to 0 nodes
instead of minReplication (=1). There are 0 datanode(s) running and
no node(s) are excluded in this operation.

namenode和datanode的clusterID不一致。因为之前格式化了三次namenode，由于namenode多次格式化造成了namenode和datanode的clusterID不一致；每次格式化时，namenode会更新clusterID，但是datanode只会在首次格式化时确定，因此就造成不一致现象.

解决方式：
打开hdfs-site.xml里配置的datanode和namenode对应的目录，分别打开current文件夹里的VERSION，可以看到clusterID项正如日志里记录的一样，确实不一致.
Name：

Data：

修改datanode里VERSION文件的clusterID 与namenode里的一致，再重新启动dfs（执行start-dfs.sh）再执行jps命令可以看到datanode已正常启动。

hadoop 处于安全模式，所以需要退出安全模式，一般以如下方法可以解决：

hadoop dfsadmin -safemode leave

检查安全模式是否开启：

bin/dfsadmin -safemode get

输出结果会显示安全模式是属于开启状态还是关闭状态，如果是开启状态，可以使用下面这一条命令来关闭：

bin/hdfs dfsadmin -safemode leave

运行wordcount.java报错

org.apache.hadoop.security.AccessControlException

解决方式：
配置hdfs-site.xml文件，查看hdfs-default.xml加上这一句

然后，重启namenode：

项目测试

hadoop功能测试

start-dfs.sh　启动hdfs
start-YARN.sh 启动YARN
start-all.sh 同时启动hdfs和YARN
jps 查看节点运行进程
stop-all.sh 停止hdfs和YARN

在master节点打开浏览器输入http://192.168.241.128:50070，点击Utilities查看当前文件情况

①运行前先建立一个命名为word文件夹，建在hadoop所在目录“/root/hadoop-2.7.7”下
②在本地文件夹input中创建两个文本文件file1.txt和file2.txt，
file1.txt中内容是“hello word”
file2.txt中内容是“hello hadoop” 并查看txt文本是否创建成功。
在word目录下：
输入：

echo "hello word" > file1.txt
echo "hello hadoop" > file2.txt

以上截图如下：

⑤显示文件内容

⑥创建目录：hadoop fs -mkdir -p /test/input
⑦查看创建的目录： hadoop fs –ls /（删除目录：hadoop fs -rm –r 文件夹名）
以上步骤截图如下：

相应的hdfs管理界面：

执行上传文件

⑥将本地文件夹input中的两个文本文件上传到集群的input下
输入：hadoop fs -put /root/hadoop-2.7.7/input/file* /test/input

⑦查看/test/input中的文件
输入：hadoop fs -ls /test/input

相应的hdfs管理界面：

执行下载文件

下载文件
hadoop fs -get /test/input/file1.txt /home/hadoop/

wordcount 代码步骤：

①新建项目：File->new->other->Map/Reduce Project
②src下创建Package，Package下创建WordCount.java类
WordCount.java代码：

package wordcount;import java.io.IOException;
import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;public class WordCount {public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text value, Context context) throws IOException, InterruptedException {StringTokenizer itr = new StringTokenizer(value.toString());while (itr.hasMoreTokens()) {word.set(itr.nextToken());context.write(word, one);}}}public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();public void reduce(Text key, Iterable<IntWritable> values, Context context)throws IOException, InterruptedException {int sum = 0;for (IntWritable val : values) {sum += val.get();}result.set(sum);context.write(key, result);}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();if (otherArgs.length != 2) {System.err.println("Usage: wordcount <in> <out>");System.exit(2);}@SuppressWarnings("deprecation")Job job = new Job(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);FileInputFormat.addInputPath(job, new Path(otherArgs[0]));FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

在src下创建log4j.properties文件，不然运行程序时候会报错。可先创建txt文本文件，添加内容后修改名字及后缀名，然后复制到项目下。内容如下：

Configure logging for testing:optionally with log file
#log4j.rootLogger=debug,appender
log4j.rootLogger=info,appender
#log4j.rootLogger=error,appender
#\u8F93\u51FA\u5230\u63A7\u5236\u53F0
log4j.appender.appender=org.apache.log4j.ConsoleAppender
#\u6837\u5F0F\u4E3ATTCCLayout
log4j.appender.appender.layout=org.apache.log4j.TTCCLayout

配置完成后Map/Reduce Locations和项目截图如下：

配置Argument标签参数，即配置文件输入输出路径

/input 和/output文件夹，输出结果会放在/output文件夹下，这个output之前不存在，如果存在需要提前删除，否则下一次运行时会报错，分别由master的ip，端口号，文件路径构成

运行结果：
Eclipse运行结果页面显示如下，成功：

页面和eclipse均查看到output文件夹：

结果输出到指定文件：
查看：

一、开源软件理念和意义：
理念：开源软件指允许用户自行修改代码（控制操作的规则）的计算机软件。它与专有代码恰好相反，后者的软件供应商不允许用户查看代码，因此无法修改（盗窃）软件。自称开源原始码的软件并不一定是免费的——即不收费。软件作者可以收取使用费用，虽然只是象征性的。根据免费软件基金会的规定，“免费软件”是一个自由的问题，而不是价格的问题。要理解这一概念，你必须意识到这里指“言语自由” 中的“自由” 而不是“免费食物”中的“免费”。用户可以自由运行、复制、传播、研究、更改和改进软件。尽管存在这一声明，大多数自由软件还是免费使用的。开源软件通常所受的保护来自公共版权而非版权法。公共版权并不意昧着向公共领域开放资源，也不是像联邦版权法一样，绝对禁止复制。相反，根据免费软件基金会的规定，公共版权是一种保护形式，保证任何重新传播该软件的个人，无论对软件修改与否均须继续保持复制与分享的自由。幵放资源已经演变成为一场分享，合作。互动创新的运动，成为一种信念。很多人相信，在目前残酷的软件企业化的过程中，这样的理念是不可或缺的。
意义：对一些发展中国家，或者说那些软件业欠发达国家来说，开源软件还为他们制造了后发优势，提供了追赶和超越发达国家软件业的机会。毕竟，对于像中国这样的发展中国家，软件业的发展严重滞后，完全依靠国内的资金和人才要想赶超像美国这样的软件大国，几乎是没有机会的，充其量只能是一种理想。但是，如果能在基于开源软件的基础上加大投入的话，这种理想就有了实现的可能。

二、关于操作系统的地基作用，信息安全、国家安全。
对于国家和行业而言，更多参与到与其他操作系统的竞争中不仅可以主动参与到安全标准的制定中，同时工业4.0带来的巨大机遇不仅仅需要中国的消费者参与到终端的购买和工人在产业链上的劳动力付出，更需要国产操作系统参与到核心领域，分食行业变革的红利。
通过Hadoop安全部署经验总结，开发出以下十大建议，以确保大型和复杂多样环境下的数据信息安全。
1、先下手为强!在规划部署阶段就确定数据的隐私保护策略，最好是在将数据放入到Hadoop之前就确定好保护策略。
2、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定。
3、及时发现敏感数据是否暴露在外，或者是否导入到Hadoop中。
4、搜集信息并决定是否暴露出安全风险。
5、确定商业分析是否需要访问真实数据，或者确定是否可以使用这些敏感数据。然后，选择合适的加密技术。如果有任何疑问，对其进行加密隐藏处理，同时提供最安全的加密技术和灵活的应对策略，以适应未来需求的发展。
6、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话。
7、确保数据保护方案适用于所有的数据文件，以保存在数据汇总中实现数据分析的准确性。
8、确定是否需要为特定的数据集量身定制保护方案，并考虑将Hadoop的目录分成较小的更为安全的组。
9、确保选择的加密解决方案可与公司的访问控制技术互操作，允许不同用户可以有选择性地访问Hadoop集群中的数据。
10、确保需要加密的时候有合适的技术(比如Java、Pig等)可被部署并支持无缝解密和快速访问数据。

三、通过软硬件选择的一些基本理念。
①工具尽量选择全平台的，如果确实全平台上面没有最好的软件，那么你要选择单平台上最好的软件；硬件选择系统性的。
②选择最新，最贵和最好的。
③在无数当中选择一个好用的，不要选择太多。
④注意团队要统一。
⑤在遵守了大原则的情况下，就要去选择专一的架构。

四、操作系统生态构建概念，操作系统生态的构建的影响。
①计算机操作系统是以基于管理计算机及其他配件为基础的软件，也就是一个管理工具，操作系统内核管理着计算机本身及其应用程序，同时为其它程序提供系统服务,操作系统控制着计算机的所有资源。计算机本身有着极其复杂的硬件结构，无论是直接用RISC、还是MIPS等来操纵系统都是极为复杂的工作。同时在这些机器语言中有着数量不少的指令，可以用作数据传输、运算等操作。当然除了这些之外还有内存地址操作等等。因而操作系统的职责之一就是将所有这些复杂性的事物隐藏下来，同时为程序员提供一套更加方便的指令。(比如说，在unix shell中我们可以通过rm –rf *来删除某个目录的所有文件，然而这是相当危险的。在类unix系统中，一般都认为用户知自己的操作会带来什么后果。)同时，我们也可以基于操作系统来开发应用程序，比如C++、Python等高级语言也是基于操作系统层次上而言的。
操作系统之上的 " 生态 " 包含了开发者生态和用户生态，二者相辅相成构成互联网的 " 自循环 "，国产操作系统只有吸引到了开发者源源涌入，才能为用户提供丰富的使用场景。当前，我国的政府机构、企业组织比消费互联网 C 端用户有着更强烈的危机意识和信息安全可靠保护的要求，再加上 80% 的大数据掌握在政企组织机构手上，这是大数据领域的 " 二八法则 "。
②我国应尽快推动操作系统产业生态健康可持续发展。首先，在互联网+大时代下，连接用户的体验，不断的迭代升级，对应用是关键。数据驱动，用户体验的驱动，以操作系统为核心的整个信息化服务链条，都应不断的来提高软件产业本身的质量。不管是国家、政府如何推动操作系统，最终还是要靠市场、靠用户的认可。第二，是融合发展，加速传统行业的转型升级，不断催生个性化定制、网络化协同的新模式、新业态。人工智能赋能云网端一体化安全体制研发，积极采用新兴技术不断提高个性化定制、网络化协同的效率，比如说5G，研究新一代操作系统如何满足AI、边缘计算对实时、功耗、尺寸、性能安全的要求，以及如何基于区块链来构建内生信任。这些作法都是前瞻性、创新性的一些研发，将来一定会对操作系统，乃至整个操作系统的生态能够发挥重大的作用。
整体上来讲，操作系统的生态建设是一个长期而又艰辛的过程，我们应该持续培育创新网络，创新的来完善产学研用创新模式做出有一定输出能力的自己操作系统，构建能够为我服务的操作系统产业新生态。

Hadoop完全分布式搭建过程、maven和eclipse配置hadoop开发环境、配置Map/Reduce Locations、简单wordcount测试!相关推荐

window 下Eclipse c++的开发环境配置
一. 在eclipse官方网站上下载Eclipse IDE for C/C++ Developers 官方站点: http://www.eclipse.org 下载地址:http://www.ecli ...
Eclipse——Java可视化开发环境配置
一.Visual Editor 已弃用. 利用VE可以在Eclipse下像用JBuilder一样开发用户图形界面.它支持SWT 与 Swing,但在安装这个插件之前需要安装EMF 与 GEF 插件. ...
eclipse for php开发环境,eclipse for php 开发环境配置
PHP有非常多相当不错的开发工具,如Zend Studio.NetBeans.phpdesigner等,但对于习惯Java编程的程序员们来说,下面介绍最经常使用的还要属Eclipse. > 我们 ...
轻量级的c语言开发环境搭建,win下轻量级的c语言开发环境配置：vsc + gcc
说明 VSCode是个编辑器,默认不带编译和调试环境,需要自行安装编译器,调试可以用其插件完成. 编译套件选用的是TDM-GCC,方便易用.(Codeblocks.Dev-Cpp等默认带的都是这款). ...
pynq 环境搭建_PYNQ系列学习（一）——Pynq开发环境配置
PYNQ项目是一个新的开源框架,使嵌入式编程人员在无需设计可编程逻辑电路的情况下充分发挥Xilinx Zynq All Programmable SoC(APSoC)的功能. 与常规方式不同的是,通过 ...
Eclipse配置Python开发环境
Eclipse虽然多用于Java的开发,但是它也可以支持Python的开发,通过配置依然可以作为Python开发环境的一种选择. 下载与安装使用浏览器打开如下链接便可直接下载Eclipse,下载完成 ...
Linux-Fedora 25 Python 3.5开发环境配置Eclipse+Pydev
首先开发环境依赖于Eclipse, Eclipse的运行需要Java开发环境.所以首先设置系统的Java环境变量(此部分忘记截图).自行下载JDK和Eclipse,Eclipse版本选择jee版本. ...
hase伪分布式搭建过程及说明
hase伪分布式搭建过程及说明 HBASE简介 hbase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用hbase技术可在廉价pc上搭建起大规模结构化存储集群.hbase利用hadoo ...
Hadoop伪分布式搭建（本人新手，欢迎大家多多指导和关照）
1.创建hadoop账户,创建用户的home目录并设置密码.(useradd -m hadoop ) 2.本步骤可以不做(我是为了方便,给hadoop赋予了root权限)(vi /etc/sudoer ...

Hadoop完全分布式搭建过程、maven和eclipse配置hadoop开发环境、配置Map/Reduce Locations、简单wordcount测试!