一、硬件环境

props.put("compression.type", "gzip");
       props.put("linger.ms", "50");
       props.put("acks", "all");
       props.put("retries ", 30);
       props.put("reconnect.backoff.ms ", 20000);
       props.put("retry.backoff.ms", 20000);

b)在Server端的broker增加如下配置

第六章非HDP版本的YDB部署

一、安装前的准备

请参考第三章基本环境注意事项，第四章的依赖的服务注意事项，准备基础环境，这个很重要。

二、YDB软件下载

从http://url.cn/42R4CG8获取延云软件

1)下载延云YDB

2)延云YDB提供的Spark

注意一定要使用延云提供的Spark，不能从其他地方下载

该Spark延云修正了一些BUG，以及在SQL解析上做了处理

3)JDK1.8

三、特殊版本的Spark的编译

如果我们的Hadoop版本比较特殊，大家可以从延云下载Spark源码执行进行编译。

编译示例如下：

修改源码包里面的ydb.combile.sh，将里面的hadoop改成我们对应的版本。

然后直接运行 sh ./ydb.compile.sh 即可，编译时间取决于我们的网络，首次编译时间估计会非常长，可以先下载延云提供的repository.tar.gz，以减少访问国外网络的下载时间。

四、软件解压

解压到/opt/ydbsoftware目录下，最后可以看到目录结构是这样的

conf目录是YDB的所有配置文件，bin目录是YDB的执行文件

五、配置conf目录下的ya100_env.sh环境变量

1.基本环境配置

export HADOOP_CONF_DIR=/etc/hadoop/conf

export HADOOP_HOME=/usr/hdp/current/hadoop-client

export JAVA_HOME=/usr/jdk64/jdk1.8.0_60

export SPARK_HOME=/root/software/spark-1.6.1

注意：配置过后大家一定要手工验证下，相关目录的配置文件是否真的存在

2.配置内存与启动的并发数

#为启动的进程数量，切记不要超过Yarn总的VCores的数量-1

#建议每台机器配置CPU线程数的一半，如12个；

#如果有3台机器，每台机器配置12个的话那么下面这项的值要写36，不要只写12

export YA100_EXECUTORS=12

#启动的进程，每个给分配多少内存

#YA100_EXECUTORS*YA100_MEMORY的大小建议为yarn总内存的3/5（剩下的留给操作系统）

#关于内存控制参数的详细说明，请阅读example下的《3.大家需要了解的几个内存控制的参数.txt》说明

#常规128G内存的机器，建议配置为6000m~7000m

export YA100_MEMORY=6000m

#每个进程内启动的线程数，一般不需要修改

#配置值不可超过Yarn的yarn.scheduler.maximum-allocation-vcores的值

#建议默认配置为5~9

export YA100_CORES=5

#ydb 的JDBC接口程序分配的内存，建议6000m以上

export YA100_DRIVER_MEMORY=6000m

六、配置conf目录下的ydb_site.yaml环境变量

该文件的配置非常容易出错，要注意如下几点：

1.文件格式必须为UTF8格式，切记切记

2.每个配置项的开头必须有个空格，而不TAB

3.配置文件中别出现TAB

4.注意每个KEY : VALUE 之间是有一个空格的，如果value是字符串类型，要用双引号括起来

配置项说明如下：

1.配置 YDB的存储路径的配置 ydb.hdfs.path

注意YDB的存储路径与ya100的存储路径不是一个，要分别配置成不同的路径，不能重复

ya100的默认存储路径在conf目录下的hive-site.xml中的hive.metastore.warehouse.dir

Ya100的每张表的存储路径也可以再创建表的时候由location来指定。

2.配置Ydb在实时导入过程中，所使用的临时目录ydb.reader.rawdata.hdfs.path

3.配置ydb http ui服务的端口 ydb.httpserver.port 默认为1210

4.配置ydb依赖的zookeeper：storm.zookeeper.servers 与 storm.zookeeper.root

七、其他ya100/conf目录下的配置文件的说明

hive-site.xml hive表的配置，如果想要更改Hive的一些配置，如将Hive的元数据写入到数据库里，可修改此文件。

spark-defaults.conf 用于配置Spark，如果需要修改Spark的默认调度规则，可以修改此配置。

init.sql 为ya100启动时候的初始化方法，如果我们的业务需要自定义UDF，可以考虑将自定义UDF语句放到这里，通过init.sh来执行

driver.log.properties为接口程序的log4j的配置，默认日志记录在logs目录下

worker.log.properties为ya100的工作进程的log4j的配置，默认记录在每台机器的Yarn的工作目录下。如果不想Yarn清理掉，可以通过改文件改变日志的存储的路径，为了日常运维调试的方便，我们都建议修改，但一定要注意每台机器目录的权限。

八、开始部署延云YDB-服务的启动与检查

进入bin目录，执行chmod a+x *.sh

第一：ydb

./restart-all.sh 或 ./start-all.sh

第二：spark 服务检查：

1.tail -f ../logs/ya100.log 看是否有报错，当出现如下的日志，表示启动成功

2.打开yarn的8088页面，看启动的container数量以及内存的时候是否正确

3.看下面是否有ya100 on spark的任务，点击对应的Application Master看是否能打开Spark的UI页面

第三：YDB服务检查

1.通过浏览器打开:1210页面，看是否能打开

2.点开“work工作进程列表”看启动的worker数量是否与在ya100_env.sh里配置的YA100_EXECUTORS数量一致

第四：服务的停止

./stop-all.sh

大数据基础环境搭建的从spark到hadoop,从底层硬件到上层软件的一些必备注意事项相关推荐

大数据基础平台搭建-（一）基础环境准备
大数据基础平台搭建-(一)基础环境准备大数据平台系列文章: 1.大数据基础平台搭建-(一)基础环境准备 2.大数据基础平台搭建-(二)Hadoop集群搭建 3.大数据基础平台搭建-(三)Hadoop ...
大数据学习环境搭建系列（二）虚拟机软件Vmware的安装
作者 | CDA数据分析师概述在进行分布式架构的学习前,首先需进行基础环境准备.众所周知,在单机运算能力无法满足处理海量数据的运算能力时,人们普遍开始考虑使用分布式运算来代替单机运算,这也成为了大 ...
Hadoop大数据平台环境搭建注意事项，分布式数据采集，武汉数道云科技
Hadoop大数据作为时代发展的产物,影响着互联网企业发展.以及企业关于品牌形象推广.政府有关民意采集.以及有关数据信息收集分类------ Hadoop技术的发展,带来了海量数据高效处理的能力,也给 ...
大数据all_in环境搭建
大数据环境搭建环境介绍免密登陆安装jdk 安装scala 安装zookeeper 安装mysql 安装hadoop 安装hive 安装hue 安装datax 安装kafka 安装flink 安装 ...
大数据_zookeeper环境搭建中的几个坑
文章目录 [] Zookeeper简介关于zk的介绍, zk的paxos算法, 网上已经有各位大神在写了, 本文主要写我在搭建过程中的几个极有可能遇到的坑. Zookeeper部署中的坑坑之一 E ...
大数据学习环境搭建系列（十二）Xshell的安装使用
作者 | CDA数据分析师尽管很不适应也很不情愿,但在实际工作情景当中,企业不会将有限物理硬件的基础上给工作人员提供图形化桌面操作界面(此举将极大的浪费计算资源),因此大多数情况我们针对分布式集群的 ...
云创大数据实验环境搭建
一.用到的软件 1.jdk-8u121-windows-x64 2.opengui-install-2.3.13-win7up-x86_64 3.WinSCP_5.9.0.6786_Setup 4.X ...
Linux基础环境搭建（CentOS7）- 安装Flume
Linux基础环境搭建(CentOS7)- 安装Flume 大家注意以下的环境搭建版本号,如果版本不匹配有可能出现问题! Linux基础环境搭建(CentOS7)- 虚拟机准备 Linux基础环境搭建 ...
小知识点：ARM 架构 Linux 大数据集群基础环境搭建（Hadoop、MySQL、Hive、Spark、Flink、ZK、Kafka、Nginx、Node）
换了 M2 芯片的 Mac,以前 x86 版本的 Linux 大数据集群基础环境搭建在 ARM 架构的虚拟机集群上有些用不了了,现在重新写一份基于 ARM 架构的,少数不兼容之外其他都差不多,相当 ...

大数据基础环境搭建的从spark到hadoop,从底层硬件到上层软件的一些必备注意事项

一、硬件环境

1.CPU不是核数越高越好，性价比才是关键。

2.SAS、SATA与SSD 磁盘的选择与对比

3.SSD的颗粒请不要选择TLC

4.延云YDB建议的硬件配置

二、磁盘如何挂载？

三、操作系统如何选择

四、操作系统设置

1.Ulimit配置

2.Swap的问题

3.网络配置优化

4.SSH无密码登录

5.关闭防火墙

6.配置机器名,以及hosts域名解析

7.setenforce与Umask配置

8.检查/proc/sys/vm/overcommit_memory的配置值

9.语言环境配置

10.配置时间同步

11.JDK安装部署

12.环境变量

13.请检查盘符，不要含有中文

14.检查磁盘空间，使用率不得超过90%

15.关键日志，定时清理，以免时间久了磁盘满了

一、Hadoop服务-注意事项

二、Spark 需要使用延云提供的spark版本

三、ZooKeeper服务注意事项

四、Kafka注意事项