YDB依赖环境准备

props.put("compression.type", "gzip");
        props.put("linger.ms", "50");
        props.put("acks", "all");
        props.put("retries ", 30);
        props.put("reconnect.backoff.ms ", 20000);
        props.put("retry.backoff.ms", 20000);

b)在Server端的broker增加如下配置

第六章非HDP版本的YDB部署

一、安装前的准备

请参考第三章基本环境注意事项，第四章的依赖的服务注意事项，准备基础环境，这个很重要。

二、YDB软件下载

从http://url.cn/42R4CG8获取延云软件

1)下载延云YDB

2)延云YDB提供的Spark

注意一定要使用延云提供的Spark，不能从其他地方下载

该Spark延云修正了一些BUG，以及在SQL解析上做了处理

3)JDK1.8

三、特殊版本的Spark的编译

如果我们的Hadoop版本比较特殊，大家可以从延云下载Spark源码执行进行编译。

编译示例如下：

修改源码包里面的ydb.combile.sh，将里面的hadoop改成我们对应的版本。

然后直接运行 sh ./ydb.compile.sh 即可，编译时间取决于我们的网络，首次编译时间估计会非常长，可以先下载延云提供的repository.tar.gz，以减少访问国外网络的下载时间。

四、软件解压

解压到/opt/ydbsoftware目录下，最后可以看到目录结构是这样的

conf目录是YDB的所有配置文件，bin目录是YDB的执行文件

五、配置conf目录下的ya100_env.sh环境变量

1.基本环境配置

export HADOOP_CONF_DIR=/etc/hadoop/conf

export HADOOP_HOME=/usr/hdp/current/hadoop-client

export JAVA_HOME=/usr/jdk64/jdk1.8.0_60

export SPARK_HOME=/root/software/spark-1.6.1

注意：配置过后大家一定要手工验证下，相关目录的配置文件是否真的存在

2.配置内存与启动的并发数

#为启动的进程数量，切记不要超过Yarn总的VCores的数量-1

#建议每台机器配置CPU线程数的一半，如12个；

#如果有3台机器，每台机器配置12个的话那么下面这项的值要写36，不要只写12

export YA100_EXECUTORS=12

#启动的进程，每个给分配多少内存

#YA100_EXECUTORS*YA100_MEMORY的大小建议为yarn总内存的3/5（剩下的留给操作系统）

#关于内存控制参数的详细说明，请阅读example下的《3.大家需要了解的几个内存控制的参数.txt》说明

#常规128G内存的机器，建议配置为6000m~7000m

export YA100_MEMORY=6000m

#每个进程内启动的线程数，一般不需要修改

#配置值不可超过Yarn的yarn.scheduler.maximum-allocation-vcores的值

#建议默认配置为5~9

export YA100_CORES=5

#ydb 的JDBC接口程序分配的内存，建议6000m以上

export YA100_DRIVER_MEMORY=6000m

六、配置conf目录下的ydb_site.yaml环境变量

该文件的配置非常容易出错，要注意如下几点：

1.文件格式必须为UTF8格式，切记切记

2.每个配置项的开头必须有个空格，而不TAB

3.配置文件中别出现TAB

4.注意每个KEY : VALUE 之间是有一个空格的，如果value是字符串类型，要用双引号括起来

配置项说明如下：

1.配置 YDB的存储路径的配置 ydb.hdfs.path

注意YDB的存储路径与ya100的存储路径不是一个，要分别配置成不同的路径，不能重复

ya100的默认存储路径在conf目录下的hive-site.xml中的hive.metastore.warehouse.dir

Ya100的每张表的存储路径也可以再创建表的时候由location来指定。

2.配置Ydb在实时导入过程中，所使用的临时目录ydb.reader.rawdata.hdfs.path

3.配置ydb http ui服务的端口 ydb.httpserver.port 默认为1210

4.配置ydb依赖的zookeeper：storm.zookeeper.servers 与 storm.zookeeper.root

七、其他ya100/conf目录下的配置文件的说明

hive-site.xml hive表的配置，如果想要更改Hive的一些配置，如将Hive的元数据写入到数据库里，可修改此文件。

spark-defaults.conf 用于配置Spark，如果需要修改Spark的默认调度规则，可以修改此配置。

init.sql 为ya100启动时候的初始化方法，如果我们的业务需要自定义UDF，可以考虑将自定义UDF语句放到这里，通过init.sh来执行

driver.log.properties为接口程序的log4j的配置，默认日志记录在logs目录下

worker.log.properties为ya100的工作进程的log4j的配置，默认记录在每台机器的Yarn的工作目录下。如果不想Yarn清理掉，可以通过改文件改变日志的存储的路径，为了日常运维调试的方便，我们都建议修改，但一定要注意每台机器目录的权限。

八、开始部署延云YDB-服务的启动与检查

进入bin目录，执行chmod a+x *.sh

第一：ydb

./restart-all.sh 或 ./start-all.sh

第二：spark 服务检查：

1.tail -f ../logs/ya100.log 看是否有报错，当出现如下的日志，表示启动成功

2.打开yarn的8088页面，看启动的container数量以及内存的时候是否正确

3.看下面是否有ya100 on spark的任务，点击对应的Application Master看是否能打开Spark的UI页面

第三：YDB服务检查

1.通过浏览器打开:1210页面，看是否能打开

2.点开“work工作进程列表”看启动的worker数量是否与在ya100_env.sh里配置的YA100_EXECUTORS数量一致

第四：服务的停止

./stop-all.sh

转载于:https://www.cnblogs.com/hd-zg/p/7115102.html

基于原版Hadoop的YDB部署（转）相关推荐

基于原版Hadoop的YDB部署
YDB依赖环境准备一.硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板.合理的硬件搭配,对系统的稳定性也很关键. 1.CPU不是核数越高越好,性价比才是关键. 经常遇到很多的企业级客户,他们 ...
基于HDP版本的YDB安装部署
第三章 YDB依赖环境准备一.硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板.合理的硬件搭配,对系统的稳定性也很关键. 1.CPU不是核数越高越好,性价比才是关键. 经常遇到很多的企业级客 ...
基于HDP版本的YDB安装部署（转）
第三章 YDB依赖环境准备一.硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板.合理的硬件搭配,对系统的稳定性也很关键. 1.CPU不是核数越高越好,性价比才是关键. 经常遇到很多的企业级客 ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
Hadoop全分布式部署 - CentOS（结尾附视频）
写在前面:博主是一只经过实战开发历练后投身培训事业的"小山猪",昵称取自动画片<狮子王>中的"彭彭",总是以乐观.积极的心态对待周边的事物.本人的技 ...
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】
[计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩] https://b23.tv/zKOtd3L 目录一引言1 二系统分析2 2.1 必要性和可行性 ...
Hadoop平台组件部署
Hadoop平台组件部署目录引言 5 1.1. 目的 5 1.2. 术语与缩写解释 6 1.3. 参考资料 6 系统配置 6 2.1. 运行环境 6 2.2. 硬件配置 7 2.3. 硬件安排 7 ...
基于Java+hadoop网络云盘上传下载系统设计与实现
目录网络云盘上传下载系统摘要----------------------------------5 The Network Cloud Disk`s Upload and DownloadAbst ...
基于C++的PyTorch模型部署
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达引言 PyTorch作为一款端到端的深度学习框架,在1.0版本之后 ...

基于原版Hadoop的YDB部署（转）

YDB依赖环境准备

一、硬件环境

1.CPU不是核数越高越好，性价比才是关键。

2.SAS、SATA与SSD 磁盘的选择与对比

3.SSD的颗粒请不要选择TLC

4.延云YDB建议的硬件配置

二、磁盘如何挂载？

三、操作系统如何选择

四、操作系统设置

1.Ulimit配置

2.Swap的问题

3.网络配置优化

4.SSH无密码登录

5.关闭防火墙

6.配置机器名,以及hosts域名解析

7.setenforce与Umask配置

8.检查/proc/sys/vm/overcommit_memory的配置值

9.语言环境配置

10.配置时间同步

11.JDK安装部署

12.环境变量

13.请检查盘符，不要含有中文

14.检查磁盘空间，使用率不得超过90%

15.关键日志，定时清理，以免时间久了磁盘满了

一、Hadoop服务-注意事项

二、Spark 需要使用延云提供的spark版本

三、ZooKeeper服务注意事项

四、Kafka注意事项