1.zookeeper

zookeeper作为大数据集群的最基础的服务组件,许多集群服务都需要zookeeper集群的稳定并且高效的运行。那么对于zookeeper集群的基本参数理解就是不可避免的了。可以用这些参数来进行集群的管理和调优。
如果集群有问题,那么根据打印日志信息 再加上对于集群配置参数的理解 就会很方便的进行排查问题,检查集群的性能瓶颈

# The number of milliseconds of each tick
tickTime=5000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=/data/hadoop3/data/zookeeper-3.4.10/zkData
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
#######################cluster##########################
# 这时配置集群服务的端口号 第一个是心跳端口 第二个是选举端口
server.1=hadoop01-dev:2888:3888
server.2=hadoop02-dev:2888:3888
server.3=hadoop03-dev:2888:3888

参数解释:

tickTime:

默认为2000

意思是滴答滴答得意思。是作为心跳得间隔时间。引用官方文档得话是:

单个刻度的长度,这是ZooKeeper使用的基本时间单位,以毫秒为单位。它用于调节心跳和超时。例如,最小会话超时将是两个刻度。

这个参数对于zookeeper是一个最基本得时间刻度 其他的一些时间配置默认值都是这个刻度时间得整数倍 !!!

在官网上的一些依赖tickTime的默认配置摘抄:(也是平时会用到的)

minSessionTimeout:
3.3.0中的新增功能:服务器允许客户端进行协商的最小会话超时(以毫秒为单位)。默认为tickTime的2倍。
maxSessionTimeout:
3.3.0中的新增功能:服务器允许客户端协商的最大会话超时(以毫秒为单位)。默认为tickTime的20倍。

dataDir:

存储数据得地方 也就是快照数据会在这里进行存储

clientPort:

端口号不需多说

initLimit:

集群参数 限制初次启动(初始化)的follwer与leader进行通信时能容忍的最多心跳数量(也就是 tickTime的多少倍)
注意:

如果你的快照数据量较大的话 那么在初始化的时候 读取快照的时间就会相对长,如果超过规定时间那么就会出现错误 此时需要调整这个参数

syncLimit:

follwer与leader进行数据同步时能容忍的最多心跳数量(也就是 tickTime的多少倍)
如果同步超过这个时间,就会丢弃这个follwer !!!

网络状况不是很稳定 可以适当调整这个参数

2.flume

flume作为大数据采集组件,功能也是非常的强大 数据源以及下沉目的地都是很多的,还支持自定义的source和sink 。方便我们的使用
我使用的flume只涉及一小部分
使用场景是用flume-ng-sqlsource 到file channel 到kafkasink

flume-ng-sqlsource

可以直接下载选择自己的版本
可将jar包下载下来自行查看源码 也可自己根据自己的做增量业务进行修改再使用
这个的作用就是返回查询的最后一行的第一个字段作为一个状态文件存储

file channel

#channels类型
empi.channels.c1.type = file
#检查点目录
empi.channels.c1.checkpointDir = /data/hadoop3/data/flume/data/filechannel/checkpoint/empi-transaction-log/
#存储数据的目录
empi.channels.c1.dataDirs = /data/hadoop3/data/flume/data/filechannel/data/empi-transaction-log/
#存储数据文件的最大数量 字节为单位
empi.channels.c1.maxFileSize = 2146435071
#存储event的容量限制
empi.channels.c1.capacity = 1000000
#等待put操作的最长时间 默认值为3 单位秒
empi.channels.c1.keep-alive = 3

keep-alive:
这个参数对于数据服务的性能和准确性影响很大。因为如果数据量大或者网络不是很稳定的话 就会造成这一批次数据同步失败 可能会有数据缺失 根据自身情况适当调整

kafkasink

#sink类型
empi.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
#topic名称
empi.sinks.k1.topic = topic_name
#连接端口
empi.sinks.k1.kafka.bootstrap.servers = hadoop01-dev:9092,hadoop02-dev:9092,hadoop03-dev:9092
#ack配置
#0为发送后不管数据认为发送成功
#1为发送后只要kafka副本leader接收成功就会认为发送成功
#-1为kafka副本所有的都接收成功那么就会认为发送成功
empi.sinks.k1.producer.acks = -1
#最小多大进行发送一次 单位字节
empi.sinks.k1.flumeBatchSize = 20
#最短多长时间间隔进行发送一次 单位毫秒
empi.sinks.k1.kafka.producer.linger.ms = 1

记录 zookeeper集群配置参数 flume配置参数相关推荐

  1. ZooKeeper集群环境安装与配置

    原文:出自本人的Linux博客http://blog.csdn.net/unix21/ ZooKeeper版本:3.4.5 约定:3台虚拟机 前提:需要安装JDK,关于Linux环境JDK安装配置参考 ...

  2. Hadoo集群--高可用HA配置(两台主机)

    目录 1 Hadoop HA架构详解 1.1 HDFS HA背景 1.2 HDFS HA架构 1.3 HDFS HA配置要素 1.4 HDFS HA配置参数 1.5 HDFS自动故障转移 1.6 YA ...

  3. Zookeeper集群部署和使用

    Zookeeper 由 Apache Hadoop 的 Zookeeper 子项目发展而来,Google Chubby的一个开源实现.它是一个分布式应用程序协调服务,提供的功能包括:配置管理,名字服务 ...

  4. centos7 Zookeeper集群部署

    Node1 server.1=192.168.88.151:2888:3888 Node2 server.1=192.168.88.152:2888:3888 Node3 server.1=192.1 ...

  5. Solr集群搭建,zookeeper集群搭建,Solr分片管理,Solr集群下的DataImport,分词配置。...

    1   什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候 ...

  6. Solr集群搭建,zookeeper集群搭建,Solr分片管理,Solr集群下的DataImport,分词配置。

    1   什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候 ...

  7. 在虚拟机中搭建设zookeeper集群配置

    zookeeper集群的介绍网上很多我在这里主要给大家介绍一下虚拟机的创建以及zookpper的配置(附带有相关的文件) 1.我们就首先创建一下虚拟机 图1 2. 3. 4.分享一下链接(https: ...

  8. Kafka---如何配置Kafka集群和zookeeper集群

    2019独角兽企业重金招聘Python工程师标准>>> Kafka的集群配置一般有三种方法,即 (1)Single node – single broker集群: (2)Single ...

  9. 原创:centos7.1下 ZooKeeper 集群安装配置+Python实战范例

    centos7.1下 ZooKeeper 集群安装配置+Python实战范例 下载:http://apache.fayea.com/zookeeper/zookeeper-3.4.9/zookeepe ...

最新文章

  1. uva 315 (poj 1144 求割点)
  2. 如何向MySQL表添加索引?
  3. VTK:vtkCursor3D用法实战
  4. mongo oplog 整理
  5. Vue手动封装实现一个五星评价得效果
  6. 将(*)的ASCII码2AH送入内存段1000H开始的100个单元中
  7. Swagger原理解析
  8. dw的php文件怎么连接mysql_wordpress php文件如何链接到mysql数据库
  9. android----AsyncHttpClient的get,post和图片上传
  10. recyclerview 横向卡片效果_UI设计中卡片式应如何设计
  11. 手机端链接拼多多的商品主图和视频抓取方法
  12. [Qualcomm][MSM8909]APQ8009基线上编写一个OpenGl测试程序
  13. 怎么区分PV、IV、UV以及网站统计名词解释(pv、曝光、点击)
  14. 怼天怼地的马斯克道歉了?
  15. C#大作业(FPS大型单机游戏)笔记简记
  16. CentOS7.3+python:zipimport.ZipImportError: can't decompress data; zlib not available报错
  17. 竖直的ViewPager,上下滑动的ViewPager,VerticalViewPager ;
  18. 什么是 Web 3.0?定义、功能和示例
  19. 在探索中享受童年般的乐趣 |Mixlab的故事
  20. 学习FFmpeg API –解码视频

热门文章

  1. JWT详细讲解(保姆级教程)
  2. 网络体系结构基本概念及OSI七层模型
  3. 图像梯度特征的常用算子:Sobel、Prewitt、Roberts
  4. 数字孪生 3D 风电场,智慧风电之海上风电
  5. 什么是马甲APP?怎么用马甲APP导流
  6. 【bat批处理脚本命令】2分钟看懂,一键主机windows系统远程连接控制阿里云等windows系统的云服务器(保姆级图文+实现代码)
  7. raid1重建时间_Intel主板RAID1恢复方法图解
  8. 关于utf-8和big5编码的问题
  9. Quick小白书系列(三)MyApp详解
  10. 设计模式讲解与代码实践(三)——工厂方法