Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)
参考网址:hdfs sinks
- %t Unix 时间戳,毫秒
- %{host} 替换名为"host"的事件 header 的值。支持任意标题名称。
- %a 星期几的短名,即 Mon, Tue,
- %A 星期几的全名,即 Monday, Tuesday, …
- %b 月份短名,即 Jan, Feb, …
- %B 月份全名,即 January, February, …
- %c 时间和日期,即 Thu Mar 3 23:05:25 2005
- %d day of month (01)
- %e day of month without padding (1)
- %D date; same as %m/%d/%y
- %H hour (00…23)
- %I hour (01…12)
- %j day of year (001…366)
- %k 小时 ( 0…23)
- %m 月份 (01…12)
- %n 不加前缀的月份 (1…12)
- %M 分钟(00…59)
- %p locale’s equivalent of am or pm
- %s seconds since 1970-01-01 00:00:00 UTC
- %S second (00…59)
- %y 年份最后两位 (00…99)
- %Y year (2010)
- %z +hhmm 数字时区 (for example, -0400)
- type - 组件类型名称,必须是 hdfs
- hdfs.path - HDFS 路 径 , 如 hdfs://mycluster/flume/mydata
- hdfs.filePrefix FlumeData flume 在 hdfs 目录中创建文件的前缀
- hdfs.fileSuffix - flume 在 hdfs 目录中创建文件的后缀。
- hdfs.inUsePrefix - flume 正在写入的临时文件的前缀
- hdfs.inUseSuffix .tmp flume 正在写入的临时文件的后缀
- hdfs.rollInterval 30 多长时间写一个新的文件 (0 = 不写新 的文件),单位秒
- hdfs.rollSize 1024 文件多大写新文件单位字节(0: 不基 于文件大小写新文件)
- hdfs.rollCount 10 当写一个新的文件之前要求当前文件写 入多少事件(0 = 不基于事件数写新文 件)
- hdfs.idleTimeout 0 多长时间没有新增事件则关闭文件(0 =不自动关闭文件)单位为秒
- hdfs.batchSize 100 写多少个事件开始向 HDFS 刷数据
- hdfs.codeC - 压缩格式:gzip, bzip2, lzo, lzop, snappy
- hdfs.fileType SequenceFil e 当前支持三个值:SequenceFile, DataStream,CompressedStream。 (1)DataStream 不压缩输出文件,不 要 设 置 codeC (2)CompressedStream 必 须 设 置 codeC
- hdfs.maxOpenFiles 5000 最大打开多少个文件。如果数量超了则 关闭最旧的文件
- hdfs.minBlockReplicas - 对每个 hdfs 的 block 设置最小副本 数。如果不指定,则使用 hadoop 的配 置的值。1
- hdfs.writeFormat - 对于 sequence file 记录的类型。 Text 或者 Writable(默认值)
- hdfs.callTimeout 10000 为 HDFS 操作如 open、write、flush、 close 准备的时间。如果 HDFS 操作很 慢,则可以设置这个值大一点儿。单位 毫秒
- hdfs.threadsPoolSize 10 每个 HDFS sink 的用于 HDFS io 操作 的线程数 (open, write, etc.)
- hdfs.rollTimerPoolSiz e 1 每个 HDFS sink 使用几个线程用于调 度计时文件滚动。
- hdfs.round false 支持文件夹滚动的属性。是否需要新建 文件夹。如果设置为 true,则会影响所 有的基于时间的逃逸字符,除了%t。
- hdfs.roundValue 1 该值与 roundUnit 一起指定文件夹滚 动的时长,会四舍五入
- hdfs.roundUnit second 控制文件夹个数。多长时间生成新文件 夹。可以设置为- second, minute 或者 hour.
- hdfs.timeZone Local Time Name of the timezone that should be used for resolving the directory path, e.g. America/Los_Angeles.
- hdfs.useLocalTimeStam p false 一般设置为 true,使用本地时间。如果 不使用本地时间,要求 flume 发送的事 件 header 中带有时间戳。该时间用于 替换逃逸字符
启动 hadoop 集群上的 hdfs,
将 node1 上的 option_sdir 拷贝 option_hdfs1,并修改:
# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/log
a1.sources.r1.fileHeader = true
a1.sources.r1.fileSuffix=.neusoft
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 5
a1.sinks.k1.hdfs.roundUnit = second
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
启动 node1 上的 flume
[root@node1 ~]# flume-ng agent -n a1 --conf-file option_hdfs1 -Dflume.root.logger=INFO,console
通过浏览器 node2:50070 访问 hdfs 目录,发现/flume 并不存在。
复制一个 node1 连接的 xshell 终端,/root/log 目录下拷贝文本文件
[root@node1 ~]# cp wc.txt log/
通过浏览器 node2:50070 访问 hdfs 目录,发现/flume 出现了
Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)相关推荐
- hadoop HDFS的文件夹创建、文件上传、文件下载、文件夹删除,文件更名、文件详细信息、文件类型判断(文件夹或者文件)
摘要: 本篇文章主要介绍的是hadoop hdfs的基础api的使用.包括Windows端依赖配置,Maven依赖配置.最后就是进行实际的操作,包括:获取远程hadoop hdfs连接,并对其进行的一 ...
- java hdfs 新建目录_如何用java在hdfs中创建一个新目录?
public static void main(String[] args) throws IOException, URISyntaxException { ????????????配置config ...
- 【SpringBoot零基础案例01】【IEDA 2021.1】如何创建一个SpringBoot框架web项目
一.创建一个空项目 点击[File]- [New]- [Project-],新建一个空项目 选择[Empty Project]点击[Next] 填写项目名称,选择项目本地存储路径,点击[Finish] ...
- ubuntu在 hdfs上创建一个文件夹_NAS上如何创建和使用加密文件夹?
共享文件夹是一个网络存储空间.您可以建立数个共享文件夹来存放不同类别的数据,或提供给不同的用户或用户群组来存取文件. 一旦加密共享文件夹被创建后,只有管理员将该共享文件夹装载,文件夹内的内容才可以被打 ...
- [python]一个遍历多层文件夹,然后替换文件内容和目录名称的案例
假如有如下目录结构: root first a.txt b.txt second c ...
- flume组件之hdfs sink
简介 flume的三大组件 source\channel\sink对应着采集位置类型\缓存类型\下沉地类型 本文主要讲解sink中的hdfs sink的常见属性以及常见问题 常用属性 type:指定s ...
- Flume之HDFS Sink使用案例
前言 操作系统:CentOS 7 Java版本:1.8.0_221 Flume版本:1.8.0 HDFS版本:2.7.7 Flume agent配置:Netcat TCP Source.Memory ...
- Flume中的HDFS Sink配置
Flume中的HDFS Sink配置参数说明 type:hdfs path:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/ filePrefi ...
- Flume HDFS Sink配置详解
Name Default Description channel – type – 组件的名称,必须为:HDFS hdfs.path – HDFS目录路径,例如:hdfs://namenode/f ...
最新文章
- Linux下使用shell实现上传linux下某个目录下所有文件到ftp
- 我们的高中教育造就了什么?
- linux查询cpu核心数
- 机器学习笔记【二】逻辑回归与分类(2):感知机学习算法与逻辑回归的区别,牛顿方法
- 纯CSS在线气泡提示生成工具 - CSS ARROW PLEASE!
- 达梦数据库DM8企业版--命令行方式的安装、创建数据库和注册服务
- Las Vegas利用ParkPad(基于ArcPad)实现公园资产管理
- EasyUI后台管理系统
- 内连接(inner join)与外连接(outer join)小结
- 计算机黑屏修改设置,电脑黑屏密码怎么设置
- 字节跳动2019春招后端开发工程师-笔试题解析
- 计算机 打印 速度慢,处理打印机在打印文件时打印速度过慢的原因
- awd的批量脚本 pwn_北极星杯 awd复现
- DL | TensorRT将Tensorflow模型转换为uff格式 报错Unable to locate package uff-converter-tf
- Linux下替换文件中的字符串
- 洛谷P1032字串变换题解--zhengjun
- Windows程序内存泄漏(Memory Leak)分析之Windbg
- 【超详细】7z的详解和7z的控制台参数说明
- 贝叶斯分类器的MapReduce实现(VMware + Hadoop)
- 学习过程:ExtJs入门