参考网址:hdfs sinks

  1. %t Unix 时间戳,毫秒
  2. %{host} 替换名为"host"的事件 header 的值。支持任意标题名称。
  3. %a 星期几的短名,即 Mon, Tue,
  4. %A 星期几的全名,即 Monday, Tuesday, …
  5. %b 月份短名,即 Jan, Feb, …
  6. %B 月份全名,即 January, February, …
  7. %c 时间和日期,即 Thu Mar 3 23:05:25 2005
  8. %d day of month (01)
  9. %e day of month without padding (1)
  10. %D date; same as %m/%d/%y
  11. %H hour (00…23)
  12. %I hour (01…12)
  13. %j day of year (001…366)
  14. %k 小时 ( 0…23)
  15. %m 月份 (01…12)
  16. %n 不加前缀的月份 (1…12)
  17. %M 分钟(00…59)
  18. %p locale’s equivalent of am or pm
  19. %s seconds since 1970-01-01 00:00:00 UTC
  20. %S second (00…59)
  21. %y 年份最后两位 (00…99)
  22. %Y year (2010)
  23. %z +hhmm 数字时区 (for example, -0400)
  24. type - 组件类型名称,必须是 hdfs
  25. hdfs.path - HDFS 路 径 , 如 hdfs://mycluster/flume/mydata
  26. hdfs.filePrefix FlumeData flume 在 hdfs 目录中创建文件的前缀
  27. hdfs.fileSuffix - flume 在 hdfs 目录中创建文件的后缀。
  28. hdfs.inUsePrefix - flume 正在写入的临时文件的前缀
  29. hdfs.inUseSuffix .tmp flume 正在写入的临时文件的后缀
  30. hdfs.rollInterval 30 多长时间写一个新的文件 (0 = 不写新 的文件),单位秒
  31. hdfs.rollSize 1024 文件多大写新文件单位字节(0: 不基 于文件大小写新文件)
  32. hdfs.rollCount 10 当写一个新的文件之前要求当前文件写 入多少事件(0 = 不基于事件数写新文 件)
  33. hdfs.idleTimeout 0 多长时间没有新增事件则关闭文件(0 =不自动关闭文件)单位为秒
  34. hdfs.batchSize 100 写多少个事件开始向 HDFS 刷数据
  35. hdfs.codeC - 压缩格式:gzip, bzip2, lzo, lzop, snappy
  36. hdfs.fileType SequenceFil e 当前支持三个值:SequenceFile, DataStream,CompressedStream。 (1)DataStream 不压缩输出文件,不 要 设 置 codeC (2)CompressedStream 必 须 设 置 codeC
  37. hdfs.maxOpenFiles 5000 最大打开多少个文件。如果数量超了则 关闭最旧的文件
  38. hdfs.minBlockReplicas - 对每个 hdfs 的 block 设置最小副本 数。如果不指定,则使用 hadoop 的配 置的值。1
  39. hdfs.writeFormat - 对于 sequence file 记录的类型。 Text 或者 Writable(默认值)
  40. hdfs.callTimeout 10000 为 HDFS 操作如 open、write、flush、 close 准备的时间。如果 HDFS 操作很 慢,则可以设置这个值大一点儿。单位 毫秒
  41. hdfs.threadsPoolSize 10 每个 HDFS sink 的用于 HDFS io 操作 的线程数 (open, write, etc.)
  42. hdfs.rollTimerPoolSiz e 1 每个 HDFS sink 使用几个线程用于调 度计时文件滚动。
  43. hdfs.round false 支持文件夹滚动的属性。是否需要新建 文件夹。如果设置为 true,则会影响所 有的基于时间的逃逸字符,除了%t。
  44. hdfs.roundValue 1 该值与 roundUnit 一起指定文件夹滚 动的时长,会四舍五入
  45. hdfs.roundUnit second 控制文件夹个数。多长时间生成新文件 夹。可以设置为- second, minute 或者 hour.
  46. hdfs.timeZone Local Time Name of the timezone that should be used for resolving the directory path, e.g. America/Los_Angeles.
  47. hdfs.useLocalTimeStam p false 一般设置为 true,使用本地时间。如果 不使用本地时间,要求 flume 发送的事 件 header 中带有时间戳。该时间用于 替换逃逸字符

启动 hadoop 集群上的 hdfs,
将 node1 上的 option_sdir 拷贝 option_hdfs1,并修改:

# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/log
a1.sources.r1.fileHeader = true
a1.sources.r1.fileSuffix=.neusoft
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 5
a1.sinks.k1.hdfs.roundUnit = second
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动 node1 上的 flume

[root@node1 ~]# flume-ng agent -n a1 --conf-file option_hdfs1 -Dflume.root.logger=INFO,console

通过浏览器 node2:50070 访问 hdfs 目录,发现/flume 并不存在。
复制一个 node1 连接的 xshell 终端,/root/log 目录下拷贝文本文件

[root@node1 ~]# cp wc.txt log/

通过浏览器 node2:50070 访问 hdfs 目录,发现/flume 出现了

Flume sinks案例HDFS Sink(每 5 秒在 hdfs 上创建一个新的文件夹)相关推荐

  1. hadoop HDFS的文件夹创建、文件上传、文件下载、文件夹删除,文件更名、文件详细信息、文件类型判断(文件夹或者文件)

    摘要: 本篇文章主要介绍的是hadoop hdfs的基础api的使用.包括Windows端依赖配置,Maven依赖配置.最后就是进行实际的操作,包括:获取远程hadoop hdfs连接,并对其进行的一 ...

  2. java hdfs 新建目录_如何用java在hdfs中创建一个新目录?

    public static void main(String[] args) throws IOException, URISyntaxException { ????????????配置config ...

  3. 【SpringBoot零基础案例01】【IEDA 2021.1】如何创建一个SpringBoot框架web项目

    一.创建一个空项目 点击[File]- [New]- [Project-],新建一个空项目 选择[Empty Project]点击[Next] 填写项目名称,选择项目本地存储路径,点击[Finish] ...

  4. ubuntu在 hdfs上创建一个文件夹_NAS上如何创建和使用加密文件夹?

    共享文件夹是一个网络存储空间.您可以建立数个共享文件夹来存放不同类别的数据,或提供给不同的用户或用户群组来存取文件. 一旦加密共享文件夹被创建后,只有管理员将该共享文件夹装载,文件夹内的内容才可以被打 ...

  5. [python]一个遍历多层文件夹,然后替换文件内容和目录名称的案例

    假如有如下目录结构:       root         first             a.txt             b.txt         second             c ...

  6. flume组件之hdfs sink

    简介 flume的三大组件 source\channel\sink对应着采集位置类型\缓存类型\下沉地类型 本文主要讲解sink中的hdfs sink的常见属性以及常见问题 常用属性 type:指定s ...

  7. Flume之HDFS Sink使用案例

    前言 操作系统:CentOS 7 Java版本:1.8.0_221 Flume版本:1.8.0 HDFS版本:2.7.7 Flume agent配置:Netcat TCP Source.Memory ...

  8. Flume中的HDFS Sink配置

    Flume中的HDFS Sink配置参数说明 type:hdfs path:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/ filePrefi ...

  9. Flume HDFS Sink配置详解

    Name Default Description channel –   type – 组件的名称,必须为:HDFS hdfs.path – HDFS目录路径,例如:hdfs://namenode/f ...

最新文章

  1. Linux下使用shell实现上传linux下某个目录下所有文件到ftp
  2. 我们的高中教育造就了什么?
  3. linux查询cpu核心数
  4. 机器学习笔记【二】逻辑回归与分类(2):感知机学习算法与逻辑回归的区别,牛顿方法
  5. 纯CSS在线气泡提示生成工具 - CSS ARROW PLEASE!
  6. 达梦数据库DM8企业版--命令行方式的安装、创建数据库和注册服务
  7. Las Vegas利用ParkPad(基于ArcPad)实现公园资产管理
  8. EasyUI后台管理系统
  9. 内连接(inner join)与外连接(outer join)小结
  10. 计算机黑屏修改设置,电脑黑屏密码怎么设置
  11. 字节跳动2019春招后端开发工程师-笔试题解析
  12. 计算机 打印 速度慢,处理打印机在打印文件时打印速度过慢的原因
  13. awd的批量脚本 pwn_北极星杯 awd复现
  14. DL | TensorRT将Tensorflow模型转换为uff格式 报错Unable to locate package uff-converter-tf
  15. Linux下替换文件中的字符串
  16. 洛谷P1032字串变换题解--zhengjun
  17. Windows程序内存泄漏(Memory Leak)分析之Windbg
  18. 【超详细】7z的详解和7z的控制台参数说明
  19. 贝叶斯分类器的MapReduce实现(VMware + Hadoop)
  20. 学习过程:ExtJs入门

热门文章

  1. echarts导出图片(.png和.jpg)
  2. 思科4K路由器接口流量监控
  3. python常见内置模块
  4. html下拉列表框跳转,html下拉框跳转问题怎么弄?
  5. ThinkPad X1 Carbon Gen 10、ThinkPad X1 Yoga Gen 7 评测
  6. 如何在网页上实现音乐播放?
  7. python--英文文章单词数量统计
  8. 并发用户数量的正确英文表示
  9. 我是LINUX 菜鸟 从0开始 开始记我的成长足迹20140803
  10. 8Manage:电子寻源采购管理指南