1、flume安装目录下新建文件夹 example

2、在example下新建文件

log-hdfs.conf

内容如下:

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1#exec 指的是命令
# Describe/configure the source
a1.sources.r1.type = exec
#F根据文件名追中, f根据文件的nodeid追中
a1.sources.r1.command = tail -F /home/hadoop/testdata/testflume.log
a1.sources.r1.channels = c1# Describe the sink
#下沉目标
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
#指定目录, flum帮做目的替换
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
#文件的命名, 前缀
a1.sinks.k1.hdfs.filePrefix = events-#10 分钟就改目录(创建目录), (这些参数影响/flume/events/%y-%m-%d/%H%M/)
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
#目录里面有文件
#------start----两个条件,只要符合其中一个就满足---
#文件滚动之前的等待时间(秒)
a1.sinks.k1.hdfs.rollInterval = 3
#文件滚动的大小限制(bytes)
a1.sinks.k1.hdfs.rollSize = 500
#写入多少个event数据后滚动文件(事件个数)
a1.sinks.k1.hdfs.rollCount = 20
#-------end-----#5个事件就往里面写入
a1.sinks.k1.hdfs.batchSize = 5#用本地时间格式化目录
a1.sinks.k1.hdfs.useLocalTimeStamp = true#下沉后, 生成的文件类型,默认是Sequencefile,可用DataStream,则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3、shell命令不断写数据到文件

[hadoop@nbdo3 testdata]$ while true; do echo "hello ningbo do" >> testflume.log ; sleep 0.5; done

4、在新窗口用tail 命令查看到 testflume.log文件内容不断增加

[hadoop@nbdo3 testdata]$ tail -f testflume.log 
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do
hello ningbo do

5、启动hadoop

6、启动flume

flume-ng agent -c ../conf -flog-hdfs.conf  -n a1 -Dflume.root.logger=INFO,console

7、浏览器进入hadoop管理界面。

Flume实战采集文件内容存入HDFS相关推荐

  1. Flume04:【案例】使用Flume采集文件内容上传至HDFS

    案例:采集文件内容上传至HDFS 接下来我们来看一个工作中的典型案例: 采集文件内容上传至HDFS 需求:采集目录中已有的文件内容,存储到HDFS 分析:source是要基于目录的,channel建议 ...

  2. Flume采集文件内容上传至HDFS

    需求:采集目录中已有的文件内容,存储到HDFS 分析:source是要基于目录的,channel建议使用file,可以保证不丢数据,sink使用hdfs 下面要做的就是配置Agent了,可以把exam ...

  3. Flume使用Spooling Directory Source采集文件夹数据到hdfs

    一.需求说明 flume监控linux上一个目录(/home/flume_data)下进入的文件,并写入hdfs的相应目录下(hdfs://master:9000/flume/spool/%Y%m%d ...

  4. Java读取文件夹下的所有文件名和文件内容

    读取文件夹下的所有文件名和文件内容 1. 读取指定目录下的每一个文件的文件名和文件内容 2. 并把文件名作为key,文件内容为value 存储在map集合中 3. 通过遍历map集合拿到我们需要的文件 ...

  5. Flume日志采集,avro采集,以及通过参数控制下沉到hdfs的文件大小,时间等控制

    1 Flume日志收集 1.1 总体介绍 官方地址:http://flume.apache.org/ 1.1.1 背景 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广 ...

  6. Flume监听文件夹中的文件变化,并把文件下沉到hdfs

    1.采集目录到HDFS 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 采集源,即source--监控文件目录 ...

  7. 模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中

    1.采集日志文件时一个很常见的现象 采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中. 1.1.根据需求,首先定义一下3大要素: 采集源 ...

  8. Flume监听文件夹中的文件变化_并把文件下沉到hdfs

    摘要: 1.采集目录到HDFS 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 采集源,即source--监控文 ...

  9. java 读取hdfs上的文件内容

    用java读取hdfs的文件 直接撸代码: package com.nature.base.util;import com.nature.component.process.vo.DebugDataR ...

最新文章

  1. 开源中国源码学习笔记
  2. 删除JavaScript对象中的元素
  3. 关于jQuery对象与DOM对象
  4. 时间轮算法解析(Netty HashedWheelTimer源码解读)
  5. springcloud 之服务注册与发现Eureka Server
  6. 南充一中计算机机房被盗,成都理工大学与南充市第一中学共建优质生源基地
  7. Eclipse调试时出现source not found的问题
  8. cookie、session和token
  9. Java语言基础-反射机制、正则表达式
  10. ORACLE AWR报告生成过程出现多个实例记录分析
  11. 《基本无害的计量经济学》第二章:选择性偏误与随机实验
  12. 文具行业调研报告 - 市场现状分析与发展前景预测
  13. 简单做(ZTD)的十个好习惯总结
  14. 计算机excel怎么删除重复项,在Excel中巧妙提示重复输入和删除重复数据
  15. 以下不属于大气数据计算机系统的传感器是,下列不属于地理信息技术的是 A. 遥感     B.传感器     C. 全球定位系统   D. 地理信息系统——青夏教育精英家教网——...
  16. 查看本地IP和服务器端口
  17. android 文字倾斜,TextView中文本倾斜
  18. 计算机网络——网络聊天程序的设计与实现
  19. 2009.6.29在淘宝网里订购了多普达P4550手机
  20. JavaSE进阶-day01思维导图,每日总结

热门文章

  1. mysql用户权限表join_MyBatis映射利用mysql left join 解决N+1查询问题
  2. linux可用的ftp,linuxunix下有很多可用的ftp服务器
  3. layui 分页ajax,实现Ajax异步的layui分页
  4. linux 文件系统cache,终于找到一篇详解Linux文件系统Cache的文章
  5. 基于RobotFramework实现自动化测试
  6. java 审批流_一文读懂工作流
  7. [分布式训练] 单机多卡的正确打开方式:PyTorch
  8. CVE-2013-4547 文件名逻辑漏洞
  9. 计算机考研计划时间,2019计算机考研时间安排:复习时间规划
  10. java拼三级魔方_魔方秘籍(详细解法)《三阶》