如下案例,监控linux目录上的csv文件,并读取到 hdfs

#命名这个组件
agent1.channels = c1
agent1.sources = r1
agent1.sinks = k1agent1.sources.r1.channels = c1
# source属性
agent1.sources.r1.type = TAILDIR
#元数据保存位置,记录读取的位置啥的,位于linux上
agent1.sources.r1.positionFile = /home/data/flume_log/taildir_position.json
agent1.sources.r1.filegroups = f1
#监控的文件夹的位置
agent1.sources.r1.filegroups.f1 = /home/data/flume-CSV/.*csv
agent1.sources.r1.fileHeader = true# 设置channel类型为memory,速度比较快
agent1.channels.c1.type = memory
# channel可以容纳的event数目
agent1.channels.c1.capacity = 1000
# 事务数量
agent1.channels.c1.transactionCapacity = 100# 设置sink的类型为hdfs
agent1.sinks.k1.type=hdfs
# hdfs上的路径
agent1.sinks.k1.hdfs.path= hdfs://node01:8020/data203/nshop/ods/release/bdp_day=%Y%m%d
agent1.sinks.k1.hdfs.fileType=DataStream
#文件在hdfs上的保存格式
agent1.sinks.k1.hdfs.writeFormat=TEXT
agent1.sinks.k1.hdfs.rollCount=0
agent1.sinks.k1.hdfs.rollSize=0
agent1.sinks.k1.channel=c1
#文件名的前缀
agent1.sinks.k1.hdfs.filePrefix=%Y-%m-%d
agent1.sinks.k1.hdfs.fileSuffix=.log
agent1.sinks.k1.hdfs.useLocalTimeStamp = true

启动脚本

flume-ng agent -c /usr/local/flume/conf -f /usr/local/flume/flumeconf/taildir-mem-hdfs1.conf -n agent1 -Dflume.root.logger=INFO,console

之后就可以在hdfs上看到相应的文件.
数据导入成功后,可以进一步将hdfs上的文件映射成hive表,就相当于导入hive中了

alter table ods_nshop_2003.ods_nshop_01_releasedatas add partition (bdp_day='20201223');

当然,前提是hiev已经有创建这个表,且该表的位置为

'/data203/nshop/ods/release/';

也就是hive建表时外部表的位置要和采集方案中hdfs输出的位置是一样的!

注意事项

报错

Failed loading positionFile

1.删掉该文件,重新启动flume

flume流程之taildir-memory-hdfs相关推荐

  1. flume流程之http-memory-hdfs

    主要需要了解http source的一些属性,最重要的就是bind以及监听端口. 配置参数 默认值 描述 # 命名个组件 b1001.sources = r1 b1001.sinks = k1 b10 ...

  2. flume流程之SpoolDir-memory-hdfs

    写一个flume流程,source为spooldir,channel为memory,sink为hdfs. 网上搜索一下,稍加修改即可. %Y%m%d/%H%M注意区分大小写. 这个代表每1min建立一 ...

  3. [ETL] Flume 理论与demo(Taildir Source Hdfs Sink)

    一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...

  4. 数字IC后端设计实现流程之initial design

    数字IC后端设计实现流程之initial design 前端提供的文件 门级网表 (Gate Level Netlist) 数字前端工程师或者是 R2N 的同事在 release 东西给后端工程师做 ...

  5. 数字IC后端设计实现流程之floorplan及powerplan规划

    数字IC后端设计实现floorplan及powerplan规划 数字 IC 后端设计实现流程之 initial design 初始化 Initial 模块形状 估算完模块的面积后,block owne ...

  6. (连载)Android系统源码分析--Android系统启动流程之Linux内核

    > **这是一个连载的博文系列,我将持续为大家提供尽可能透彻的Android源码分析 [github连载地址](https://github.com/foxleezh/AOSP/issues/3 ...

  7. (连载)Android 8.0 : 系统启动流程之Linux内核

    这是一个连载的博文系列,我将持续为大家提供尽可能透彻的Android源码分析 github连载地址 前言 Android本质上就是一个基于Linux内核的操作系统,与Ubuntu Linux.Fedo ...

  8. 我的Android进阶修炼:安卓启动流程之init(1)

    文章目录 我的Android进阶修炼:安卓启动流程之init(1) 一.前言 二.init进程简介 1.文件位置 2.主要功能 三.init进程源码分析 3.1 main() 源码注解 3.1.1 参 ...

  9. Flume 监控kafka主题写HDFS小结

    Flume 监控kafka主题写HDFS小结 需求采集Flume采集kafka主题内容,往Hadoop集群上写HDFS,该机器没有安装Hadoop 这里的Flume版本是1.7.0,Hadoop版本是 ...

最新文章

  1. python3.5安装-linux系统安装python3.5
  2. 用python画爱心-python画一个玫瑰和一个爱心
  3. mybatis那些事~
  4. text对应java类型_【JavaWeb】79:JavaScript和Java的关系?
  5. 又走一人 苹果自动驾驶系统工程项目经理已离职
  6. python 类函数 实例函数_python_30期【实例函数 类里面的函数】
  7. 树和森林与二叉树的转换、树和森林的遍历
  8. c++ 虚函数实现原理
  9. Atitit path query 路径查询语言 数据检索语言 目录 1.1. List map spel 1 1.2. Html数据 》》Css选择符 1 1.3. Json 》map》
  10. Nginx从入门到精通
  11. access查询女教师所有的信息_access数据综合查询
  12. java 表头固定_常用的固定表头的几种做法
  13. 用KMS激活了office2016之后为什么进入的时候还是提示需激活解决方案:
  14. 洛谷P3939填颜色
  15. Python-OpenCV-PS油画滤镜效果
  16. 人脸识别几个解决方案分析与测评
  17. Word 表格顶页 处理办法
  18. 数学中学生测试软件,欧拉初中数学软件
  19. 064:vue+openlayers根据坐标来显示点、线段、圆形、多边形(代码示例)
  20. Linux对显卡驱动相关操作后,重启进不去图形界面,左上角一个横杠在闪

热门文章

  1. elementUI 分页器使用时遇到的Bug
  2. yarn 常用命令(干干货!)
  3. 乘积取中法matlab,迭代取中法、乘同余法及混合同余法产生随机数方法
  4. paypal中授权返回_微信开放平台授权登录流程详解
  5. 百度分享代码_网销侠:网络营销百问百答之51,百度小程序是什么
  6. c语言 链表_小陈的C语言笔记---链表(详细讲解基本操作和概念)
  7. excel表格数字显示不全_表格技巧—Excel里身份证号码显示不全的多种解决办法...
  8. php二级域名 同步登录,php网站单点登录--卷一(跨二级域名)
  9. 华为笔记本没有网线口_3599元起,华为台式机MateStation B515上架:R5 4600G
  10. android 存储空间监控,浅谈 Android 内存监控(中)