flume流程之taildir-memory-hdfs
如下案例,监控linux
目录上的csv
文件,并读取到 hdfs
上
#命名这个组件
agent1.channels = c1
agent1.sources = r1
agent1.sinks = k1agent1.sources.r1.channels = c1
# source属性
agent1.sources.r1.type = TAILDIR
#元数据保存位置,记录读取的位置啥的,位于linux上
agent1.sources.r1.positionFile = /home/data/flume_log/taildir_position.json
agent1.sources.r1.filegroups = f1
#监控的文件夹的位置
agent1.sources.r1.filegroups.f1 = /home/data/flume-CSV/.*csv
agent1.sources.r1.fileHeader = true# 设置channel类型为memory,速度比较快
agent1.channels.c1.type = memory
# channel可以容纳的event数目
agent1.channels.c1.capacity = 1000
# 事务数量
agent1.channels.c1.transactionCapacity = 100# 设置sink的类型为hdfs
agent1.sinks.k1.type=hdfs
# hdfs上的路径
agent1.sinks.k1.hdfs.path= hdfs://node01:8020/data203/nshop/ods/release/bdp_day=%Y%m%d
agent1.sinks.k1.hdfs.fileType=DataStream
#文件在hdfs上的保存格式
agent1.sinks.k1.hdfs.writeFormat=TEXT
agent1.sinks.k1.hdfs.rollCount=0
agent1.sinks.k1.hdfs.rollSize=0
agent1.sinks.k1.channel=c1
#文件名的前缀
agent1.sinks.k1.hdfs.filePrefix=%Y-%m-%d
agent1.sinks.k1.hdfs.fileSuffix=.log
agent1.sinks.k1.hdfs.useLocalTimeStamp = true
启动脚本
flume-ng agent -c /usr/local/flume/conf -f /usr/local/flume/flumeconf/taildir-mem-hdfs1.conf -n agent1 -Dflume.root.logger=INFO,console
之后就可以在hdfs上看到相应的文件.
数据导入成功后,可以进一步将hdfs上的文件映射成hive表,就相当于导入hive中了
alter table ods_nshop_2003.ods_nshop_01_releasedatas add partition (bdp_day='20201223');
当然,前提是hiev已经有创建这个表,且该表的位置为
'/data203/nshop/ods/release/';
也就是hive建表时外部表的位置要和采集方案中hdfs输出的位置是一样的!
注意事项
报错
Failed loading positionFile
1.删掉该文件,重新启动flume
flume流程之taildir-memory-hdfs相关推荐
- flume流程之http-memory-hdfs
主要需要了解http source的一些属性,最重要的就是bind以及监听端口. 配置参数 默认值 描述 # 命名个组件 b1001.sources = r1 b1001.sinks = k1 b10 ...
- flume流程之SpoolDir-memory-hdfs
写一个flume流程,source为spooldir,channel为memory,sink为hdfs. 网上搜索一下,稍加修改即可. %Y%m%d/%H%M注意区分大小写. 这个代表每1min建立一 ...
- [ETL] Flume 理论与demo(Taildir Source Hdfs Sink)
一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...
- 数字IC后端设计实现流程之initial design
数字IC后端设计实现流程之initial design 前端提供的文件 门级网表 (Gate Level Netlist) 数字前端工程师或者是 R2N 的同事在 release 东西给后端工程师做 ...
- 数字IC后端设计实现流程之floorplan及powerplan规划
数字IC后端设计实现floorplan及powerplan规划 数字 IC 后端设计实现流程之 initial design 初始化 Initial 模块形状 估算完模块的面积后,block owne ...
- (连载)Android系统源码分析--Android系统启动流程之Linux内核
> **这是一个连载的博文系列,我将持续为大家提供尽可能透彻的Android源码分析 [github连载地址](https://github.com/foxleezh/AOSP/issues/3 ...
- (连载)Android 8.0 : 系统启动流程之Linux内核
这是一个连载的博文系列,我将持续为大家提供尽可能透彻的Android源码分析 github连载地址 前言 Android本质上就是一个基于Linux内核的操作系统,与Ubuntu Linux.Fedo ...
- 我的Android进阶修炼:安卓启动流程之init(1)
文章目录 我的Android进阶修炼:安卓启动流程之init(1) 一.前言 二.init进程简介 1.文件位置 2.主要功能 三.init进程源码分析 3.1 main() 源码注解 3.1.1 参 ...
- Flume 监控kafka主题写HDFS小结
Flume 监控kafka主题写HDFS小结 需求采集Flume采集kafka主题内容,往Hadoop集群上写HDFS,该机器没有安装Hadoop 这里的Flume版本是1.7.0,Hadoop版本是 ...
最新文章
- python3.5安装-linux系统安装python3.5
- 用python画爱心-python画一个玫瑰和一个爱心
- mybatis那些事~
- text对应java类型_【JavaWeb】79:JavaScript和Java的关系?
- 又走一人 苹果自动驾驶系统工程项目经理已离职
- python 类函数 实例函数_python_30期【实例函数 类里面的函数】
- 树和森林与二叉树的转换、树和森林的遍历
- c++ 虚函数实现原理
- Atitit path query 路径查询语言 数据检索语言 目录 1.1. List map spel	1 1.2. Html数据 》》Css选择符	1 1.3. Json 》map》
- Nginx从入门到精通
- access查询女教师所有的信息_access数据综合查询
- java 表头固定_常用的固定表头的几种做法
- 用KMS激活了office2016之后为什么进入的时候还是提示需激活解决方案:
- 洛谷P3939填颜色
- Python-OpenCV-PS油画滤镜效果
- 人脸识别几个解决方案分析与测评
- Word 表格顶页 处理办法
- 数学中学生测试软件,欧拉初中数学软件
- 064:vue+openlayers根据坐标来显示点、线段、圆形、多边形(代码示例)
- Linux对显卡驱动相关操作后,重启进不去图形界面,左上角一个横杠在闪
热门文章
- elementUI 分页器使用时遇到的Bug
- yarn 常用命令(干干货!)
- 乘积取中法matlab,迭代取中法、乘同余法及混合同余法产生随机数方法
- paypal中授权返回_微信开放平台授权登录流程详解
- 百度分享代码_网销侠:网络营销百问百答之51,百度小程序是什么
- c语言 链表_小陈的C语言笔记---链表(详细讲解基本操作和概念)
- excel表格数字显示不全_表格技巧—Excel里身份证号码显示不全的多种解决办法...
- php二级域名 同步登录,php网站单点登录--卷一(跨二级域名)
- 华为笔记本没有网线口_3599元起,华为台式机MateStation B515上架:R5 4600G
- android 存储空间监控,浅谈 Android 内存监控(中)