【hadoop生态之Flume】概念【笔记+代码】
一、Flume简介
Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。
Flume基于流式架构,容错性强,也很灵活简单。
Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。
二、Flume角色
2.1、Source
用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。
2.2、Channel
用于桥接Sources和Sinks,类似于一个队列。
2.3、Sink
从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)。
2.4、Event
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。
三、Flume传输过程
source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。
【hadoop生态之Flume】概念【笔记+代码】相关推荐
- Hadoop生态之Flume
Flume 1.什么是Flume? 2.Flume的特点 3.Flume的架构 3.1 Agent 3.2 Source 3.3 Sink 3.4 Channel 3.5 Event 4.Flume的 ...
- Hadoop 生态系列之 Mapreduce
阅读文本大概需要 5 分钟.文章稍长,建议收藏慢慢看. 目前 Hadoop 系列文章的规划就是这样,持续补充完善中- 同时可以访问 https://data.cuteximi.com Hadoop 生 ...
- 大数据之Hadoop生态系统概述
一.什么是大数据 首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...
- Hadoop生态之Mapreduce
今天给大家带来的是Hadoop生态中的Mapreduce,看到这里诸佬们可能就有疑惑了呢,啥是Mapreduce?小小的脑袋大大的疑惑. 在上篇博客中博主使用了王者来举例子,如果把Hadoop当作王者 ...
- Hadoop生态之HDFS
今天我们要了解的是Hadoop生态中的HDFS,什么是HDFS呢? 如果把Hadoop当作王者荣耀来分析的话,那么HDFS的功能呢.就好比我们的点券,只有你充钱了,麻花总部收到了,这时候HDFS的作用 ...
- 【Hadoop】四、Hadoop生态综合案例 ——陌陌聊天数据分析
文章目录 四.Hadoop生态综合案例 --陌陌聊天数据分析 1.陌陌聊天数据分析案例需求 1.1.背景介绍 1.2.目标需求 1.3.数据内容 2.基于Hive数仓实现需求开发 2.1.建库建表.加 ...
- Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装
Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装 今日课程学习目标 1.掌握Linux用户.权限管理 2.掌握Linux常用系统命令 3.掌握服务器集群环境搭建 4.了解sh ...
- Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我 ...
- Hadoop辅助工具——Flume、Sqoop
前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出.任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体 ...
最新文章
- 【NOI2013】向量内积
- boost::multiprecision模块complex128相关的测试程序
- Scala _02基础
- 使用layui的layer组件做弹出层
- 如何使用redis来实现常见的游戏排行榜
- excel去重_数据处理之EXCEL的高效技巧分享
- [置顶] spring + jstl 实现java国际化的配置步骤
- 【Ajax】后台验证用户输入的验证码是否与随机生成的验证码一直
- 教你写页游自动化Python脚本,取色,大漠识别和后台点击
- 为啥vb被计算机二级取消,计算机二级vb考试是不是今年最后一年
- Java面向对象编程——什么是面向对象
- snb处理器hd3000显卡专用extra_Intel十代酷睿处理器:移动平台性能有了质飞跃!...
- 阿里云操作系统——飞天(Apsara)
- python为什么是蛇的天敌_蛇的天敌是什么?蛇獴对所有蛇毒免疫(成蛇类死对头)
- 驾驶员监控系统 DMS
- 本周内外盘行情回顾2022.2.27
- 中国鸡荣华鸡为什么干不过洋鸡肯德基
- 管理好你的20~30岁
- win10系统添加安装打印机教程
- thinkpad X1 2016 NMV固态硬盘 win7+win10双系统 GPT+UEFI启动 系统安装记录
热门文章
- Mr.Alright---安卓N系统最近任务锁定功能实现
- sort函数的用法(C++排序库函数的调用)对数组进行排序,在c++中有库函数帮我们实现,这们就不需要我们自己来编程进行排序了。
- 数据库实验四:数据高级查询
- 绿皮车里的温馨服务 情暖回家路
- 经典神经网络论文超详细解读(三)——GoogLeNet InceptionV1学习笔记(翻译+精读+代码复现)
- VMware 网络环境配置(win7系统)
- 解决Linux命令行前出现base
- JAVA中输出分两栏,老司机搞定Java 设置Word分栏
- 传统企业互联网转型升级新玩法:技术合伙
- 手持无刷云台三轴全角度到底有多少坑