SqoopFlume、Flume、HDFS之间比较
Sqoop |
Flume |
HDFS |
Sqoop用于从结构化数据源,例如,RDBMS导入数据 |
Flume 用于移动批量流数据到HDFS |
HDFS使用 Hadoop 生态系统存储数据的分布式文件系统 |
Sqoop具有连接器的体系结构。连接器知道如何连接到相应的数据源并获取数据 |
Flume 有一个基于代理的架构。这里写入代码(这被称为“代理”),这需要处理取出数据 |
HDFS具有分布式体系结构,数据被分布在多个数据节点 |
HDFS 使用 Sqoop 将数据导出到目的地 |
通过零个或更多个通道将数据流给HDFS |
HDFS是用于将数据存储到最终目的地 |
Sqoop数据负载不事件驱动 |
Flume 数据负载可通过事件驱动 |
HDFS存储通过任何方式提供给它的数据 |
为了从结构化数据源导入数据,人们必须只使用Sqoop,因为它的连接器知道如何与结构化数据源进行交互并从中获取数据 |
为了加载流数据,如微博产生的推文。或者登录Web服务器的文件,Flume 应都可以使用。Flume 代理是专门为获取流数据而建立的。 |
HDFS拥有自己的内置shell命令将数据存储。HDFS不能用于导入结构化或流数据 |
转载于:https://www.cnblogs.com/huangjianping/p/8033041.html
SqoopFlume、Flume、HDFS之间比较相关推荐
- flume hdfs sink 文件滚动策略
一般使用hdfs sink都会采用滚动生成文件的方式,hdfs sink滚动生成文件的策略有: 基于时间 基于文件大小 基于hdfs文件副本数(一般要规避这种情况) 基于event数量 基于文件闲置时 ...
- Flume HDFS Sink配置详解
Name Default Description channel – type – 组件的名称,必须为:HDFS hdfs.path – HDFS目录路径,例如:hdfs://namenode/f ...
- 利用Sqoop在数据库和Hive、HDFS之间做ETL操作
文章目录 @[toc] 目录: 一.利用Sqoop,从Oracle到HDFS 二.利用Sqoop,从Oracle到Hive 三.遇到的问题 目录: 一.利用Sqoop,从Oracle到HDFS 第一步 ...
- sqoop实现Mysql、Oracle与hdfs之间数据的互导
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据 SQOOP的描述 SQOOP是用于对数据进行导入导出的. (1)把MySQL.Oracle等数据库中的数据导入到HD ...
- Flume日志采集,avro采集,以及通过参数控制下沉到hdfs的文件大小,时间等控制
1 Flume日志收集 1.1 总体介绍 官方地址:http://flume.apache.org/ 1.1.1 背景 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广 ...
- Hadoop教程(五):Flume、Sqoop、Pig、Hive、OOZIE
在我们了解Flume和Sqoop之前,让我们研究数据加载到Hadoop的问题: 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群. 从不同来源大容量的数据加载到Hadoop ...
- [转]大数据环境搭建步骤详解(Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark等安装与配置)
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等) 系统说明 ...
- kafka应用场景Kafka VS Flume
前言 最近在搭一个离线Hadoop + 实时SparkStreaming的日志处理系统,然后发现基本上网上的这种系统都集成了kafka. 自己对kafka有一点点的认识,之前看过官网文档,用过一次,就 ...
- Flume 开发者指南V1.5.2
介绍 概述 Apache Flume是一个用来从很多不同的源有效地收集,聚集和移动大量的日志数据到一个中心数据仓库的分布式的,可靠的和可用的系统. Apache Flume是Apache软件基金会的顶 ...
最新文章
- jwt 私钥_一分钟带你了解JWT认证
- 到「黄埔学院」去:打造AI首席架构师,第二期限量招募!
- 豪斯荷尔德变换及变形QR算法对矩阵进行奇异值分解VB算法
- 在Spring Boot中使用 @ConfigurationProperties 注解
- cocos2d-x游戏实例(7)-A星算法(3)
- sql中count(0),count(1),count(),count(列名)
- python excel转xml
- MySQL内存使用-线程独享
- 图解操作系统系列-概述
- 一个基于.NET Core3.1的开源项目帮你彻底搞懂WPF框架Prism
- pc端html转换手机端,一种兼容PC端和手机端WEB界面的实现方法与流程
- Unity获取手机app列表《三》安卓端
- ZOJ3549 Little Keng(快速幂)
- 遍历同辈节电的方法_家庭节水节电的24个好方法
- golang-文章翻译-go常见的10种错误
- 十分钟搞定SSD1963液晶屏驱动
- 网页内嵌B站视频,隐藏相关控件
- C# 使用WebSocket创建聊天室
- 华南师大教授/教育学博士焦建利力荐《正在爆发的互联网革命》
- 《软件设计的哲学》(三)【复杂性的本质】
热门文章
- 文件管理软件 云服务器,使用KDE Plasma文件管理器(Dolphin)连接到Linux上的服务器...
- android 本地提醒功能,android中的本地定时推送到通知栏
- php-cms,GitHub - lovelife10000/L-php-cms: 基于laravel框架开发的一款php CMS内容管理系统,前端采用angular、jquery技术...
- python会内存泄漏吗_Python内存泄漏和内存溢出的解决方法
- MySQL笔记-MHA(Master High Availability)搭建
- Qt文档阅读笔记-QPropertyAnimation官方解析及实例
- 北京市计算机专修学院,北京计算机专修学院:三大热门专业
- mysql 安装1607_mysql服务启动报1607error
- mysql和sqlite3 ios_iOS开发:用SQLite3存储和读取数据
- jstorm 读取mysql_jstorm运维经验转载