大数据之路 -- 常用辅助框架
数据转换工具sqoop:
Apache的顶级项目,官方网站http://sqoop.apache.org/
Apache Sqoop(TM)是一种设计工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效地传输大量数据。
将MapReduce程序组成,打包成jar形成Sqoop,充分使用了MR并行计算的特点加快数据传输,是连接传统型数据库和hadoop的桥梁(关系型数据库数据导入hadoop与其相关的系统中 / 把hadoop系统中数据抽取到关系型数据)
用于MySQL,Oracle 等与HDFS、HIVE、HBASE之间的数据导入和导出
sqoop1与sqoop2比较:
Sqoop1就是一个客户端
Sqoop2引入了服务器相关概念,可以进行集中化管理connector,多种访问方式(CLI,WEB,REST api),安全机制等。
Sqoop1简单好用
sqoop2缺点:命令行的方式比较复杂,不能支持所有的数据类型,安全机制并不够完善,部署比较繁琐
sqoop2优点:引入了服务器相关概念,可以进行集中化管理connector,多种访问方式(CLI,WEB,REST api),安全机制等
文件收集框架flume:
官方网站:http://flume.apache.org/
用户手册:http://flume.apache.org/FlumeUserGuide.html
Flume是一种分布式的(获取数据的来源众多,可以同时进行操作)、可靠的和可用的服务,用于高效地收集、聚集和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构(编写一个配置文件就可以)。它具有健壮性和容错性,具有可调整的可靠性机制和许多故障转移和恢复机制。它使用了一个简单的可扩展的数据模型,允许在线分析应用程序。
实时收集数据,经常与storm/spark集成进行使用(还有kafka进行数据收集)
运行需求jvm,且只能在linux系统上运行(数据源不在linux该怎么办,可以通过将NFS将windows目录挂载到Linux上)
Events:
Event是Flume数据传输的基本单元
Flume以事件的形式将数据从源头传送到最终的目的
Event由可选的header和载有数据的字节数组byte array构成,载有的数据对flume是不透明的(flume只负责传输,并不清除传输的是什么),Header是容纳了key-value的无序集合,key在集合内是唯一的,Header可以在上下文路由中使用扩展
Agent:
Flume的核心,同时也是最小的运行单位
一个agent就是一个jvm
Source:
封装数据成event,并且存入到channel
类型:AVRO Source,LOG4J Source,SYSLOG Source,jms Source,自定义Source
Channel
扮演者中间人的角色,可以理解成数据的缓冲区,队列的形式进行操作的
将事件暂存在内存中,也可以持久化到本地磁盘,知道sinks将数据传递结束(sink必须达到下一个agent或者存入到外部目的地之后,才会将时间remove掉)
类型:memory Channel,file channel,JDBC Channel,kafka channel,自定义channel
Sink:
也可以发送到其他agent的source
数据丢失:
Flume提供了三种方式处理此种错误
End-to-end:收到数据agent首先会把数据写到磁盘,等待传输成功后再删除,如果传输失败,再次发送
Store on failure:若接收方crash,再把数据写到本地,等待对方恢复之后继续发送
Besteffort:等待数据发送到接收方之后,不会进行确认
任务调度框架oozie:
Oozie是一个用于管理Apache Hadoop作业的工作流调度系统。
同类型还有azkaban ,zeus ,crontab
Crontab:针对每个用户而言,简单调度,没有展示界面
Azkaban:批量工作流任务调度器,出现了展示界面
Zeus:阿里开源的框架,名字图标来自dota,增加了任务调度界面,统计页面
Oozie:功能强大,极适合数据仓库类的业务
oozie流程图
组件:
workflow job(工作流), coordinator job(定时任务),bundies job(基于多个workflow和多个Coordinator之间的调度)
针对不同的任务,改写不同的workflow模板
大数据web工具Hue:
用户手册:
http://gethue.com/
http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/manual.html#_install_hue
Hue是开源免费,使用浏览器进行查询,浏览和展示数据的,兼容性非常好。即可用于查看各个大数据框架的运行情况,而不必去看每一个不同的框架的不同WebUi
大数据之路 -- 常用辅助框架相关推荐
- 大数据之路读书笔记-16数据应用
大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...
- 数据库仓工具箱及阿里大数据之路--阅读总结
一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...
- 《大数据之路:阿里巴巴大数据实践》
<大数据之路:阿里巴巴大数据实践>语录 目录 一.数据采集 1 ◆日志采集 1 ▼浏览器的页面日志采集 1 ▼无线客户端的日志采集 2 (1) 页面事件 3 (2) 控件点击事件 3 (3 ...
- 大数据之路读书笔记-02日志采集
大数据之路读书笔记-02日志采集 数据采集作为阿里大数据系统体系的第 环尤为重要.因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面.高性能.规范地完成海量数据的采集,并将其传输到大数据平台.本章 ...
- 卷皮网大数据之路-《猫友会大数据系列分享》
猫友会希望建立更多高质量垂直细分社群,本次是"大数据学习交流付费群"的第一次分享. "大数据学习交流付费群"由猫友会联合,斗鱼数据平台总监吴瑞诚,卷皮BI技术总 ...
- 阿里巴巴大数据之路——数据模型篇
阿里巴巴大数据之路--数据模型篇 一.概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法.主要关注的是从业务.数据存取和使用角度合理存储数据. 2.典型数据仓库建模方法论 ER模型 纬度模型 ...
- 大数据之路系列之Linux命令(01)
大数据之路系列之Linux命令(01) 提示:常用Linux命令合集 第一章 Linux命令 Linux命令 大数据之路系列之Linux命令(01) 一.文件查看 1.查看当前目录 2.列出所有文件 ...
- 大数据之路读书笔记-03数据同步
大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...
- 大数据之路读书笔记-15数据质量
大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...
最新文章
- jsapi设计_一个简单API设计
- Android 解读Event和Main Log
- “约见”面试官系列之常见面试题之第六十九篇之document.ready和onload的区别(建议收藏)
- 如何在QQ浏览器查看默认搜索引擎
- 基于Java+SpringBoot+vue+element实现新冠疫情物资管理系统详细设计
- Git学习总结(2)——初识 GitHub
- drill 数据库查询方式简单说明
- Sqlite中的字符串连接
- 抓包神器之Charles,常用功能都在这里了
- 清华大学操作系统OS学习(三)——启动、中断、异常和系统调用
- windows系统下帧率获取工具--fraps
- webservice学习wsdl解读(2)
- 针对唯一化实例对话框程序,及其命令行操作方法
- 每日一课 | python烤地瓜案例
- VMware14配置虚拟网络详解
- 《会计学》简单的思维导图(第一版)
- 对token(令牌)的理解
- GRE 词汇2(词根)
- python 单词拆音节_使用Python查找音节
- html情侣计时器,手机桌面恋爱计时器
热门文章
- 用digispark开发板制作Bad USB
- 虚拟同步发电机预同步(无缝切换)matlab/simulink仿真模型
- 华为OD机试 - 乱序整数序列两数之和绝对值最小 | 机试题算法思路 【2023】
- 销售需求丨借贷记账法(补充)
- 林倞:Beyond Supervised Deep Learning--后深度学习时代的挑战
- align-items和align-content的区别
- 利用通道混合器调整图像
- flume简单使用案例
- 小米笔记本pro15.6黑苹果+win10双系统/多系统
- 量子计算机寄存器,科学家正在构建强大实用的离子阱量子计算机