数据转换工具sqoop:

Apache的顶级项目,官方网站http://sqoop.apache.org/

Apache Sqoop(TM)是一种设计工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效地传输大量数据。

将MapReduce程序组成,打包成jar形成Sqoop,充分使用了MR并行计算的特点加快数据传输,是连接传统型数据库和hadoop的桥梁(关系型数据库数据导入hadoop与其相关的系统中 / 把hadoop系统中数据抽取到关系型数据)

用于MySQL,Oracle 等与HDFS、HIVE、HBASE之间的数据导入和导出

sqoop1与sqoop2比较:

Sqoop1就是一个客户端

Sqoop2引入了服务器相关概念,可以进行集中化管理connector,多种访问方式(CLI,WEB,REST api),安全机制等。

Sqoop1简单好用

sqoop2缺点:命令行的方式比较复杂,不能支持所有的数据类型,安全机制并不够完善,部署比较繁琐

sqoop2优点:引入了服务器相关概念,可以进行集中化管理connector,多种访问方式(CLI,WEB,REST api),安全机制等

文件收集框架flume:

官方网站:http://flume.apache.org/

用户手册:http://flume.apache.org/FlumeUserGuide.html

Flume是一种分布式的(获取数据的来源众多,可以同时进行操作)、可靠的和可用的服务,用于高效地收集、聚集和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构(编写一个配置文件就可以)。它具有健壮性和容错性,具有可调整的可靠性机制和许多故障转移和恢复机制。它使用了一个简单的可扩展的数据模型,允许在线分析应用程序。

实时收集数据,经常与storm/spark集成进行使用(还有kafka进行数据收集)

运行需求jvm,且只能在linux系统上运行(数据源不在linux该怎么办,可以通过将NFS将windows目录挂载到Linux上)

Events:

Event是Flume数据传输的基本单元

Flume以事件的形式将数据从源头传送到最终的目的

Event由可选的header和载有数据的字节数组byte array构成,载有的数据对flume是不透明的(flume只负责传输,并不清除传输的是什么),Header是容纳了key-value的无序集合,key在集合内是唯一的,Header可以在上下文路由中使用扩展

Agent:

Flume的核心,同时也是最小的运行单位

一个agent就是一个jvm

Source:

封装数据成event,并且存入到channel

类型:AVRO Source,LOG4J Source,SYSLOG Source,jms Source,自定义Source

Channel

扮演者中间人的角色,可以理解成数据的缓冲区,队列的形式进行操作的

将事件暂存在内存中,也可以持久化到本地磁盘,知道sinks将数据传递结束(sink必须达到下一个agent或者存入到外部目的地之后,才会将时间remove掉)

类型:memory Channel,file channel,JDBC Channel,kafka channel,自定义channel

Sink:

也可以发送到其他agent的source

数据丢失:

Flume提供了三种方式处理此种错误

End-to-end:收到数据agent首先会把数据写到磁盘,等待传输成功后再删除,如果传输失败,再次发送

Store on failure:若接收方crash,再把数据写到本地,等待对方恢复之后继续发送

Besteffort:等待数据发送到接收方之后,不会进行确认

任务调度框架oozie:

Oozie是一个用于管理Apache Hadoop作业的工作流调度系统。

同类型还有azkaban ,zeus ,crontab

Crontab:针对每个用户而言,简单调度,没有展示界面

Azkaban:批量工作流任务调度器,出现了展示界面

Zeus:阿里开源的框架,名字图标来自dota,增加了任务调度界面,统计页面

Oozie:功能强大,极适合数据仓库类的业务

oozie流程图

组件:

workflow job(工作流), coordinator job(定时任务),bundies job(基于多个workflow和多个Coordinator之间的调度)

针对不同的任务,改写不同的workflow模板

大数据web工具Hue:

用户手册:

http://gethue.com/

http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/manual.html#_install_hue

Hue是开源免费,使用浏览器进行查询,浏览和展示数据的,兼容性非常好。即可用于查看各个大数据框架的运行情况,而不必去看每一个不同的框架的不同WebUi

大数据之路 -- 常用辅助框架相关推荐

  1. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  2. 数据库仓工具箱及阿里大数据之路--阅读总结

    一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...

  3. 《大数据之路:阿里巴巴大数据实践》

    <大数据之路:阿里巴巴大数据实践>语录 目录 一.数据采集 1 ◆日志采集 1 ▼浏览器的页面日志采集 1 ▼无线客户端的日志采集 2 (1) 页面事件 3 (2) 控件点击事件 3 (3 ...

  4. 大数据之路读书笔记-02日志采集

    大数据之路读书笔记-02日志采集 数据采集作为阿里大数据系统体系的第 环尤为重要.因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面.高性能.规范地完成海量数据的采集,并将其传输到大数据平台.本章 ...

  5. 卷皮网大数据之路-《猫友会大数据系列分享》

    猫友会希望建立更多高质量垂直细分社群,本次是"大数据学习交流付费群"的第一次分享. "大数据学习交流付费群"由猫友会联合,斗鱼数据平台总监吴瑞诚,卷皮BI技术总 ...

  6. 阿里巴巴大数据之路——数据模型篇

    阿里巴巴大数据之路--数据模型篇 一.概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法.主要关注的是从业务.数据存取和使用角度合理存储数据. 2.典型数据仓库建模方法论 ER模型 纬度模型 ...

  7. 大数据之路系列之Linux命令(01)

    大数据之路系列之Linux命令(01) 提示:常用Linux命令合集 第一章 Linux命令 Linux命令 大数据之路系列之Linux命令(01) 一.文件查看 1.查看当前目录 2.列出所有文件 ...

  8. 大数据之路读书笔记-03数据同步

    大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...

  9. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

最新文章

  1. jsapi设计_一个简单API设计
  2. Android 解读Event和Main Log
  3. “约见”面试官系列之常见面试题之第六十九篇之document.ready和onload的区别(建议收藏)
  4. 如何在QQ浏览器查看默认搜索引擎
  5. 基于Java+SpringBoot+vue+element实现新冠疫情物资管理系统详细设计
  6. Git学习总结(2)——初识 GitHub
  7. drill 数据库查询方式简单说明
  8. Sqlite中的字符串连接
  9. 抓包神器之Charles,常用功能都在这里了
  10. 清华大学操作系统OS学习(三)——启动、中断、异常和系统调用
  11. windows系统下帧率获取工具--fraps
  12. webservice学习wsdl解读(2)
  13. 针对唯一化实例对话框程序,及其命令行操作方法
  14. 每日一课 | python烤地瓜案例
  15. VMware14配置虚拟网络详解
  16. 《会计学》简单的思维导图(第一版)
  17. 对token(令牌)的理解
  18. GRE 词汇2(词根)
  19. python 单词拆音节_使用Python查找音节
  20. html情侣计时器,手机桌面恋爱计时器

热门文章

  1. 用digispark开发板制作Bad USB
  2. 虚拟同步发电机预同步(无缝切换)matlab/simulink仿真模型
  3. 华为OD机试 - 乱序整数序列两数之和绝对值最小 | 机试题算法思路 【2023】
  4. 销售需求丨借贷记账法(补充)
  5. 林倞:Beyond Supervised Deep Learning--后深度学习时代的挑战
  6. align-items和align-content的区别
  7. 利用通道混合器调整图像
  8. flume简单使用案例
  9. 小米笔记本pro15.6黑苹果+win10双系统/多系统
  10. 量子计算机寄存器,科学家正在构建强大实用的离子阱量子计算机