核心做三件事

1 数据采集:把业务数据转移到hadoop

2 数据计算、存储 :

3 数据应用:把hadoop上数据转移到业务系统

1 数据采集

三种方式

1  HDFSAPI 调用接口,将数据写入到hadoop ;

2 sqoop:Hadoop 与传统关系型数据库(Oracle SQL server Mysql)的双向数据同步

3 Flume:是分布式的海量日志采集和传输框架,并不适合做关系型数据库的采集和传输,FLume可以从实时的网络协议、消息系统、文件系统采集日志,并传输到hdfds上;

4 DataX 阿里开源的工具,数据同步的

2 数据计算和存储

流式:实时计算 Storm、spark streaming

批式:离线计算 hive sparksql mapreduce

Hive 是计算引擎,后台使用MR计算执行,因为初衷是进行一次性计算,因此他的执行效率很低,计算速度是最大缺点;

因此目前有一些SQL on hadoop 的框架 如 impala,sparksql,presto ,这三种框架基于半内存或者全内存,提供了SQL接口快速查询分析hadoop上的数据;

数据一次采集,多次消费:Kafka

kafka是高吞吐的分布式发布订阅消息系统;

Flume和Kafka的集成,使用Flume监控日志,并将日志数据实时发送至Kafka。这时,使用Flume采集的数据,不是直接到HDFS上,而是先到Kafka,Kafka中的数据可以由多个消费者同时消费,其中一个消费者,就是将数据同步到HDFS。

调度 :Oozie

一文读懂大数据平台——写给大数据开发初学者的话! - 知乎

参考了这篇文章,讲的真好。

大数据平台以及一些核心组件介绍相关推荐

  1. 基于Hadoop的大数据平台的整体架构介绍

    原文地址:点击打开链接 Hadoop是开源的分布式存储+分布式计算平台的框架 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互 ...

  2. 解决计算治理问题,详解微众银行大数据平台中间件Linkis架构和应用

    7月9日,由微众银行(WeBank)开源的一站式金融级大数据平台套件WeDataSphere(WDS),举办了第二期开发者社区的线上meetup,来自中国电信天翼云.艾佳生活.MobTech等WeDa ...

  3. 2022-2028全球与中国大数据平台市场现状及未来发展趋势

    [报告篇幅]:102 [报告图表数]:134 [报告出版时间]:2021年12月 报告摘要 本文研究全球及中国市场大数据平台现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中 ...

  4. 电商用户行为分析大数据平台相关系列1-环境介绍

    最近在自学Spark,看了一些书籍和视频,总是感觉无从下手.拿着一个想法总是无从下手.追其原因,主要是没有系统的学习和使用.对于IT,一切新技术都需要不断实践.不断动手.本着动手的原则,本人通过各种渠 ...

  5. 大数据平台CDH的介绍和5.16/6.3版本的搭建

    以下记录和介绍为自己在测试环境中的实际操作,因为很详细,所以篇幅较长,作为自己的记录文档,同时也帮助初学大数据平台搭建的朋友. 目录 1. CDH介绍 Hadoop主流三大发行版本: 1.1 CDH体 ...

  6. 企业级大数据平台应用场景介绍

    从业务的角度看,企业级大数据平台功能可细分为查询检索.数据挖掘.统计分析.深度分析,其中深度分析分为机器学习和神经网络. 从技术的角度看,企业级大数据平台功能细分为Batch.SQL.流式处理.mac ...

  7. 基于大数据平台的互联网数据采集平台架构介绍

    互联网的飞速发展将社会带入数据高度发达且公开的信息时代,数据对于企业经营.政府决策及社会动态分析等具有极其重要的作用,而如何大规模.快速采集数据成为技术焦点. 网络爬虫是按照一定规则自动游走爬取互联网 ...

  8. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  9. 一文读懂大数据平台——写给大数据开发初学者的话!

     一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...

  10. 聊聊大数据平台上云这点事

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 作者 | 褚杏娟 如今,企业都面临着日益增长的数 ...

最新文章

  1. 世界上将出现一种新职业
  2. 内存泄漏和内存溢出有什么区别
  3. 在 iOS 应用中直接跳转到 AppStore 的方法
  4. java中让数据生成excle文件并且支持下载
  5. 设计模式(24)-----责任链模式
  6. wamp2 php配置,wamp安装后自定义配置的方法
  7. caffe里的blocking_queue.hpp与.cpp干了点什么呢???
  8. Oracle表空间设计理念
  9. 5个Web前端开发软件,零基础入门完全够用了!
  10. android viewpager 底部tabhost,TabHost+ViewPager实现底部导航效果
  11. 火热升级:360Safe VS 雅虎助手
  12. ggplot2设置坐标轴范围_6.6 坐标轴:设置坐标轴上刻度的显示位置
  13. PPT画图(或排版)后保存为高清图片(可自定义分辨率)
  14. 用matlab抽奖,现在社会上销售彩票的很多。一家三口在抽奖时,常常喜欢让孩子来抽,请问这是遵循了什么决策原则(   )...
  15. linux iio设备
  16. RocketMQ 问题记录
  17. 笔记本CPU性能天梯图
  18. 自然语言处理(NLP)-模型常用技巧:Mask【Padding Mask、Subsequent Mask】
  19. 斑马问题答案C语言,斑马的问题
  20. comfort说明书 tp1200_西门子TP1200COMfort用什么编程软件

热门文章

  1. 如何在一个月内高效地备考教师资格证?
  2. Python自然语言处理 8 分析句子结构
  3. ks检验与s-w 检验_数据分析基础(2)——正态分布检验
  4. 想下载B站视频却不知如何下手?一文教你爬B站!
  5. Android开发常用的模拟器
  6. Use of @OneToMany or @ManyToMany targeting an unmapped class
  7. 你是儒系程序名猿,还是佛系开发大神?
  8. 笔记本电脑打开计算机里面会跳,笔记本电脑为什么闪屏_笔记本电脑闪屏的原因及处理方法...
  9. openwrt安装aliddns使用阿里云ddns
  10. 微信小程序的一些开发限制