大数据背景

对于业务数据数据量的暴增,用户智能化需求提升。在这个DT的时代,大数据的开发也就应运而生了,大数据开发必须解决两个问题,大数据量如何统一存储,大数据量如何统一计算。针对这些问题产生了很多大数据方面的技术框架。到今天为止,大数据方面的技术可以说已经相当成熟,BAT在大数据方面都应用十分的广泛,大数据量的分析使得数据更有了价值,运营有了通过大数据的分析可以做出精确的营销计划,通过收集用户的操作日志,分析用户行为,给出用户精确和有价值的推荐。人工智能也是通过海量数据做分析,通过算法做出智能准确的行为。

大数据hadoop的应用

大数据应用分析

统计

推荐

机器学习

人工智能,预测(算法)

SQL on Hadoop

Hive

Phoneix(基于HBase)

Spark SQL

hadoop 2.x 的概述

hadoop 包含的四大模块

上述可以看出Hadoop的重点就主要包含三部分,hdfs存储,MapReduce分布式计算过程,Yarn管理计算任务,包含了资源调度,任务协调,任务监控。

HDFS 服务功能

YARN 服务功能

离线计算框架 MapReduce

大数据开发过程离线和实时常用的技术框架简介

nutch爬虫取文本数据; 数据是半结构化数据;

flume准备日志数据

Scribe是Facebook开源的日志收集系统. 它能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理。想系统学习大数据的话,可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具以及入门学习资料

结构化数据由RDBMS(关系数据库管理系统)管理和存放在数据库,

sqoop可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中;

Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.

Mapreduce是主要操作逻辑和引擎, map是分配, reduce是合并;

HDFS是分布式文件存储系统

HBase快速存储, 快速响应查询

Jaql 是一个 JSON 的查询语言,用于简化 JSON 数据的建模和操作,主要用于分析大规模的半结构化数据。

Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。

mahout对数据进行分析; 我们要学习好如何使用好来分析; 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。

针对上述的生态圈做一个简单的说明:

对于大数据开发的步骤,第一步当然是数据来源的来源,爬虫技术,mutch当然也可以使用诸如python的其他框架,公司中常用的还有通过前端接口收集,flume日志采集。采集到的数据入hdfs文件,第二步数据采集之后,需要日志解析,日志解析公司一般会自己开发,实现方式可以是mapreduce计算实现原始日志简单清洗和入库hive。第三步是日志分析,通过简单的sql可以实现对业务数据分析,简单的编写sql如hivesql,sparksql可以进行计划,如何实现任务流管理就需要用到oozie,数据的分析计算结果最后结果写入高性能,读写数据快的数据存储系统,例如关系型数据库mysql,sqlserver 或者HBase。以上基本的离线开发流程就。对于一些业务多维度的分析可能需要事先进行预计算比如使用kylin的cube。

对于实时的技术,一般的数据源是日志收集之后写入kafka,然后通过sparkStreaming或者Strom,现在比较流行的还有flink,这些框架都是基于内存去进行分布式计算,用空间换时间,达到实时的计算。

离线开发和实时开发系统架构说明

系统架构说明:

本系统架构基于真实的大数据平台构建:

基本的数据结构说明:

以下两张图是基于离线和实时的系统开发架构图:

离线系统架构图

实时系统架构图

大数据平台开发架构讲解相关推荐

  1. 大数据平台开发:大数据系统架构模块解析

    企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个 ...

  2. Hadoop大数据平台开发与案例分析

    关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...

  3. 【SDCC讲师专访】吕毅:链家网大数据平台的架构演进

    2016年11月18日-20日,由CSDN重磅打造的年终技术盛会,SDCC 2016中国软件开发者大会将在北京举行,大会面向国内外的中高端技术人员,聚焦最前沿技术及一线的实践经验,从而助力企业的技术升 ...

  4. 企业大数据平台仓库架构建设思路

    https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...

  5. 大数据平台基础架构指南

    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了.无耻的推广一下哈 :) 淘宝,JD都有现货,Amazon,搜书名 < 大数据平台基础架构指南 > 链接:https:/ ...

  6. 秋招面经第十一弹:沐瞳科技一面-大数据平台开发工程师

    秋招第十一弹:沐瞳科技一面-大数据平台开发工程师 写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的 ...

  7. 大数据技术系列:图解【大数据平台开发】

    导言 在前面的文章<「大数据技术体系」学习实践导览>中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据 ...

  8. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  9. 戮默科技:大数据平台开发运营 赋能企业智慧发展

    随着5G.移动互联网.物联网.云计算等信息技术的发展,大数据在精准营销.教育.金融等领域有着越来越广泛的应用.深圳市戮默科技有限公司(以下简称戮默科技)旗下产品--大数据平台开发运营,正向大数据.云计 ...

最新文章

  1. deep_sort_face
  2. POJ2528线段树段更新逆序异或(广告牌)
  3. Netty源码分析--NIO(一)
  4. inputstream的大小为0_李太阳2020302期排列三推荐:本期两码看好0、3
  5. 阿里云RDS vs 自建MySQL,这篇评测终结你的选择困难症!
  6. java 泛型详解-绝对是对泛型方法讲解
  7. NH3.X与2.X使用上的一些区别
  8. 普通人学python有意义吗_学python难吗
  9. 深度学习笔记(35) 滑动窗口的卷积实现
  10. Web后端学习笔记 Flask(9)cookie and session
  11. 三目运算符的空指针问题
  12. 5. Mac phpstorm 快捷键
  13. 1一10到时的英文单词_[1-10的英语单词读音]1到10的英语单词
  14. 使用nodejs发送电子邮件
  15. python mysql插入数据报错:TypeError: %d format: a number is required, not str
  16. c语言速算24课程设计,C语言速算24数据结构课程设计.doc
  17. 朱子治家格言(清朝·朱柏庐)
  18. mysql rpm怎么用_linux下mysql(rpm)安装使用手册
  19. 同步电路和异步电路的区别
  20. fifo的rdata_FIFO的使用总结

热门文章

  1. 如何对技术视频转换文章投稿进行二次创作
  2. Jzoj3176 蜘蛛侠
  3. 听说现在美女都流行吃“脏东西”了,有钱都不一定买得到...丨钛空舱
  4. 自媒体达人早已月入过万,为何同是自媒体人却依旧没收益
  5. 5G无线关键技术 — 非正交多址接入技术
  6. 红外通信的应用——PPM调制与解码(C51)
  7. 从车辆工程转行程序员两年,我是这么走过来的
  8. 博客从CSDN迁移至简书啦
  9. 行走C江湖多年,你修炼过五大秘笈吗?
  10. 七巧板复原算法探讨之二——七巧板的表示