大数据平台开发架构讲解
大数据背景
对于业务数据数据量的暴增,用户智能化需求提升。在这个DT的时代,大数据的开发也就应运而生了,大数据开发必须解决两个问题,大数据量如何统一存储,大数据量如何统一计算。针对这些问题产生了很多大数据方面的技术框架。到今天为止,大数据方面的技术可以说已经相当成熟,BAT在大数据方面都应用十分的广泛,大数据量的分析使得数据更有了价值,运营有了通过大数据的分析可以做出精确的营销计划,通过收集用户的操作日志,分析用户行为,给出用户精确和有价值的推荐。人工智能也是通过海量数据做分析,通过算法做出智能准确的行为。
大数据hadoop的应用
大数据应用分析
统计
推荐
机器学习
人工智能,预测(算法)
SQL on Hadoop
Hive
Phoneix(基于HBase)
Spark SQL
hadoop 2.x 的概述
hadoop 包含的四大模块
上述可以看出Hadoop的重点就主要包含三部分,hdfs存储,MapReduce分布式计算过程,Yarn管理计算任务,包含了资源调度,任务协调,任务监控。
HDFS 服务功能
YARN 服务功能
离线计算框架 MapReduce
大数据开发过程离线和实时常用的技术框架简介
nutch爬虫取文本数据; 数据是半结构化数据;
flume准备日志数据
Scribe是Facebook开源的日志收集系统. 它能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理。想系统学习大数据的话,可以戳我加入大数据技术学习交流群,私信管理员即可免费领取开发工具以及入门学习资料
结构化数据由RDBMS(关系数据库管理系统)管理和存放在数据库,
sqoop可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中;
Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.
Mapreduce是主要操作逻辑和引擎, map是分配, reduce是合并;
HDFS是分布式文件存储系统
HBase快速存储, 快速响应查询
Jaql 是一个 JSON 的查询语言,用于简化 JSON 数据的建模和操作,主要用于分析大规模的半结构化数据。
Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。
mahout对数据进行分析; 我们要学习好如何使用好来分析; 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
针对上述的生态圈做一个简单的说明:
对于大数据开发的步骤,第一步当然是数据来源的来源,爬虫技术,mutch当然也可以使用诸如python的其他框架,公司中常用的还有通过前端接口收集,flume日志采集。采集到的数据入hdfs文件,第二步数据采集之后,需要日志解析,日志解析公司一般会自己开发,实现方式可以是mapreduce计算实现原始日志简单清洗和入库hive。第三步是日志分析,通过简单的sql可以实现对业务数据分析,简单的编写sql如hivesql,sparksql可以进行计划,如何实现任务流管理就需要用到oozie,数据的分析计算结果最后结果写入高性能,读写数据快的数据存储系统,例如关系型数据库mysql,sqlserver 或者HBase。以上基本的离线开发流程就。对于一些业务多维度的分析可能需要事先进行预计算比如使用kylin的cube。
对于实时的技术,一般的数据源是日志收集之后写入kafka,然后通过sparkStreaming或者Strom,现在比较流行的还有flink,这些框架都是基于内存去进行分布式计算,用空间换时间,达到实时的计算。
离线开发和实时开发系统架构说明
系统架构说明:
本系统架构基于真实的大数据平台构建:
基本的数据结构说明:
以下两张图是基于离线和实时的系统开发架构图:
离线系统架构图
实时系统架构图
大数据平台开发架构讲解相关推荐
- 大数据平台开发:大数据系统架构模块解析
企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台.而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划.今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个 ...
- Hadoop大数据平台开发与案例分析
关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...
- 【SDCC讲师专访】吕毅:链家网大数据平台的架构演进
2016年11月18日-20日,由CSDN重磅打造的年终技术盛会,SDCC 2016中国软件开发者大会将在北京举行,大会面向国内外的中高端技术人员,聚焦最前沿技术及一线的实践经验,从而助力企业的技术升 ...
- 企业大数据平台仓库架构建设思路
https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...
- 大数据平台基础架构指南
之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了.无耻的推广一下哈 :) 淘宝,JD都有现货,Amazon,搜书名 < 大数据平台基础架构指南 > 链接:https:/ ...
- 秋招面经第十一弹:沐瞳科技一面-大数据平台开发工程师
秋招第十一弹:沐瞳科技一面-大数据平台开发工程师 写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的 ...
- 大数据技术系列:图解【大数据平台开发】
导言 在前面的文章<「大数据技术体系」学习实践导览>中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据 ...
- 分享 | 企业大数据平台仓库架构建设思路
本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...
- 戮默科技:大数据平台开发运营 赋能企业智慧发展
随着5G.移动互联网.物联网.云计算等信息技术的发展,大数据在精准营销.教育.金融等领域有着越来越广泛的应用.深圳市戮默科技有限公司(以下简称戮默科技)旗下产品--大数据平台开发运营,正向大数据.云计 ...
最新文章
- deep_sort_face
- POJ2528线段树段更新逆序异或(广告牌)
- Netty源码分析--NIO(一)
- inputstream的大小为0_李太阳2020302期排列三推荐:本期两码看好0、3
- 阿里云RDS vs 自建MySQL,这篇评测终结你的选择困难症!
- java 泛型详解-绝对是对泛型方法讲解
- NH3.X与2.X使用上的一些区别
- 普通人学python有意义吗_学python难吗
- 深度学习笔记(35) 滑动窗口的卷积实现
- Web后端学习笔记 Flask(9)cookie and session
- 三目运算符的空指针问题
- 5. Mac phpstorm 快捷键
- 1一10到时的英文单词_[1-10的英语单词读音]1到10的英语单词
- 使用nodejs发送电子邮件
- python mysql插入数据报错:TypeError: %d format: a number is required, not str
- c语言速算24课程设计,C语言速算24数据结构课程设计.doc
- 朱子治家格言(清朝·朱柏庐)
- mysql rpm怎么用_linux下mysql(rpm)安装使用手册
- 同步电路和异步电路的区别
- fifo的rdata_FIFO的使用总结