大数据开发:基于Hadoop的数据分析平台
互联网的发展,带来了各种数据的爆发式增长,所以接入互联网的相关操作行为,都化为虚拟的数据被记录了下来。大数据时代的带来,一个明显的变化就是全样本数据分析,面对TB/PB级及以上的数据规模,Hadoop始终占据优势。今天的大数据学习分享,我们来聊聊基于Hadoop的数据分析平台。
Hadoop在大数据技术生态圈的地位,可以说是难以动摇,经过这么多年的发展,基础核心架构的地位,依然稳固。Hadoop系统的可伸缩性、健壮性、计算性能以及低成本,使得它事实上已成为当前互联网企业主流的大数据分析平台。
基于Hadoop平台,可以根据实际的业务需求,来进行数据系统的规划和设计。针对不同的具体需求,采用不同的数据分析架构来解决实际问题。
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。
在Hadoop生态圈,这些需求可以进行合理的规划。对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。
主流的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
另外,按照大数据的数据量,分为内存级别、BI级别、海量级别三种,也需要分别考量,采取合适的方案。
这里的内存级别指的是数据量不超过集群的内存最大值,通常可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。在这方面,MongoDB的应用很普遍。
BI级别指的是那些对于内存来说太大的数据量,主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。在这类场景下,Hadoop无疑是就是低成本的高效解决方案了。
总之,在大数据的发展当中,Hadoop始终占据着重要的位置,掌握Hadoop技术,是进阶大数据的基础门槛。
大数据开发:基于Hadoop的数据分析平台相关推荐
- 基于Hadoop的数据分析平台搭建
企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品.除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘 ...
- 数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师的工资薪水到底怎么样?
据最新发布的<大数据人才报告>显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万. 领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺.数据 ...
- hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop
点击蓝字关注我 1 什么是大数据 1.Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2.主要解决,海量数据的存储和海量数据的分析计算问题. 3.广义上来说,HADOOP通常是指一个 ...
- 《大数据基础——基于Hadoop与Spark》课后习题——第一章部分答案
仅用于我个人的学习.书籍为人民邮电出版社的<大数据技术基础--基于Hadoop与Spark>.课后习题选择是我个人认为有用的.记录下来是为了督促我学习:) 共好 1.请指出以下术语的基本含 ...
- 搭建大数据开发环境-Hadoop篇
前期准备 操作系统 hadoop目前对linux操作系统支持是最好的,可以部署2000个节点的服务器集群:在hadoop2.2以后,开始支持windows操作系统,但是兼容性没有linux好.因此,建 ...
- 一文读懂大数据平台——写给大数据开发初学者的话!
一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...
- 大数据与数据分析:大数据开发岗和分析岗对比
近几年的大数据,确实在行业当中得到越来越多的重视,越来越多的企业开始成立数据业务部门,针对企业不断累积起来的数据资产,进行价值挖掘和应用.对于企业而言,大数据相关人才的引进,有大数据开发,也有数据分析 ...
- 写给大数据开发初学者的话 | 附教程
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 ...
- 写给大数据开发初学者的话
PS:原文分为五个章节,这里直接合并为一篇文章,原文地址:http://lxw1234.com/archives/2016/11/779.htm 经常有初学者在博客和QQ问我,自己想往大数据方向发展, ...
最新文章
- JavaHelp软件的一个定制实用程序类
- 医疗安全监控与检测平台WattsUpDoc
- 【深度学习】基于PyTorch的模型训练实用教程之数据处理
- Angular HTML template的解析位置
- 敏捷需要重构吗?不需要吗?
- LeetCode 15 二进制中1的个数
- “全息数字人”——健康医疗 大数据应用的新模式
- JavaScript 触发click事件 兼容FireFox,IE 和 Chrome
- C语言输入密码为6位,C语言中如何实现输入密码?(在输入时显示为*号.)
- 安装vc6出现couldn't find acme setup的解决办法
- 关于轩微电子ADS1256+stm32f103开发板的一点使用小tip
- 【Unity】Jay 开发日志(五)——主菜单的创建
- vue 做登陆页面 ( 登陆成功后去掉注册和登陆按钮 显示用户名)
- java网络编程技术有哪些_Java网络编程技术
- 史上讲解最好的Docker教程,从入门到精通(建议收藏的教程)
- 又一个奇葩要求,看看Python是如何将“中文”转“拼音”的?
- 同时在写四门编程语言是怎样一种体验?
- EF_85mm_1.2L_II_USM拆机电路板靓图
- 神奇的 CSS,让文字智能适配背景颜色
- IdentityServer4实战详解