企业大数据平台一:企业需求及相关的基本组件
企业大数据平台一:企业需求及相关的基本组件
标签(空格分隔): 企业大数据平台
- 企业大数据平台一企业需求及相关的基本组件
- 一企业需求
- 二基本组件
一,企业需求:
第一方面:
数据分析:
* MapReduce———Hive:离线分析
* Spark—实时(相对来说)
* 实时分析:Storm(毫秒级别) Spark Streaming(秒级别)
* 深度分析:机器学习,数据挖掘
第二方面:
数据存储–数据仓库–数据检索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES与Hbase集成)
二,基本组件:
1,zookeeper–分布式协作框架
应用:
*HDFS HA自动故障转移
*RM HA 自动故障转移
*Hbase架构
*Kafka集群
*Storm集群
*Solr Clouder 4.x&Solr 5.x
*Dubble
节点个数:2N+1
–小型集群:3个或者5个
–中型机器:5个或者7个
–大型机器:7个以上(奇数个)
脚本启动zookeeper集群:
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm
2,集群大小:
>>测试集群数量:5--10台机器
>>机器配置:
-----硬盘:4TB
-----内存:24G/32GB以上(100万文件--1G内存)
-----CPU和数:6核以上
-----网卡:万兆以上
>>生产集群:
--小型集群:20台一下
--中型集群:50台一下
--大型集群:50台以上
2,HDFS
–分布式文件系统
–NameNode
–DataNode
现在来说,对于企业中,无论是测试还是生产集群,一概配置HA
3,YARN(include MapReduce)–分布式集群资源管理和任务调度
NFS:将hdfs的目录挂载到本地文件系统
–slider:将已经存在的分布式应用框架运行在yarn上,并且进行监控管理
–NodeManage:配置每台机器能够分配给NM的资源
–队列:配置,以及资源划分
http://incubator.apache.org/projects/slider.html
hadoop cluster数据安全性(基于角色):
http://sentry.apache.org/
4,MapReduce
–分布式并行计算模型
–思想:分而治之
–执行流程,shuffle,WordCount阐述
–MapReduce 编程模板
企业大数据平台一:企业需求及相关的基本组件相关推荐
- hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议
2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...
- 企业大数据平台解决方案
近日,数智机器人科技发布了"数智大数据管理平台",融合了大数据.云计算.人工智能等先进技术,帮助企业实现数据快速接入,连接人员.业务.设备等,提供数据融合.数据分析.数据挖掘.数据 ...
- CM+CDH构建企业大数据平台系列(一)
问题导读: 1.CM是什么? 2.CDH是什么? 3.CM+CDH是什么? 4.什么是企业大数据平台? 5.如何用CM+CDH构建企业大数据平台? .......... 带着种种疑问让我们开启真正的企 ...
- 分享 | 企业大数据平台仓库架构建设思路
本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...
- 典型工业企业大数据平台解决方案(含数据治理)
一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...
- 企业大数据平台技术体系架构
2015年国务院向社会公布的<促进大数据发展行动纲要>明确提出了大数据的基本概念:大数据是以容量大.类型多.存取速度快.应用价值高位为主要特征的数据集合,正快速发展为对数量巨大.来源分散. ...
- 企业大数据平台仓库架构建设思路
https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...
- 十年磨一剑!SACC带你领略企业大数据平台实践优化!
[IT168 评论]十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长.10月17日,第十届中国系统架构师大会以"十年架构,成长之路" ...
- 从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台
来源:大数据杂谈 链接:https://470008.kuaizhan.com/50/97/p435773739434e6 本文系转载. 要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的 ...
最新文章
- JConsole的使用
- Opencv 基础 MatOfByte创建和byte数组
- hdu 3666 THE MATRIX PROBLEM 差分约束系统
- 【经典回放】多种语言系列数据结构线性表之二:链表
- 前端学习(2811):小程序学习之学习目录
- 计算机网络之数据链路层:14、局域网的基本概念
- Samba 和Shell Script 的应用
- Sublime Text + CTags + Cscope (部分替代Source Insight)
- 德媒:外景代替了现实 中国人拍婚纱照跑到很远地方
- python金融网课_Python金融数据分析
- 公司财务记账软件免费版下载地址
- TFS2010(Team Foundation Server)配置总结
- 物理系统——射线检测
- 计算机wifi无法打开,电脑中wifi设置网址无法打开的原因和解决方法
- IT项目验收规范参考
- Eclipse jdt 格式化java代码
- iPhone手机调试工具Safari
- NAS - 群晖NAS安装Jenkins
- 公司生活备忘录——兼乱弹中国古代思想
- UC提速游戏战略:分成3亿追击腾讯
热门文章
- 关于word转pdf功能实现
- Stearic acid-mPEG,mPEG-STA,甲氧基PEG-单硬脂酸,具有优异疏水性
- java下开源报表工具(JasperReport)调研记录
- DOTA 数据集:2806 张遥感图像,近 19 万个标注实例
- 程序员是如何泡妹子的
- DMV年度报告出炉:百度超Waymo获第一,接管率是不是自动驾驶“照妖镜”?
- 小试牛刀_浅谈AspNetPager在三层架构中的使用
- python factorial_Python factorial
- 什么是A类、B类、C类地址?
- 用matlab进行markov链预测,用MATLAB仿真markov链程序