企业大数据平台一:企业需求及相关的基本组件

标签(空格分隔): 企业大数据平台


  • 企业大数据平台一企业需求及相关的基本组件

    • 一企业需求
    • 二基本组件

一,企业需求:

第一方面:
数据分析:
* MapReduce———Hive:离线分析
* Spark—实时(相对来说)
* 实时分析:Storm(毫秒级别) Spark Streaming(秒级别)
* 深度分析:机器学习,数据挖掘

第二方面:
数据存储–数据仓库–数据检索
*HDFS
*Hive
*Hbase
*搜索–Nutch,Lunece,Solr,ES(ES与Hbase集成)

二,基本组件:

1,zookeeper–分布式协作框架
应用:
*HDFS HA自动故障转移
*RM HA 自动故障转移
*Hbase架构
*Kafka集群
*Storm集群
*Solr Clouder 4.x&Solr 5.x
*Dubble

节点个数:2N+1
–小型集群:3个或者5个
–中型机器:5个或者7个
–大型机器:7个以上(奇数个)

脚本启动zookeeper集群:
http://wenku.baidu.com/link?url=B7y1zkxuuPtj__S2UQYT-zUAGgZU_21yqGCE8OL35y8KvKiJXs7Te826sx1EShWHrBcNH1V80rucpfsed6j_fVZQNT4uoncO8wcCgloTTxm
2,集群大小:
>>测试集群数量:5--10台机器
>>机器配置:
-----硬盘:4TB
-----内存:24G/32GB以上(100万文件--1G内存)
-----CPU和数:6核以上
-----网卡:万兆以上

>>生产集群:
--小型集群:20台一下
--中型集群:50台一下
--大型集群:50台以上

2,HDFS
–分布式文件系统
–NameNode
–DataNode

现在来说,对于企业中,无论是测试还是生产集群,一概配置HA

3,YARN(include MapReduce)–分布式集群资源管理和任务调度

NFS:将hdfs的目录挂载到本地文件系统

–slider:将已经存在的分布式应用框架运行在yarn上,并且进行监控管理
–NodeManage:配置每台机器能够分配给NM的资源
–队列:配置,以及资源划分

http://incubator.apache.org/projects/slider.html
hadoop cluster数据安全性(基于角色):
http://sentry.apache.org/

4,MapReduce
–分布式并行计算模型
–思想:分而治之
–执行流程,shuffle,WordCount阐述
–MapReduce 编程模板

企业大数据平台一:企业需求及相关的基本组件相关推荐

  1. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

  2. 企业大数据平台解决方案

    近日,数智机器人科技发布了"数智大数据管理平台",融合了大数据.云计算.人工智能等先进技术,帮助企业实现数据快速接入,连接人员.业务.设备等,提供数据融合.数据分析.数据挖掘.数据 ...

  3. CM+CDH构建企业大数据平台系列(一)

    问题导读: 1.CM是什么? 2.CDH是什么? 3.CM+CDH是什么? 4.什么是企业大数据平台? 5.如何用CM+CDH构建企业大数据平台? .......... 带着种种疑问让我们开启真正的企 ...

  4. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  5. 典型工业企业大数据平台解决方案(含数据治理)

    一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...

  6. 企业大数据平台技术体系架构

    2015年国务院向社会公布的<促进大数据发展行动纲要>明确提出了大数据的基本概念:大数据是以容量大.类型多.存取速度快.应用价值高位为主要特征的数据集合,正快速发展为对数量巨大.来源分散. ...

  7. 企业大数据平台仓库架构建设思路

    https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...

  8. 十年磨一剑!SACC带你领略企业大数据平台实践优化!

    [IT168 评论]十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长.10月17日,第十届中国系统架构师大会以"十年架构,成长之路" ...

  9. 从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

    来源:大数据杂谈 链接:https://470008.kuaizhan.com/50/97/p435773739434e6 本文系转载. 要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的 ...

最新文章

  1. JConsole的使用
  2. Opencv 基础 MatOfByte创建和byte数组
  3. hdu 3666 THE MATRIX PROBLEM 差分约束系统
  4. 【经典回放】多种语言系列数据结构线性表之二:链表
  5. 前端学习(2811):小程序学习之学习目录
  6. 计算机网络之数据链路层:14、局域网的基本概念
  7. Samba 和Shell Script 的应用
  8. Sublime Text + CTags + Cscope (部分替代Source Insight)
  9. 德媒:外景代替了现实 中国人拍婚纱照跑到很远地方
  10. python金融网课_Python金融数据分析
  11. 公司财务记账软件免费版下载地址
  12. TFS2010(Team Foundation Server)配置总结
  13. 物理系统——射线检测
  14. 计算机wifi无法打开,电脑中wifi设置网址无法打开的原因和解决方法
  15. IT项目验收规范参考
  16. Eclipse jdt 格式化java代码
  17. iPhone手机调试工具Safari
  18. NAS - 群晖NAS安装Jenkins
  19. 公司生活备忘录——兼乱弹中国古代思想
  20. UC提速游戏战略:分成3亿追击腾讯

热门文章

  1. 关于word转pdf功能实现
  2. Stearic acid-mPEG,mPEG-STA,甲氧基PEG-单硬脂酸,具有优异疏水性
  3. java下开源报表工具(JasperReport)调研记录
  4. DOTA 数据集:2806 张遥感图像,近 19 万个标注实例
  5. 程序员是如何泡妹子的
  6. DMV年度报告出炉:百度超Waymo获第一,接管率是不是自动驾驶“照妖镜”?
  7. 小试牛刀_浅谈AspNetPager在三层架构中的使用
  8. python factorial_Python  factorial
  9. 什么是A类、B类、C类地址?
  10. 用matlab进行markov链预测,用MATLAB仿真markov链程序