1---项目概述  14

1.1  建设背景  14

1.1.1  集团已有基础  14

1.1.2  痛点及需提升的能力  14

1.1.3  大数据趋势  15

1.2  建设目标  15

1.2.1  总体目标  15

1.2.2  分阶段建设目标  16

1.3  与相关系统的关系  16

1.3.1  数据分析综合服务平台  16

1.3.2  量收系统  17

1.3.3  金融大数据平台  18

1.3.4  各生产系统  18

1.3.5  CRM  18

2---业务需求分析  24

2.1  总体需求  24

2.2  数据管理  25

2.2.1  数据采集  26

2.2.2  数据交换  26

2.2.3  数据存储与管理  26

2.2.4  数据加工清洗  27

2.2.5  数据查询计算  27

2.3  数据管控  28

2.4  数据分析与挖掘  29

2.5  数据展现  29

2.6  量收系统功能迁移  30

3---系统架构设计  31

3.1  总体设计目标  31

3.2  总体设计原则  31

3.3  案例分析建议  32

3.3.1  中国联通大数据平台  32

3.3.2  恒丰银行大数据平台  39

3.3.3  华通CDN运营商海量日志采集分析系统  51

3.3.4  案例总结  56

3.4  系统总体架构设计  57

3.4.1  总体技术框架  57

3.4.2  系统总体逻辑结构  60

3.4.3  平台组件关系  62

3.4.4  系统接口设计  67

3.4.5  系统网络结构  71

4---系统功能设计  73

4.1  概述  73

4.2  平台管理功能  73

4.2.1  多应用管理  73

4.2.2  多租户管理  77

4.2.3  统一运维监控  78

4.2.4  作业调度管理  97

4.3  数据管理  99

4.3.1  数据管理框架  99

4.3.2  数据采集  101

4.3.3  数据交换  104

4.3.4  数据存储与管理  105

4.3.5  数据加工清洗  123

4.3.6  数据计算  124

4.3.7  数据查询  139

4.4  数据管控  158

4.4.1  主数据管理  158

4.4.2  元数据管理技术  160

4.4.3  数据质量  163

4.5  数据ETL  170

4.6  数据分析与挖掘  172

4.6.1  数据分析流程  174

4.6.2  R语言开发环境与接口  175

4.6.3  并行化R算法支持  176

4.6.4  可视化R软件包  179

4.6.5  编程语言支持  181

4.6.6  自然语言处理和文本挖掘  181

4.6.7  实时分析  182

4.6.8  分析管理  182

4.6.9  分析支持  186

4.6.10  指标维护  186

4.6.11  分析流程固化  187

4.6.12  分析结果发布  187

4.6.13  环境支持  187

4.7  数据展现  188

4.7.1  交互式报表  190

4.7.2  仪表盘  195

4.7.3  即席查询  196

4.7.4  内存分析  197

4.7.5  移动分析  198

4.7.6  电子地图支持  198

5---技术要求实现  200 

5.1  产品架构  200

5.1.1  基础构建平台  203

5.1.2  大数据平台组件功能介绍  204

5.1.3  系统分布式架构  242

5.2  运行环境支持  244

5.2.1  系统操作支持以及环境配置  244

5.2.2  与第三方软件平台的兼容说明  245

5.3  客户端支持  246

5.3.1  客户端支持  246

5.3.2  移动端支持  246

5.4  数据支持  246

5.5  集成实现  248

5.6  运维实现  250

5.6.1  运维目标  250

5.6.2  运维服务内容  251

5.6.3  运维服务流程  253

5.6.4  运维服务制度规范  255

5.6.5  应急服务响应措施  256

5.6.6  平台监控兼容  256

5.6.7  资源管理  257

5.6.8  系统升级  259

5.6.9  系统监控平台功能  260

5.7  平台性能  268

5.7.1  集群切换  268

5.7.2  节点切换  270

5.7.3  性能调优  271

5.7.4  并行化高性能计算  276

5.7.5  计算性能线性扩展  279

5.8  平台扩展性  280

5.9  可靠性和可用性  282

5.9.1  单点故障消除  282

5.9.2  容灾备份优化  284

5.9.3  系统容错性  288

5.10  开放性和兼容性  290

5.10.1  高度支持开源  293

5.10.2  操作系统支持以及软件环境配置  305

5.10.3  兼容性与集成能力  306

5.11  安全性  307

5.11.1  身份鉴别  308

5.11.2  访问控制  308

5.11.3  安全通讯  314

5.12  核心产品优势  314

5.12.1  高速运算、统计分析和精确查询  314

5.12.2  有效的资源利用  316

5.12.3  高并发、低延迟性能优化  317

5.12.4  计算资源有效管控  318

5.12.5  API设计和开发工具支持  319

5.12.6  友好的运维监控界面  321

5.12.7  扩容、备份、恢复机制  325

5.12.8  集群自动负载均衡  327

5.12.9  计算能力扩展  327

5.13  自主研发技术优势  327

5.13.1  高稳定、高效的计算引擎Inceptor  328

5.13.2  完整的SQL编译引擎  329

5.13.3  高性能的SQL分析引擎  329

5.13.4  SQL统计分析能力  330

5.13.5  完整的CURD功能  331

5.13.6  Hyperbase高效的检索能力  332

5.13.7  基于Hyperbase和SQL引擎的高并发分布式事务334

5.13.8  Hyperbase非结构化数据的支持  335

5.13.9  机器学习与数据挖掘  335

5.13.10  Transwarp  Stream  339

5.13.11  内存/SSD/磁盘混合存储  341

5.13.12  MR/Spark/流处理统一平台  343

5.13.13  多租户支持能力  344

5.13.14  多租户安全功能  345

5.13.15  标准JDBC与ODBC接口  345

6---系统性能指标和测试结果说明  347  

6.1  性能测试报告  347

6.1.1  测试目标  347

6.1.2  测试内容  347

6.1.3  测试环境  347

6.1.4  测试过程和结果  349

6.2  TPC-DS测试报告  352

6.2.1  测试目标  352

6.2.2  测试内容  352

6.2.3  测试环境  354

6.2.4  测试过程和结果  355

6.3  量收迁移验证性测试报告  356

6.3.1  测试目标  356

6.3.2  测试内容  356

6.3.3  测试环境  357

6.3.4  串行执行情况  357

6.3.5  并行执行情况  359

6.3.6  生产表数据规模  360

6.3.7  测试结果  362

6.4  某银行性能测试报告  362

6.4.1  测试目标  362

6.4.2  测试内容  362

6.4.3  测试环境  362

6.4.4  测试过程和结果  363

7---系统配置方案  375

7.1  硬件系统配置建议  375

7.1.1  基础Hadoop平台集群配置规划  375

7.1.2  数据仓库集群配置规划  377

7.1.3  集群规模综述  379

7.1.4  开发集群配置建议  380

7.1.5  测试集群配置建议  380

7.2  软件配置建议  381

7.3  软硬件配置总表  382

7.4  网络拓扑  384

8---系统测试  385  

8.1  系统测试方法  385

8.2  系统测试阶段  386

8.3  系统测试相关提交物  387

9---项目实施  389 

9.1  项目实施总体目标  389

9.2  项目管理  389

9.3  业务确认  390

9.4  数据调研  391

9.5  系统设计阶段  392

9.6  集成部署阶段  393

9.7  ETL过程设计  393

9.8  ETL开发与测试  394

9.9  系统开发阶段  395

9.10  系统测试阶段  396

9.11  系统上线及验收  397

9.12  提交物  399

9.13  系统的交接与知识转移  401

10---项目管理  403  

10.1  项目总体管理  403

10.1.1  项目实施总流程  403

10.1.2  项目实施中各阶段的主要任务  403

10.1.3  项目组织架构  407

10.1.4  项目负责人及主要成员  412

10.1.5  项目管理制度  479

10.2  项目质量管理  482

10.2.1  范围  483

10.2.2  过程目标  483

10.2.3  角色与职责  483

10.2.4  过程活动  485

10.3  项目计划  488

11---安全保密  498

11.  安全保密  498

12---知识产权  500   

12.  知识产权  500

13---技术服务  501  

13.1  现场支持服务  501

13.2  标准售后技术服务  502

13.2.1  提供预防性维护  502

13.2.2  系统升级服务  503

13.2.3  系统性能优化  503

13.2.4  提供系统完整文档  503

13.2.5  定期系统健康检查服务  504

13.2.6  应急预案  505

13.3  承诺  505

13.3.1  我方对集团的承诺  505

13.3.2  关于开发队伍的承诺  505

13.4  技术保证  506

13.4.1  方案实用性保证  506

13.4.2  应用系统的运行能力的保证  506

13.4.3  预防性维护检修内容  506

13.4.4  服务响应  507

13.4.5  关于软件维护的保证  507

13.4.6  专业服务保证  508

13.4.7  售后服务流程及时限  508

14---人员培训  509 

14.1  Hadoop系统培训  510

14.2  业务使用培训  511

14.3  分析挖掘培训  512

14.4  运行维护培训  514

14.5  开发培训  515

14.5.1  培训目标  518

14.5.2  培训方式  519

14.5.3  培训资源  519

  扫一扫文章底部二维码,领取完整文档资料  

备注:博客

某集团大数据平台整体架构及实施方案相关推荐

  1. 【SDCC讲师专访】吕毅:链家网大数据平台的架构演进

    2016年11月18日-20日,由CSDN重磅打造的年终技术盛会,SDCC 2016中国软件开发者大会将在北京举行,大会面向国内外的中高端技术人员,聚焦最前沿技术及一线的实践经验,从而助力企业的技术升 ...

  2. 企业大数据平台仓库架构建设思路

    https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...

  3. 大数据平台基础架构指南

    之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了.无耻的推广一下哈 :) 淘宝,JD都有现货,Amazon,搜书名 < 大数据平台基础架构指南 > 链接:https:/ ...

  4. 移动大数据平台的架构、实践与数据增值(1)

    转转:感谢分享http://developer.51cto.com/art/201512/500294.htm APP是进入移动互联网的重要载体,故得到越来越多开发者的关注.打造APP,无论是开发.产 ...

  5. 移动大数据平台的架构、实践与数据增值

    吴磊,友盟公司数据平台负责人.目前主要负责Umeng移动数据分析平台的软件研发和系统架构.拥有10多年的软件开发经验,先后在大型通讯系统,通用搜索引擎以及海量数据分析等领域工作.在基础平台架构和海量数 ...

  6. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  7. 90页PPT | 金融大数据平台总体架构方案(附下载)

    今天给大家分享一下智慧金融行业的大数据平台总体架构是如何设计的,包括: 大数据分析平台综述 大数据分析平台总体架构 大数据分析平台演进路线 大数据分析平台实施重点 数据治理管理平台 里面设计的详细的架 ...

  8. 智慧金融大数据平台总体架构方案

    大家好,我是一哥,今天给大家分享一下智慧金融行业的大数据平台总体架构是如何设计的,包括: 大数据分析平台综述 大数据分析平台总体架构 大数据分析平台演进路线 大数据分析平台实施重点 数据治理管理平台 ...

  9. 独家解读!阿里首次披露自研飞天大数据平台技术架构

    9 月 26 日,阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布,这也是阿里首次对外披露飞天大数据平台的整体架构. 据介绍,飞天大数据平台由阿里自主研发,可扩展至 10 万台计算集群,是目前 ...

  10. 大数据平台开发架构讲解

    大数据背景 对于业务数据数据量的暴增,用户智能化需求提升.在这个DT的时代,大数据的开发也就应运而生了,大数据开发必须解决两个问题,大数据量如何统一存储,大数据量如何统一计算.针对这些问题产生了很多大 ...

最新文章

  1. python综合作业题目_python作业 1、2、3 题
  2. 【Flutter】Banner 轮播组件 ( flutter_swiper 插件 | Swiper 组件 )
  3. 开发ASP.NET Atlas服务器端Extender控件——基本概念以及预先需求
  4. 计算机常用的矢量图形文件,学位计算机考试2
  5. SQL2005的配置
  6. Lintcode--1(463)--整数排序
  7. oracle 查询表空间路径
  8. mysql隐藏information_如何让普通用户登录phpmyadmin不显示information_schema
  9. 如何在局域网搭建php网站,【自己网站搭建】如何使用本地计算机,建立本地网站?怎样才能让局域网上的人都能访问到我电脑上的本地网站?...
  10. 蓝桥杯 ADV-66算法提高 阮小二买彩票
  11. 游戏筑基开发之动态数组(C语言)
  12. 11.并发编程--同步类容器和并发类容器
  13. React native 分享 友盟分享SDK
  14. 船务公司简称与缩写一览表
  15. 概率论中的不等式(Markov不等式、Chebyshev不等式、Jensen不等式)
  16. Bugzilla的快速入门指南(全网最详细)
  17. 分享100个精美的作品集网站设计案例
  18. java meta-inf作用_java - META-INF的目的是什么?
  19. 前端自动化构建工具:用Gulp4.0搭建一个基本的前端开发环境
  20. img标签插入图片的方法

热门文章

  1. 哈理工oj 1006 River Hopscotch
  2. svpwm的matlab模型,svpwm的MATLAB仿真实现(转载)
  3. 好工具推荐系列:Github客户端GitHub Desktop使用方法
  4. 通讯录_通讯录拦截防爆
  5. python斗地主游戏源码_Java写的斗地主游戏源码
  6. C语言编程题:求一元二次方程组的根
  7. Pr 电影中常见的回忆效果
  8. python ddos_python 检查是否存在ddos攻击
  9. 如何使用速问速答求解一元二次方程
  10. 修改hosts文件,解决端口占用方法