大数据的完整解决方案和体系化
大数据的完整解决方案和体系化
[日期:2014-11-25] | 来源:人月神话的新浪博客 作者:人月神话 | [字体:大 中 小] |
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容。前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容。对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化。
对传统BI的改进
大数据对传统BI的改进不仅仅是数据类型增加,如半结构化和非结构化数据,而更多的是实时性的改进。传统的BI方式,如果基于ETL-》ODS-》DW的思路基本无法解决BI分析的实时性问题。数据量大,海量数据传统BI就有,不是新问题。特别是结构化数据,再海量也是有一个度,非结构化数据则膨胀和存储量都很大,需要考虑数据分布式,同时数据分布式后带来的关键问题就是数据分析的实时性问题。这里的实时性不仅仅是从ODS和DW进行分析查询的速度,更多的是在业务事件产生后实时分析的速度。
对于非结构化数据,考虑的是索引数据的结构化,指标体系或计算规则的结构化,而不是所有非结构化数据的全部结构化。那么在这种模式下,传统BI的数据仓库和建模策略同样带来变化。指标体系本身并没有变化,但是从指标体系根据业务需求检索和分析数据的过程变化了。
对数据中心的影响
传统的数据中心我们已经谈到基于ODS来建立一个共享数据服务平台。ODS核心目标是建立共享数据服务,数据本身通过各种数据服务提供,数据完全开放出来不仅仅是为DW提供服务,而面向更多的业务系统。数据本身不落地而且经过转换和清洗,这是和传统的数据交换平台的差异。
ODS存放的不仅仅是MDM主数据,还包括了核心动态数据,这些动态数据的特点就是跨多个业务系统共享。这种共享和数据不落地解决的最大问题就是传统数据交换下带来的数据多点复制和不一致的问题。在谈到大数据的时候,带来的改变是大数据平台除了结构化数据外,需要包括非结构化数据等各种异构数据,那么大数据平台应该有一个共享的数据服务层,整合底层各种异构数据,提供数据共享服务。要知道用户并不关心数据的结构,也不关心数据的物理存储。
ESB总线和大数据的关系
在谈大数据的时候,ESB总线更多体现的是数据服务。对于数据采集不一定是通过ESB数据集成方式进行,但是数据服务本身的提供可以接入到ESB总线,提供统一的数据服务。大数据提供统一的大数据视图,而ESB提供大数据服务目录,提供统一的大数据目录视图。ESB不仅仅是数据集成,更多的是提供大数据服务目录库和统一服务视图。ESB在大数据整个架构体系不是必须,特别是偏重的ESB总线,这点要注意。
大数据和数据分析层次
在谈BI的时候我们会谈到数据分析的层次,包括了报表应用,专题分析,预测分析,实时反馈和动态智能几个方面的内容。对于后面两个可以作为大数据应用的高级层次。
在谈大数据的时候,很重要的一个价值就是快速,快速的响应分析并动态提供智能决策信息。在数据量大和数据结构复杂后这个问题更加难以解决。前面谈到过 EDA和CEP复杂事件处理,在大数据高级层次必须要考虑,数据初始化处理无法实时,但是对于关键事件增量信息完全可以基于EDA和消息技术提供一种准实时。数据推送实时了还不够,大量数据分析还得快,两者结合才可能实现动态智能。
分析模式和分析技术的问题
我们谈大数据分析的时候将更多的关注点放在了分析技术上,如分布式存储,mapreduce分布式计算,hive数据分析聚合等。但是当谈大数据的时候,分析模式比分析技术更加重要,分析模式是面对不同的业务场景和大数据问题时最难的一个地方。
当我们逛商场或网店的时候,应该如何实时推送相关针对性营销信息?当我们监控电信运营网络的时候,如何根据采集的数据实时的诊断网络健康状况和预警?在这里面都是不同的分析模式,包括模式语言,也包括各种规则引擎,具体分析模式由于在引入了非结构化数据,考虑实时性后分析模式会出现大变化,这个后面专门来谈,但是个人感觉是大数据分析的新重点考虑内容。
大数据的完整解决方案和体系化相关推荐
- 星辰天合联合星环科技完成互认证 共同打造更有生命力的大数据存算解决方案
近日,北京星 辰天合科技股份有限公司(简称: XSKY星辰天合)的 XGFS 产品完成了与星环信息科技(上海)股份有限公司(简称: 星环科技)的 TDH.ArgoDB.KunDB 等产品的互认证,共同 ...
- 上海轨道交通车辆智能运维系统: 大数据+人工智能科技解决方案解决地铁运维新难题 |百万人学AI评选
2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...
- .NET 大数据量并发解决方案
.NET 大数据量并发解决方案 目录 .NET 大数据量并发解决方案 第一类情况 :大量的用户同时对系统的不同功能页面进行查找.更新操作 一.对服务器层面的处理 二.对数据库层面的处理 三.ADO.N ...
- 周末去哪儿架构师跟你聊:大数据平台快速解决方案
内容来源:2017年5月13日,周末去哪儿架构师李锡铭在"Java开发者大会 | Java之美[上海站]"进行<大数据平台快速解决方案中>演讲分享.IT大咖说作为独家视 ...
- 问道崂山 2018·中国(青岛)大数据应用与解决方案高峰论坛圆满落幕
12月6日-7日,"2018问道崂山·中国(青岛)大数据应用与解决方案高峰论坛-暨首届大快搜索合作伙伴生态系统大会&开发者技术沙龙"在青岛海天大剧院酒店成功举办.本次高峰论 ...
- apache atlas 案例_大数据元数据开源解决方案apache atlas
[实例简介] 大数据元数据开源解决方案apache atlas,提供数据治理,元数据管理等功能 [实例截图] [核心代码] apache-atlas-1.1.0-sources.tar └── apa ...
- spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网
资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...
- 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...
- 智慧旅游大数据平台建设解决方案
202x年智慧旅游大数据平台建设解决方案(专业完整版).docx-Actionscript文档类资源-CSDN下载
最新文章
- Prima Cartoonizer中文版
- 给初学者们讲解人工神经网络(ANN)
- Github GUI 托管代码教程
- 本地计算机上的服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止 解决办法...
- activity 的返回按钮
- 如何使用js判断视频是否可以成功访问
- window多台服务器文件同步,SyncToy 两台Windows电脑文件同步
- 大华相机抓图时间及最小时间间隔的测试
- android极光推送回调方法,Flutter在Android中实现极光推送以及指定设备推送
- 解决vs2008安装问题 Office 2007 Microsoft Visual Studio Web 创作组件 安装失败
- 学习51单片机之前需要的基础学科
- 三月写给沉默王二的一封道歉信
- 得物购买截图生成_iPhone12订单生成器app-iPhone12订单生成器网页app免费版预约 v1.0...
- sudo apt-get update 时遇签名过期错误 “The following signatures were invalid”
- euecwglupnwydnp
- 程序是怎么跑起来的——虚拟内存与动态链接
- MyBatis的Dao层实现方式
- SVM——(三)对偶性和KKT条件(Lagrange duality and KKT condition)
- 血泪!pyinstaller打包文件过大的解决方法
- 使用费曼技术更快地学习任何东西 【翻译】
热门文章
- Creating a new SqlSession异常
- android中service名词解释,Android中Service(服务)详解
- 《SolidWorks 2012中文版从入门到精通》一6.1 库特征
- BMCC摄像机ProRes编码的MOV视频文件损坏修复
- 最新出炉!java堆排序图解
- CAS-KG——实体识别
- 关于市级资助系统资助学生签名上传方法
- “非法“走线寝室自制智能NFC门禁
- JS 计算外出办事时间(按照一天工作八小时制)
- [2019 ICRA] Uncertain-Aware Path Planning for Navigation on Road Networks Using Argumented MDPs