我的大数据之路(一)-数据仓库也需要大数据
一、楔子
大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。
二、项目背景
最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发现,原来二者并不矛盾。
三、数据仓库与操作数据库
数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。
数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:
1)用户系统的面向性:客户与市场;
2)数据内容:当前与历史;
3)数据库设计:ER与面向主题
4)视图:当前与全景
5)访问模式:原子事务与只读操作
传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。
四、大数据的位置
数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。
1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题
2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。
3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。
五、遗留问题
大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...
如果你准备入行大数据,关于2019大数据目前的【发展前景】【就业岗位】【大数据薪资待遇】【完整的学习线路】,您都了解了吗?关注微信公众号itdaima获取更多的大数据学习资料
我的大数据之路(一)-数据仓库也需要大数据相关推荐
- 卷皮网大数据之路-《猫友会大数据系列分享》
猫友会希望建立更多高质量垂直细分社群,本次是"大数据学习交流付费群"的第一次分享. "大数据学习交流付费群"由猫友会联合,斗鱼数据平台总监吴瑞诚,卷皮BI技术总 ...
- 五年数字大屏之路,“述说”着我们大数据变现怎样的故事?(附演示视频)...
这是傅一平的第303篇原创 作者:傅一平 个人微信:fuyipingmnb "与数据同行"开通了微信群,现已汇聚了1500位小伙伴了,加我为微信好友(微信号:fuyipingmnb ...
- python问题中国五城市pm2.5_数据之路- 中国五城市PM2.5数据解读
PM2.5大家一定都不会陌生,特别是在北京生活的小伙伴们.PM2.5是指大气颗粒物(PM),其直径小于或等于2.5微米.在环境科学中,特指悬浮在空气中的固体颗粒或液滴,是空气污染的主要来源之一. 本文 ...
- 数据仓库进阶 《阿里大数据之路》第二篇 数据模型篇 (完整版)
第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...
- 数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇
第8章 大数据领域建模综述 此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下: 视频:[一起啃书]阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili ...
- 浅谈一个新人的大数据之路
CCCCCold丶大数据之禅 第一章,大数据之路浅谈 数仓&数据集市&数据湖 数据模型 模型ETL频率: 模型存储技术: 模型数据分层: 模型架构分层: 模型主题域: 模型创建类型: ...
- 阿里巴巴大数据之路读书分享
阿里巴巴大数据之路读书分享 文章目录 阿里巴巴大数据之路读书分享 前言 阿里巴巴大数据系统的体系架构图及介绍 数据采集层 数据采集 数据传输 数据计算层 离线数据开发 实时数据开发 数据服务层 数据应 ...
- 大数据平台搭建_一文读懂数据平台、大数据平台、数据中台
作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...
- “全国十大热门上班路”出炉,北京西二旗、后厂村路热度最高
本文转载自 姚科技 近日,高德地图联合国家信息中心大数据发展部.清华大学戴姆勒可持续交通联合研究中心等权威机构共同发布<2020年度中国主要城市交通分析报告>(简称<报告>). ...
- 数据仓库,数据集市,数据孤岛,数据湖,数据中台
数据仓库,数据集市,数据孤岛,数据湖,数据中台 文章目录 数据仓库,数据集市,数据孤岛,数据湖,数据中台 1.数据仓库 2.数据集市 3.数据孤岛 4.数据湖 5.数据中台 1.数据仓库 定义:数据仓 ...
最新文章
- Java编程 的动态性,第 2部分: 引入反射--转载
- Microsoft SharePoint Portal Server 2003 订制开发研讨(流水帐)
- Blanket PO(总括订单)
- 修改lastpass主密码后需重启firefox才能加载已保存的站点密码或用导入工具
- win10修改服务器地址,win10 修改服务器地址
- 静态代码和动态代码的区别_无代码和低代码有哪些区别
- ES6高级使用技巧(reduce,filter篇)
- UICollectionViews有了简单的重排功能
- html分级显示的下拉列表,javascript实现在下拉列表中显示多级树形菜单的方法
- springmvc跳转到自定义404页面的三种方法
- CTPN论文翻译——中文版
- xmake中add_files的使用
- Lwip之PPP、PPPoE实现(一)
- shader拖尾_拖尾效果 - LouisSong - 博客园
- 乐学成语(HappyIdiom)
- 第十九期基金定投-价值股又有起飞的迹象了
- Dell服务器IPMI工具远程唤醒开机
- 数据库考研真题回忆版
- 帝国理工学院的计算机专业怎样,帝国理工学院计算机专业介绍
- PTS Dongle (BLE Only)实现广播
热门文章
- WDS+ADK+MDT部署Windows pxe
- 【软件工程】软件测试报告——软件测试说明书
- 打算开源一个低代码平台,第二天,包含【工作流,业务流,财务,APQC】。技术站 React,typescript,java,mysql
- 利用python中的pygame模块开发fc坦克大战(可自定义地图,包括部分素材)
- ug冲模标准件库_ug标准件库免费
- 教你一招,如何使用抓包工具轻松获取微信文章数据!
- 老罗锤子手机公布会,我感到深深地愧疚
- 安卓系统刷机怎么刷机_手机怎么刷机
- python汉化包放哪_python环境搭建和pycharm的安装配置及汉化(零基础小白版)
- 《FLUENT 14流场分析自学手册》——1.5 湍流模型