“大数据”的概念要从两个层面去理解,一层是企业创造的海量规模的结构化、半结构化和非结构化数据,麦肯锡给这些数据定义了四大特征:具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低;另一层含义是指随之产生的大数据处理技术—云计算,只有依托于分布式处理、分布式数据库和云存储等IT工具的应用,才能最大化发挥大数据业务价值。

“数据仓库”最早是由决策支持系统(dss)演变而来,在90年代末形成成熟的理论(Bill Inmon的《建立数据仓库》和Ralph Kimball的《数据仓库的工具》)和架构体系(CIF架构),它通过抽取企业数据进行集成、组织、管理、分析,为业务员和高管提供管理决策服务。

普罗大众对大数据的理解通常包含了【海量数据+处理技术+平台工具+场景应用】,而对数据仓库的理解是一个数据开发过程、或者是一个数据建设工程,它的“传统”更多体现在开发工具落后时代、处理对象单一、应用场景保守方面;下面从几个维度来讲下“大数据”与“传统数仓”的差别:

1、商业价值

相同点是无论“大数据”项目还是“传统数仓”项目,一般都是业务驱动,有明确的业务场景需求,通过海量数据分析和挖掘规律为业务提供决策依据,并且都能基于数据价值开发出新的业务模式,真正实现数据变现的商业价值;

不同点是“传统数仓”技术诞生比较早,且只有实力强盛的大型企业会建设数仓,为企业业务运营和内部流程管理提供数据支持,应用场景相对保守单一;而“大数据”是在互联网信息大爆炸和大数据开源工具趋近成熟背景下产生的,互联网巨头的商业成功唤醒了更多中小型企业的大数据意识,并且丰富的开源工具和廉价的云计算服务让中小企业甚至是普通人都具备了大数据开发和应用的可能,所谓人多力量大各种业务需求促进了大数据场景应用发生急剧裂变,诞生了诸如金融领域自动授信、电商领域千人千面、交通领域网约车等新型业务形态,其产生的商业价值较传统数仓而言早已不是一个量级。

2、处理对象

相同点是二者处理对象都是数据,甚至在处理流程上也是围绕着数据获取、数据加工、数据管理、数据治理、数据应用服务展开,几无二致;

不同点是“大数据”技术相对“传统数仓”处理的数据类型更加多样化,比如“传统数仓”基本只擅长处理结构化或半结构化数据,而“大数据”技术除了结构化、半结构化数据外,还能处理非结构化数据,这在IOT万物互联时代显得尤为重要。

3、生产工具

相同点是二者都是围绕数据开发和应用过程提供了与之适配的工具产品,基本上每个数据处理阶段都能找到二者一一对应的产品,比如数据清洗IBM提供了datestage,而Apache开源工具提供了kettle;数据计算和存储Teradata提供了具备大规模并行处理MPP架构的TD数据库,而Apache开源了分布式处理技术的Hadoop和spark框架等等;

不同点是“传统数仓”一般都是采购国外知名厂商的大型服务器和成熟解决方案,价格昂贵可拓展性较差,而且平台工具与其它厂商极难适配,用户操作体验比较差、开发效率不高;而“大数据”技术由于开源了成套的技术框架和组件,同时先进大数据服务商还能提供一站式数据开发流程的SaaS型产品来补充开源工具“难用”的问题,在产品形态和交互体验上较传统厂商的产品有了较大幅度的提升;

4、建设方法

相同点“大数据”技术主要沿用了“传统数仓”的数据建设理论,包括逻辑架构、数据建模、数据治理、数据标准规范基本与传统数仓保持一致;

不同点是“大数据”技术处理数据的对象新增了非结构化数据,生产工具上新增了流式计算,这些还没有非常清晰明确的方法论指导建设;同时,“大数据”技术背景下,开始出现新的方法论萌芽和探索现象,比如适应互联网企业的数据建模方法论OLP建模法,“人物场景”的标签设计方法、“上帝视角”等理论;其次,“大数据”技术因为提供了海量数据和廉价计算成本,为人工智能特别是机器学习提供了可能,而这些是“传统数仓”或“BI商业智能”无法达到的高度;

综上,“大数据”技术是在“传统数仓”基础上发展而来,绝大部分数据建设理论仍然是一脉相承,它们处理的对象都是“海量数据”,服务目的和商业价值也基本相同;但“大数据”技术又在产品创新、高性能、低成本、拓展性、场景多样性等方面取得了巨大突破,更是让只有大型企业玩得转的大数据项目可以“平民化”从而推进商业形态朝前进化

大数据与传统数仓的区别?相关推荐

  1. 大数据基础知识——数仓的搭建(维度建模)

    数据仓库 文章目录 数据仓库 数据仓库的介绍: 数据仓库的概念: OLTP和OLAP区别: 数据仓库的特点: 面向主题: 数据集成: 非易失: 时变: 数据仓库系统架构 系统结构图 源数据 ETL 数 ...

  2. 企业大数据平台下数仓建设思路

    免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统 ...

  3. 大数据项目离线数仓(全 )一(数据采集平台)

    搭建用户行为数据采集平台.搭建业务数据采集平台.搭建数据仓库系统.制作可视化报表 本篇博客包括搭建用户行为数据采集平台.搭建业务数据采集平台 搭建数据仓库系统在大数据项目离线数仓(全 )二 制作可视化 ...

  4. 大数据面试题--数仓

    目录 数据仓库理论 数据分层 E T L 星形模型与雪花模型的区别? 维度建模(dimensional modeling): 数据仓库项目最重要或需要注意的是什么,以及如何处理? 关系建模与维度建模 ...

  5. 大数据-案例-离线数仓-在线教育:MySQL(业务数据)-ETL(Sqoop)->Hive数仓【ODS层-数据清洗->DW层(DWD-统计分析->DWS)】-导出(Sqoop)->MySQL->可视化

    一.商业BI系统概述 商业智能系统,通常简称为商业智能系统,是商业智能软件的简称,是为提高企业经营绩效而采用的一系列方法.技术和软件的总和.通常被理解为将企业中的现有数据转换为知识并帮助企业做出明智的 ...

  6. 大数据平台及数仓的通用架构和技术体系

    一.大数据架构技术体系 1 数据传输层 Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL.SQLServer.Oracle)的数据到HDFS. Canna ...

  7. 大数据项目离线数仓(全 )二(数仓系统)

    本文仅仅包含数据仓库系统的搭建,其他内容请关注我的博客!在<项目>专栏里!!! 本篇文章参考尚硅谷大数据项目写成! 目录 一.数据仓库系统 1.1基础概念 1.1.1数据分层的好处 1.1 ...

  8. 大数据开发之数仓建模

    目录 简介 1.什么是数据模型? 2.为什么需要数据模型? 3.如何建设数据模型? 简介 每个行业都有自己的模型,但不难发现,在数据建模的方法上,它们都有着共通的基本特点. 文章主要分以下几个方面来简 ...

  9. 大数据项目之数仓相关知识

    第1章 数据仓库概念 数据仓库(DW): 为企业指定决策,提供数据支持的,帮助企业,改进业务流程,提高产品质量等. DW的输入数据通常包括:业务数据,用户行为数据和爬虫数据等   ODS:  数据备份 ...

  10. 大数据之CDH数仓(19) | 测试之集群资源管理

    CM提供了众多的资源KPI指标,以及丰富的可视化的资源分配.运维和监控界面.运维人员能在单一管理界面配置.监控和导出实时的系统集群资源状态.管理规则以及分用户.任务的使用状况. CDH 以及 CM 能 ...

最新文章

  1. [ShapeInferenceError] Mismatch between number of source and target dimensions. Source=1 Target=0
  2. 图像处理中的傅里叶变换和频率域滤波概念
  3. 个人空间风格模版php,ThinkPHP 模板布局
  4. Java编程技巧之样板代码
  5. RSA加密算法【手把手解释】
  6. 班尼路信息化系统基础选型的简单分析
  7. 04、自学——计算机网络学习任务与进度(物理层)
  8. 数据库索引 类型 (转载)
  9. 将“早期版本的Windows”改名
  10. 2020-11-26
  11. Matlab晶闸管单相全桥电路仿真
  12. mysql 触发器 实例
  13. 热传导问题的matlab计算,热传导问题的MATLAB数值计算
  14. 汇通达网络IPO取发行区间下限定价,多家投资方将出现账面亏损
  15. 俄亥俄州立大学计算机科学转学成功,录取捷报|努力定有回报,斩获俄亥俄州立计算机转学录取...
  16. 图像尺寸与Rect适配
  17. “仅三天可见” 的朋友圈有方法破解啦!
  18. java加密常用的方法_JAVA MD5 加密常用 方法
  19. 机器学习作业-FOGS: 基于学习图的一阶梯度监督交通流预测
  20. 解析mp3文件,获得mp3中的专辑图片

热门文章

  1. 用DIV+CSS技术设计的网上书城网页与实现制作(大一Web课程设计)
  2. android+汉王手写引擎,汉王 从手写专家到输入法专家
  3. retroarch游戏模拟器使用
  4. 【ParaView教程】第四章 常见问题 —— 在ParaView中怎样对一组数据做处理?
  5. java下载天地图数据,天地图离线地图,可指定经纬度范围
  6. 跳过 Xcode 下载 iOS 模拟器
  7. 服务器固态硬盘接口类型,固态硬盘接口都有哪些类型
  8. SECS/GEM协议开发系列(四)SECS/GEM基础知识
  9. excel 自定义参数(text函数)
  10. 地理信息安全在线培训考试系统题库-多选题