点击查看全文

我们谈论了很多关于复杂数据及其为你的商业智能带来的挑战和机遇,但是导致数据复杂化的是什么呢?

以及你如何区分你的公司当前的数据是否是“复杂的”,亦或不久的将来会变得复杂?本文将解决这些问题。

为什么这很重要?

当你试图将数据转化为商业价值时,它的复杂度很可能会预示你将面对的困难程度——复杂数据的准备和分析通常要比简单数据更加困难,以及通常需要一组不同的BI 工具来实现。复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作和数据模型。因此重要的是,通过了解您目前的数据的复杂程度以及它在未来的复杂性趋向,来评估您的大数据/商业智能项目是否能够胜任这一任务。

简单测试:大数据或者异构数据

在高级层面上,有两种基本的迹象表明你的数据可能被视为是复杂的:

你的数据很“大”:我们把大放在引号里是因为它貌似符合“大数据”术语的含义。然而事实是,处理海量数据在计算资源需要处理巨大的数据集方面提出了一个挑战, 就像把小麦从谷壳分开的困难,或者说在一个巨大的原始信息中辨别信号和杂音。

你的数据来自许多不同的数据源:多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。

可以认为这是两个最初的(可供选择的)征兆:如果你正处理大数据或异构数据,你应当开始思考数据的复杂性。但是深究一下,对你的公司的数据的复杂性,以下有7个更具体的指标。

(注意,以上两点之间有相似之处,但不互相排除——反之,例如,离散数据往往意味着各种各样的数据结构类型)

1、数据结构

不同数据源的数据,或甚至来自同一个源的不同表,通常设计同样的信息但结构却完全不同:

举例来说,想象你们人力资源部有三种不同的表格,一个是员工个人信息表,另一个是员工职位和薪资表第三个是员工职位要求表,诸如此类——而你们财务部门随同保险、福利和其他花费一起记录同样的信息到单个表中。另外,在这些表中的一些表可能提到员工的全名,而另一些则只有名字的首字母,或者二者的结合。为了从所有表中有效使用数据,同时不丢失或重复信息,需要数据建模或准备工作。

这是最简单的用例:更进一步复杂化的是处理最初没有适当地模式的非结构化数据源(例如NoSQL 数据库)。

2、数据大小

再次回到模糊的“大数据”概念,你收集的数据量会影响你需要用来分析它的软硬件的类型。这个可以通过原始大小来衡量:字节,TB或PB——数据增长越大,越有可能“窒息”广泛使用的内存数据库(IMDB),依赖于转化压缩数据到服务器内存。其他因素包括多元异构数据——包含很多数据行的表(Excel,可以说是最常用的数据分析工具,最大行数限制为1048576行),或结构化数据——包含很多数据列的表。

你将会发现在分析工具和方法上用于分析100,000行数据和那些用于分析1亿行数据的是明显不同的。

3、数据细节

你想要探索的数据的粒度水平。当创建一个仪表盘或报表,展现总结或聚合数据时常常比让终端用户钻取到每一个细节更容易实现——然而这是以牺牲数据分析的深度和数据挖掘为代价而做的权宜之计。

创建一个BI系统,使其具有颗粒向海量数据钻取处理分析的能力,(不依赖于预定义查询,聚合或汇总表)

4、查询语言

不同的数据源有不同的数据语言:虽然SQL是从常见数据源和RDBMS提取数据的主要手段,但是当使用第三方平台时你会经常需要通过它自己的API和语法去连接它,以及解析用于访问数据的数据模型和协议。

你的BI工具需要足够灵活的根据数据源允许这种本地连接的方式,或者通过内置插件或API访问,否则你会发现你自己将不得不重复一个繁琐的导出数据到表格\SQL数据库\数据仓库的过程,然后导入到你的商业智能软件里,从而使你的分析变得麻烦。

5、数据类型

一方面动态数据以表格形式存储,处理的大多是数值型数据,但是大规模和非结构化的机器数据完全是另外一回事儿,就像是文字数据集存储在MongoDB中,当然了,更别提像视频音频这种超大规模的非结构化数据了。

不同的数据类型具有不同的规则,为使得商业决策建立在对公司数据的全面考虑的基础上,找到一种建立单一可信来源的方法是至关重要的。

6、离散数据

点击查看全文

7个因素决定大数据的复杂性相关推荐

  1. 哪些因素影响大数据的发展

    大数据作为国家近年来支持的一项重要项目,许多相关企业围绕大数据的商业价值利用进行了数据仓库.数据安全.数据分析.数据挖掘等大数据分析项目开发,逐渐成为业界人士追求的利润焦点,但大数据分析往往容易出现各 ...

  2. 2015年《大数据》高被引论文Top10文章No.5——对大数据的再认识

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.5,刊 ...

  3. 《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...

    基于特征学习的文本大数据内容理解及其发展趋势 袁书寒,向 阳,鄂世嘉 (同济大学计算机科学与技术系 上海 201804) 摘要:大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类 ...

  4. 《大数据》第1期“研究”——大数据管理系统评测基准的 挑战与研究进展(上)...

    大数据管理系统评测基准的挑战与研究进展 钱卫宁,夏 帆,周敏奇,金澈清,周傲英 华东师范大学数据科学与工程研究院 上海 200062 摘要:数据库评测基准在数据库发展历史中的作用不可替代,而大数据环境 ...

  5. 小数据 vs. 大数据

    2019年1月-2019年12月 文 | 潘爱民 来自 iSyscore Radio 的报道 第一讲 随着互联网技术的发展,电脑.智能手机和其他各种智能设备产生了大量的数据,我们从信息时代进入了大数据 ...

  6. 大数据可视化的方法、挑战及进展

    大数据可视化的方法.挑战及进展 摘要:在简化数据量和降低大数据应用的复杂性中,大数据分析发挥着关键的作用.可视化是其中一个重要的途径,它能够帮助大数据获得完整的数据视图并挖掘数据的价值.大数据分析和可 ...

  7. 《决战大数据》读书笔记

    这段时间在梳理这几年工作有什么沉淀下来和所得时,发现自己总是容易陷入细节,不能很好地拎出一条主线来,也不知怎么拔高一个层次或角度来梳理这几年的数据分析工作. 幸好的是当你心中有所困惑的时候,总是有优秀 ...

  8. 您应该知道的101个大数据术语

    由于每天都会产生大量的数据,因此了解大数据的复杂性变得至关重要.如果您打算进入大数据星球,则应该熟悉大数据术语.这些术语将帮助您深入了解大数据世界.因此,让我们从术语大数据本身开始- 由于业务专业人员 ...

  9. 大数据参考架构和关键技术

    大数据参考架构 大数据作为一种新兴技术,目前尚未形成完善.达成共识的技术标准体系.本文结合NIST和JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构. 大数据参考架构图 ...

最新文章

  1. C语言实现长整数连加,二个超长正整数的相加
  2. 【已解决】R语言添加行、列,转置操作
  3. spec文件中的 %pre %post %preun %postun
  4. Angle Admin Template介绍
  5. selenium切换窗口
  6. 冷藏温度范围_机械式、干冰式、冷板式、液氮式等冷藏车制冷方式横向对比
  7. HCIE Security 防火墙多出口选路 备考笔记(幕布)
  8. Mac OS开启黑暗模式
  9. python3.6 asyncio paramiko_网工的Python之路:Concurrent.Futures
  10. word排版一般步骤
  11. 硬盘打不开了的修复方法?
  12. 取决于数学符号_科学发现的未来取决于开放
  13. 【独行秀才】macOS Big Sur 11.5 Beta3版(20G5042c)原版镜像
  14. [Irving]SqlServer 拆分函数用法
  15. 弘辽科技:拼多多商品转化率多少正常?怎么提高?
  16. 操作系统——并发相关问题
  17. macos esc按键失效,无法退出vim
  18. 鸿蒙系统乐视手机,首款骁龙870平板官宣;鸿蒙os支持第三方手机;乐视手机高调复活...
  19. nlp中的实体关系抽取方法总结
  20. matlab(二)统计图

热门文章

  1. springboot启动报错Bean with name ‘xxxxService‘ has been injected into other beans
  2. android 4.4官方下载,安卓系统电脑版-android x86 4.4 iso下载官方最新版【pc版】-西西软件下载...
  3. The Picture of Dorian Gray——17
  4. 紫光展锐面试——软件岗
  5. apex语言与java比较_Apex 基础知识合辑
  6. ipad使用的PDF书籍没有目录怎么办?
  7. 客户旅程_编程如何找到我的:21岁开发人员的7年旅程
  8. 幼儿园小游戏:小兔种萝卜
  9. 表格头固定而列可滚动的效果
  10. 零基础 · 传说之下同人游戏制作教程