无论一个公司部署什么类型的大数据技术栈,有一些共通的因素必须加以考量,以保证为大数据分析工作提供一个有效的框架。在开始一个大数据项目之前,去审视项目所要承担的新数据需求的更大图景显得尤为关键。下面来让我们检视四个需要加以考量的因素。

数据准确性

数据质量问题对于BI和数据管理专业人士来说一定不陌生。很多BI和分析团队努力保证数据的有效性并说服业务使用人员去信任信息资产的准确性和可靠性。作为个性化分析库而得以广泛使用的电子表格或电子报表软件可以对数据中信任缺乏的问题加以弥补:在Excel中存储和操作分析数据的功能为支持自助分析能力创造了环境,但可能不会激发其他用户对结果的自信心。数据仓库与数据集成和数据质量工具一起,能够通过为管理BI和分析数据提供标准化流程来帮助树立信心。但是,由于不断增加的数据容量和更广泛多样的数据类型,特别是当涉及结构化和非结构化数据混合时,就会对一个大数据的实施增加难度系数。建立评估数据质量标准以及对它们进行升级以处理那些更大、更多样数据集,对于大数据实施的成功和分析框架的使用是至关重要的。

存储适用

数据仓储的一个核心要求是处理和存储大数据集的能力。但并不是所有数据仓库在这方面都满足要求。一些是针对复杂查询处理进行优化,而其他的则并非如此。并且在许多大数据应用程序中,相较于事务系统,由于添加了非结构化数据还有数据的创建和收集增速迅猛,用Hadoop和NoSQL技术增强数据仓库就成为必要。对于一个希望获取并分析大数据的组织来说,光有存储容量是不够的;而重要的部分在于将数据置于何处才是最佳的,这样数据就可以转化为有用信息并为数据科学家和其他用户所利用。

查询性能

大数据分析依赖于及时处理和查询复杂数据的能力。一个很好地例子就是:一家公司开发了一个数据仓库用来维护从能源使用计收集到的数据。在产品评估过程中,某供应商的系统有能力在15分钟内处理七百万条记录,而另一家则在相同时间内可以处理最高三十万条记录。能否识别正确的基础设施来支持快速的数据可用性和高性能查询就意味着成功还是失败。

稳定性

随着许多组织中数据量和数据种类的增长,大数据平台的建立需要有对未来的考量。必须提前考虑和求证正在进行评估的大数据技术是否能够进行扩展,以达到不断向前发展的需求所要求的级别。这便超出了存储容量的范畴,将性能也包含了进来,对那些从社交网络,传感器,系统日志文件以及其他非事务。

原文发布时间为:2017-10-24

本文作者:佚名

本文来自云栖社区合作伙伴“51CTO”,了解相关信息可以关注。

数据分析需要权衡哪些要素?相关推荐

  1. 『对比Excel,轻松学习Python数据分析』新书发布

    之前在公众号提过,我写了一本书,现在这本书终于面世了,这本书就是『对比Excel,轻松学习Python数据分析』,这本书是写什么的,以及这本书怎么写的,相信大家通过书名就能了解一二,但还是有必要专门写 ...

  2. 数据分析和数据挖掘的概念和理念

    1.数据分析和数据挖掘的定义和概念 2.数据分析及数据挖掘的层次 3.数据分析及数据挖掘的模型框架 1.1数据分析及数据挖掘的定义: 数据分析 数据分析是指用适当的统计方法对收集来的大量数据进行分析, ...

  3. 国内知名的数据分析软件平台

    数据分析指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并最终消化,以求最大化地开发数据的功能,发挥数据的作用.任何数据分析过程都包括四大要素:场景+数据+工具+方法.数据分析起 ...

  4. ​终于有人把Spark大数据分析与挖掘讲明白了

    当我们每天面对扑面而来的海量数据时,是战斗还是退却,是去挖掘其中蕴含的无限资源,还是让它们自生自灭?我们的答案是:"一切都取决于你自己".对于海量而庞大的数据来说,在不同人眼里,既 ...

  5. 好书推荐:《对比Excel,轻松学习Python数据分析》

    之前就一直有打算出一个结合Excel的Python数据分析的教程,刚好张俊红同学就出了书籍,后面写相关文章又多了一本好书.我首先说说我的看法,为什么要和Excel做结合了. Excel大家都熟悉,结合 ...

  6. 笔记-软考高项-错题笔记汇总1

    错题笔记汇总1 1. 信息系统的规划工具 在制订计划时,可以利用PERT图和甘特图: 访谈时,可以应用各种调查表和调查提纲: 在确定各部门.各层管理人员的需求,梳理流程时,可以采用会谈和正式会议的方法 ...

  7. 笔记-中项/高项学习期间的错题笔记1

    这是记录,在中项.高项过程中的错题笔记: https://www.zenwu.site/post/2b6d.html 1. 信息系统的规划工具 在制订计划时,可以利用PERT图和甘特图: 访谈时,可以 ...

  8. 第19节 项目整体绩效评估.

    项目整体绩效评估 1[单项选择题]在供方选择过程中,对提供主要物资的新的供方,应要求其提供充分的质量证明文件,以证实其质量保证能力.()不属于质量证明 A供方多年供货业绩综合评价 B供方质量管理体系对 ...

  9. 如何引导企业数据“价值变现”,看能源化工业的数据化管理

    核心内容:供应链管理,阿米巴管理,能源化工行业四大业务特点,六大管理现状,管理经营数据化五大问题,能源化工行业数据四大特点,基于能源行业业务.管理.数据特点的数据决策管理支持方案(PC端集成.移动办公 ...

最新文章

  1. 谷歌大神Jeff Dean点赞网红博士论文:改进分布式共识机制 | 技术头条
  2. html固定table表头的实现思路
  3. 【caffe-Windows】mnist实例编译之model的使用-classification
  4. 用电梯服务器怎样解电梯显示E34,默纳克品牌电梯故障代码e41怎么处理
  5. android Listview scrollto 问题
  6. python数据格式化后导入数据库_如何为数据库导入重新格式化这个json?
  7. C++|Qt工作笔记-Windows平台下的句柄与Qt中QWindow::winId()以及 QPlatformWindow::handle的区别与联系
  8. C#程序实现鼠标移动
  9. cpu性能天梯图包含服务器,服务器cpu性能天梯图
  10. 程序员可接私活的10个平台和一些建议,别掉坑里!
  11. CANdelaStudio编辑CDD——学习碎笔
  12. 使用setBounds()函数设置Java布局
  13. python学习-循环替换txt文件中的指定字符
  14. 图的割点 图的割边 二分图
  15. 有了AI,程序猿再也不用担心有Bug了
  16. 三坟五典八索九丘四书五经
  17. 相对论-导论(一文看懂所有核心思想)
  18. 【TypeScript】Object、object和{}类型
  19. 在外网访问内网电脑远程桌面的几种方式
  20. linux系统或者虚拟机下无法挂载64GU盘的解决办法

热门文章

  1. 线程创建 pthread_create 中自定义参数注意事项
  2. Hibernate 中upate,savaOrUpdate,merge的区别
  3. 织梦轻量级mvc框架笔记
  4. Yii --Command 任务处理
  5. [INS-32025] 所选安装与指定 Oracle 主目录中已安装的软件冲突。
  6. [转]Newtonsoft.Json高级用法
  7. 【杂文】从实习到校招到工作
  8. java基础学习之对象转型
  9. 如何监控mysql主从之间的延迟
  10. Web前端工程师应该掌握的内容有哪些