随着企业有了能够轻松访问和分析数据以提高性能的新机会,数据建模也是变形的。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据正确使用正确的方法获得正确的结果。以下描述的十种技术将帮助人们提高数据建模水平及其对业务的价值。

1.了解所需的业务需求和成果

数据建模的目的是帮助组织更好地运作。作为数据建模者,收集,组织和存储用于分析的数据,用户只能通过了解其企业需求来实现这一目标。正确地捕获这些业务需求,以了解哪些数据优先,收集,存储,转换,并提供给用户通常是最大的数据建模挑战。所以,不能说:通过向人们询问数据中需要的结果,清楚地了解需求。然后开始组织你的数据。

2.可视化数据建模

盯着无数行和列的字母数字条目不太可能为人们带来启示。大多数人都希望通过图表更加舒适地查看数据,可以快速查看任何异常情况,或使用直观的拖放屏幕界面快速检查和连接数据表。像这样的数据可视化方法可以帮助你清理数据,使其完整一致,并避免出现错误和冗余。它们还可以帮助你发现对应于相同现实生活实体(例如“客户ID”和“客户参考”)的不同数据记录类型,然后将其转换为使用常用的字段和格式,从而更轻松地组合不同的数据源。

3.从简单数据建模开始,然后扩展

由于大小,类型,结构,增长率和查询语言等因素,数据可能会迅速复杂化。开始时保持数据模型小而简单,可以更容易地纠正任何问题或错误的转折。当你确定自己的初始模型是准确和有意义的时,可以引入更多的数据集,消除任何不一致的情况。你应该寻找一种可以轻松开始的工具,但是以后可以支持非常大的数据模型,还可以让你从不同的物理位置快速“混搭”多个数据源。

4.将业务查询分解为事实、维度、过滤器和订单

了解如何通过事实、大小、过滤器和订单这四个元素定义业务问题,将有助于你以更容易提供答案的方式组织数据。例如,假设你的组织是一家在不同地点设有商店的零售公司,并且你想知道去年哪些商店销售的产品最多。在这种情况下,其事实将是整个历史销售数据(所有商店在过去“N”年的每一天所有商品的所有销售量),所考虑的维度是“产品”和“商店位置”,过滤器是“前12个月”,订单可能是“给定产品销售额下降的五大门店”。通过使用单独的表格来组织数据,以了解事实和维度,你可以方便分析,以便在每个销售期间查找顶级销售人员以及回答其他商业智能问题。

5.使用需要的数据,而不是所有可用的数据

使用巨大数据集的计算机很快就会遇到计算机内存和输入输出速度的问题。然而,在许多情况下,只需要很少的数据来回答业务问题。在理想情况下,你应该能够在屏幕上勾选方框,以指出要使用哪些部分数据集,从而避免数据建模浪费和性能问题。

6.提前计算以防止最终用户分歧

数据建模的一个关键目标是建立一个真相的版本,用户可以向他们询问他们的业务问题。虽然人们对于如何使用答案可能有不同的意见,但是对于基础数据或用于得出答案的计算,应该不会有任何异议。例如,可能需要进行计算以汇总每日销售数据以获取每月数据,然后将其进行比较以显示最佳或最差的月份。而不是让每个人都采用他们的计算器或其电子表格应用程序(这是用户错误的常见原因)进行计算,你可以提前设置此计算来避免问题,作为数据建模的一部分,并使其在最终用户的信息中心中可用。到他们的计算器或电子表格应用程序(用户错误的共同原因),您可以避免问题,提前建立这个计算作为您的数据建模的一部分,并使其在仪表板的最终用户。

7.在继续之前验证数据建模的每个阶段

在进行下一步之前,应检查每个操作,然后从业务需求的数据建模优先级开始。例如,必须为数据集选择一个称为主键的属性,以便数据集中的每个记录可以通过该记录中主键的值唯一标识。假设你选择“ProductID”作为上述历史销售数据集的主键。通过比较数据集中“ProductID”的总行数与完全不同(不重复)行计数,可以验证是否令人满意。如果两个计数匹配,则可以使用“ProductID”来唯一标识每个记录;如果没有,请查找另一个主键。相同的技术可以应用于两个数据集的连接,以检查它们之间的关系是一对一还是一对多,并且避免导致过于复杂或无法管理的数据模型的多对多关系。

8.寻找因果关系,而不仅仅是相关性

数据建模包括使用建模数据的方式的指导。最终用户为自己获取商业智能提供了一个很大的进步,同样重要的是避免错误的结论。例如,也许他们看到两种不同产品的销售情况似乎一起上升和下降。一个产品的销售是否导致另一个产品的销售(一个因果关系),或者是因为经济或天气等另外一个因素而一起上升(简单的关联)呢?令人困惑的因果关系可能导致产生错误或不存在的机会,从而浪费业务资源。

9.使用智能工具提供重型功能

在分析开始之前,更复杂的数据建模可能需要编码或其他操作来处理数据。但是,如果软件应用程序可以为您提供“重型”功能,则可以免除你了解不同编程语言的需要,并让你将时间花在企业的其他有价值的活动上。合适的软件产品可以促进或自动化数据ETL(提取,转换和加载)的所有不同阶段。可以在视觉上访问数据,而无需任何编码,不同的数据源可以使用简单的拖放界面进行组合,甚至可以根据查询类型自动完成数据建模。

10.使数据模型进化

业务数据模型从来没有被记录过,因为数据源和业务优先级不断变化。因此,你必须计划随时间更新或更改。为此,将你的数据模型存储在存储库中,使其易于访问进行扩展和修改,并使用数据字典或“准备参考”,并提供有关每种数据类型的目的和格式的清晰最新信息。

更好的数据建模带来更大的商业利益

在盈利能力,生产率,效率,客户满意度等方面的业务绩效可以让组织从数据建模中受益,从而帮助用户快速轻松地获得业务问题的答案。主要的成功因素包括链接到组织需求和目标,使用工具来加快准备数据的步骤,以解决所有查询,并使优先级变得更加简单。一旦满足这些条件,你和你的业务(无论是小型,中型还是大型)都可以期待数据建模能带来重要的业务价值。

本文转自d1net(转载)

提升数据建模的10种技术措施相关推荐

  1. python与excel做数据可视化-用Python进行数据可视化的10种方法

    原标题:用Python进行数据可视化的10种方法 2015-11-19 关于转载授权 大数据文摘作品,欢迎个人转发朋友圈,自媒体.媒体.机构转载务必申请授权,后台留言"机构名称+转载&quo ...

  2. 段路由SR(Segment Routing)是基于源路由理念而设计的在网络上转发数据包的一种技术架构

    一.SR背景 段路由SR(Segment Routing)是基于源路由理念而设计的在网络上转发数据包的一种技术架构. SR-MPLS可以通过多个MPLS形成路径(基于标签转发)     SRv6可以通 ...

  3. 深度阐述数据建模及可视化系统技术方案

    1.系统概述 数据建模及可视化系统系统是一站式全链路数据生命周期管家,帮助用户管理数据资产并挖掘价值.平台提供多源异构的数据采集模块.实时/离线计算框架,简洁易用的开发环境和平台接口,为政府机构.企业 ...

  4. 让大数据分析更有效的5种技术措施

    如今,数据量越来越大.近年来,企业已经意识到数据分析可以带来的价值,并且已经开始采用.企业现在的设备几乎都在监测和测量,并创造了大量的数据,通常比企业处理的更快.其问题是,而正因为大数据定义为&quo ...

  5. 提高计算机软件速度的方法,提升电脑速度的10种方法

    美10 种方法可以使电脑运行更快.文章指出,我们都知道电脑用得越久,速度越慢,但也有一些技巧和窍门提升电脑的速度.如购买一些新的内存卡装上去,会对电脑的速度有所帮助.所以,在决定更换电脑之前,应该先尝 ...

  6. 想要提升用户转化率?10种数据分析方法带你飞!

    前言:在数据分析和产品.运营优化方面,数据分析方法是其核心,那么如何做好数据分析呢,今天我们来讲讲互联网运营中的十大数据分析方法. 道家强调四个字,叫"道.法.术.器". 层次区别 ...

  7. 系统提升架构能力之10种mysql主从实践总结

    Mysql作为目前世界上使用最广泛的免费数据库,相信所有从事系统运维的工程师都一定接触过.但在实际的生产环境中,由单台Mysql作为独立的数据库是完全不能满足实际需求的,无论是在安全性,高可用性以及高 ...

  8. Revit建模|10种方法帮你解决Revit操作卡顿!

    大家好,这里是建模助手. 相信各位BIMer在使用Revit建模时,肯定遇到过软件加载慢或者程序未响应的现象.我们经过测试发现,除了硬件配置及软件本身的问题以外,建模习惯及软件使用方法不当也会造成软件 ...

  9. Python数据处理Tips数据连续变量常用10种处理方法

    在日常的数据分析工作中,经常需要把数据变量转换成模型需要的样子,比如我们经常遇见的数据都是标签化.文字化等内容,需要将这些数据转换成计算机看得懂的内容,就是需要进行标签变量的转换. 不管是离散数据还是 ...

  10. 线性代数在计算机视觉的应用,10种线性代数在数据科学中的强大应用(内附多种资源)...

    本文摘要线性代数为各种各样的数据科学算法和应用提供支持 在这里,我会向您介绍通过线性代数帮助您成为更好的数据科学家的10种实际应用 我们已将这些应用程序分类到各个领域 - 基本机器学习,降维,自然语言 ...

最新文章

  1. 干掉ArrayList:HikariCP为什么自己造了一个FastList?
  2. pytorch用win还是Linux,如何在Windows系统安装使用机器学习库PyTorch
  3. Linux cp命令 拷贝文件
  4. [云炬商业计划书阅读分享] 体育器材
  5. 二叉树前中后、层次遍历
  6. 再谈C#中的委托和事件
  7. [渝粤教育] 西南科技大学 经济数学2 在线考试复习资料
  8. Maven - 基础入门与安装配置
  9. tp5验证码详细代码
  10. flex布局中的自动占满剩下的内容
  11. latex中文编号是问号的问题
  12. 传感器自学笔记第五章——旋转编码器
  13. 561. Array Partition I
  14. Spring Security 之密码存储
  15. 大牛C++编程开发学习建议50条
  16. Altium Designer安装包及安装与破解步骤(初学)
  17. python(try-except)
  18. java-php-python-安全生产监管系统计算机毕业设计
  19. EXCEL文本框及自定义图形内文本内容检索及替换
  20. 【第29篇】MPViT:用于密集预测的多路径视觉转换器

热门文章

  1. The Art of Prolog:Advanced Programming Techniques【译文】
  2. 用PHP语言做网站常见漏洞有哪些?
  3. ISO9000电脑资料管理办法
  4. Android7.1 Offload模式下的音频数据抽取过程
  5. dow_interruptible() 源码及函数返回分析
  6. SQlite数据库的C编程接口(五) 便捷函数(Convenience Functions) ——《Using SQlite》读书笔记
  7. gdb 打印所有线程堆栈
  8. android gdbserver
  9. python编写个人信息_Python爬取个人微信朋友信息操作示例
  10. Reversing Encryption(Reverse函数的应用)