作者:朱赛凡



一 数据分析处理需求分类

1 事务型处理

在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。

这类系统数据处理特点包括以下几点:

一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小。

二是计算相对简单,一般只有少数几步操作组成,比如修改某行的某列;

三是事务型处理操作涉及数据的增、删、改、查,对事务完整性和数据一致性要求非常高。

四是事务性操作都是实时交互式操作,至少能在几秒内执行完成;

五是基于以上特点,索引是支撑事务型处理一个非常重要的技术。

在数据量和并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、 RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。

在数据量和并发交易量增加情况下,一般可以采用ORALCE RAC集群方式或者是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑。

事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用的系统来解决本问题。

2 数据统计分析

数据统计主要是被各类企业通过分析自己的销售记录等企业日常的运营数据,以辅助企业管理层来进行运营决策。典型的使用场景有:周报表、月报表等固定时间提供给领导的各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应的营销策略等。

数据统计分析特点包括以下几点:

一是数据统计一般涉及大量数据的聚合运算,每次统计涉及数据量会比较大。

二是数据统计分析计算相对复杂,例如会涉及大量goupby、 子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现。

三是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多的用户希望能做做到交互式实时统计;

传统的数据统计分析主要采用基于MPP并行数据库的数据仓库技术。主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析的结构来实现高性能的数据统计分析,以支持可以通过下钻和上卷操作,实现各种维度组合以及各种粒度的统计分析。

另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算的数据库仓库系统也成为一个发展趋势,例如SAP的HANA平台。

3 数据挖掘

数据挖掘主要是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中的规律和知识。

数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等。

因此总体来讲,数据分析挖掘的特点是:

1、数据挖掘的整个计算更复杂,一般是由多个步骤组成计算流,多个计算步骤之间存在数据交换,也就是会产生大量中间结果,难以用一条sql语句来表达。

2、计算应该能够非常灵活表达,很多需要利用高级语言编程实现。

大数据分析技术研究报告(一)相关推荐

  1. 大数据分析技术研究报告(四)

    作者:朱赛凡 四 大数据背景下数据分析挖掘技术介绍 1 Mahout与MLlib项目 数据分析挖掘主要涉及两个方面:一是数据预处理:二是数据挖掘. 在数据预处理方面,根据掌握资料来看,大型互联网公司主 ...

  2. 大数据分析技术研究报告(三-3)

    作者:朱赛凡 3) 存储层 数据存储层主要包括以下几类: 一类是基于MPP数据库集群,这类系统特点是存储层与上层并型计算引擎是紧耦合,属于封闭性的系统. 二是采用分布式文件系统,例如SharK.Sti ...

  3. 大数据分析技术研究报告(三-1)

    作者:朱赛凡  三大数据背景下数据统计分析技术介绍 随数据量变大,和事务处理不同的是,单个统计分析涉及数据量会非常大,单个统计分析任务涉及数据会分散在多台服务器上,且由于计算量大,采用单台服务器进行计 ...

  4. 大数据分析技术有哪些应用步骤

    大数据技术经过这么几年的发展,已经不像前几年那样给人一种难懂的感觉,现如今信息的大爆炸,各行各业的信息层出不穷.但是信息的爆炸也就意味着各类杂乱无章数据的诞生,因此要想在众多的数据中找到对于自身有用的 ...

  5. 大数据分析技术架构的通用模块

    对于企业来说,坐拥庞大的数据资源,想要实现大数据分析,首先要建立自己的大数据系统平台,每个公司都有自己的具体业务场景,因此对大数据平台的要求也不同.今天我们仅从通用的角度,来聊聊大数据分析需要什么技术 ...

  6. 大数据分析技术未来发展会如何

    庞大的数据也为企业发展带来了机遇,庞大的数据量与云计算技术强大的处理能力相结合,可以实现数据大规模的训练和执行制定的算法.未来数据分析技术的发展空间需求巨大,那么为来大数据分析计算的发展将会如何? 1 ...

  7. python运用在大数据中精准生活_大数据分析技术在生活中的广泛应用

    段雯琼++薛然++任亚丽 摘 要 文章介绍了大数据技术的即时性.准确性和预测性,并将大数据技术与公共交通.医药领域.移动通信网络优化相结合,从而方便了人们的生活,提高了人们的生活质量. [关键词]大数 ...

  8. 基于大数据分析技术在会计方面的研究

    第一节 摘 要 在现如今大数据时代的背景下,有越来越多的企业正经受着数据网络的考验,其中很突出的就是管理會计,作为企业财务中一个重要的组成部分,是持续为企业整合和加工财务资料的职务,管理会计正为企业发 ...

  9. 大数据分析技术与应用 1

    CDA数据分析研究院原创作品 一.大数据概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化 ...

最新文章

  1. 读取本地照片 以流的形式进行显示
  2. 微信小程序云开发,使用阿里云短信服务,搜索员工生日定期发送短信。
  3. SpringBoot整合WebSocket
  4. Java applet java.lang.OutOfMemoryError: Java heap space
  5. sign的oracle,oracle sign
  6. PAT乙级 1032 挖掘机技术哪家强 (20 分)
  7. RHEL6网络无人值守安装
  8. FISCO BCOS 跨链WeCross ppt
  9. 邮箱可以群发邮件吗?邮件群发怎么发?推荐邮箱邮件群发平台
  10. 5G - MEC(移动边缘计算)
  11. 如何生成网站地图(Sitemap)
  12. html左侧浮动广告代码,如何制作浮动广告 JavaScript制作浮动广告代码
  13. android wifi控制手机屏幕,如何将手机屏幕无线投射到电脑 电脑反向控制手机屏幕的详细教程...
  14. 解决qtwebenginview load崩溃问题
  15. 收发器(Transceiver)架构1——接收机1
  16. 爬了我的微信好友,原来他们是这样的...
  17. unity编辑器一些设置
  18. 用Wireshark看见TLS握手过程
  19. 我们为什么需要信息增益比,而不是信息增益?
  20. 电脑动态图制作的方法技巧

热门文章

  1. 创业者的噩梦 - 怎么就侵权了
  2. inet addr(网络地址)、bcast(广播地址)、mask(子网掩码)
  3. matlab 去除最大值,TRIMMEAN 应用(求去掉最大或和最小值后的平均值的方法)
  4. PhotoShop 保存 8 bit 位图(Bmp)的方法【记录备忘】
  5. 4、(四)外汇学习基础篇之银行间外汇远期交易
  6. Android自定义View使用总结
  7. blastn 输出结果每列啥意思_如何看懂NCBI BLAST输出结果
  8. 健身机构如何入局知识付费?
  9. composer php中如何执行,composer怎么运行
  10. 梨子的功效与作用_梨的9种不为人知的价值