大数据的“量级”:
传统IT,业务系统多以OLTP1为主,尤其传统数据库orcle,mysql等数据量多数是几十万或几百万,数据千万就要分库,分表了,过亿了就要用到另外一种数据处理技术了OLAP2联机分析处理。
     Google的三篇论文 GFS3、Bigtable、MapReduce可为大数据发展的基石
每一分每一秒,各个数据源通过在线、离线等各种方式导入Hadoop,这些数据就像一车车的金矿石,先被放到一个矩形的仓库中存了起来。发现金矿,采集矿石,运回仓库,这些过程可能都不是最精彩的,大家最期盼的是如何将矿石变成金子,也就是炼金。大数据“炼金术”,发现数据的潜在价值,从数据分的不同使用场景来看,可以分为以下三类:批处理(Batch),即席查询和分析(Ad-hoc),流计算(Stream)。
批处理通常是离线计算,对计算时效性要求不高,主要用来啃又大又硬的骨头,一个任务可以撇给它几十个T甚至上P的数据,它都可以吃的消,它的计算方式可以说是“很稳健”,无论是第一代计算引擎MapReduce,还是第二代计算引擎Spark,都是采取的“很黄很暴力”的方式,一个百亿规模的数据分析,MapReduce的计算时间可能长达数小时,Spark也要跑个几分钟到几十分钟不等,即便执行一些相对轻量级的数据分析请求,Spark通常也是在分钟级别完成。
流计算是在数据流入的同时即把相应的计算操作完成,有极高的时效性,非常适用于实时统计,根据预设规则预警,结合各种算法做预测等数据分析需求。在各类形同中已经应用非常广泛。但流计算本质属于预计算分析,必须预先知道想要统计分析的数据或维度,根业内其它预计算引擎的短板一样,就是灵活度极大受限
即席查询和分析的计算模式兼具了良好的时效性与灵活性,是对批处理,流计算两大计算模式有力补充。
即席查询的概念
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。
在数据仓库领域有一个概念叫Ad hoc queries。通常的方式是,将数据仓库中的维度表和事实表映射到语义层,用户可以通过语义层选择表,建立表间的关联,最终生成SQL语句。即席查询与通常查询从SQL语句上来说,并没有本质的差别。它们之间的差别在于,通常的查询在系统设计和实施时是已知的,所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,系统无法预先优化这些查询,所以即席查询也是评估数据仓库的一个重要指标。即席查询的位置通常是在关系型的数据仓库中,即在EDW或者ROLAP中。
即席分析:
是在未知用户查询条件,系统无法预先优化的查询,而临时产生的分析

大数据即席查询和分析博客
http://blog.csdn.net/vv8086/article/details/56011624
数据库优化:
http://blog.csdn.net/xlgen157387/article/details/44156679
运维:
http://www.ywnds.com/?cat=5
补充知识:
1:OLTP:
   On-Line Transaction Processing联机事务处理过程(OLTP)
也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短时间内给出结果,是对用户操作快速响应的方式之一
这样做的最大优点是可以即时的处理输入的数据,及时的回答,也称为实时系统。
衡量练级事务处理结果的一个重要指标是系统性能,具体体现为实时请求---响应时间,即用户在终端上输入数据之后,带计算机对这个请求给出答复所需的时间。
   OLTP是由前台、应用、数据库共同完成的,处理快慢以及处理程度取决于  数据库引擎  服务器  应用引擎
  OLTP数据库只在使事务应用程序仅写入所需的数据、以便尽快处理单个事务
  当今的数据处理可以分为两大类:练级事务处理(OLTP)和联机分析处理(OLAP)
2 OLAP
联机分析处理(OLAP):是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获取对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或满足多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念
这里所说的“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种关系有时会相当复杂。通过把一个实体的多重要的属性定义为多个维,使用户能对不同的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
  OLAP的基本多维分析操作有钻取(roll up和drill down)、切片和切块、以及旋转、交叉探查(Drill Across:指查询多个事实表并将结果合并成一个结果集的查询操作)、钻透(drill through: 是指对立方体操作时, 利用数据库关系, 钻透立方体的底层, 进入后端的关系表)
  钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维
  切片和切块实在一部分维上选定值后,关心度量数据在剩余维生的分布。如果剩下维只有两个,则是切片;如果有三个则是切块
 旋转是变换为的方向,即在表格中重新安排为的放置(例如行列互换)
OLAP有多重实现方法,根据存储数据的方式不同可分为ROLAP,MOLAP、HOLAP
ROLAP表示基于关系数据库的OLAP实现。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
MOLAP表示基于多维数据组织的OLAP实现。以多维数据组织方式为核心。以多维数据组织方式为核心,也就是说MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(cude)”的结构,在MOLAP中对“立方块”的旋转、切块、切片是产生多维数据报表的主要技术
HOLAP表示基于混合数据组织的OLAP实现。如低层是关系型的,高层是多维矩阵型的,这种方式具有更好的灵活性
根据综合性数据的组织方式的不同,常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能
 3 GFS
GFS是一个可扩展的分布式文件系统,用于大型的,分布式的,对大量数据进行访问的应用,它运行与廉价的普通硬件(这是它的特殊之处,惊世之处)上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务 
4 Hive 
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析
5 DMP
DMP(Data Management Platform)数据管理平台,是互联网公司最重要的后台系统之一,它把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,进而把这些细分结果推向现有的互动营销环境里

大数据即席查询与分析相关推荐

  1. 大数据即席查询工具——秒级响应

    报表是企业管理的基本措施和途径,是企业的基本业务要求,也是实施 BI战略的基础.报表可以帮助企业访问.格式化数据,并把数据信息以可靠和安全的方式呈现给使用者.在企业管理过程中,报表往往都会通过一些简洁 ...

  2. 华为大数据战略_华为大数据开源战略部部长陈亮 - Apache CarbonData,实现大数据即席查询秒级响应...

    1.实现大数据即席查询秒级响应 2.Liang Chen / 陈 亮 华为大数据开源开发部Leader Apache CarbonData PMC & CommitterEmail:chenl ...

  3. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统...

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

  4. 大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生

    如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火.不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能.小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易.小 ...

  5. 大数据江湖之即席查询与分析(中篇)--即席查询与分析的典型场景

    上篇提到了大数据做数据分析的三种最为典型计算模式:批处理(Batch),即席查询与分析(Ad-hoc),流计算(Stream):对于批处理和流计算,虽然小弟也略知一二,早在Hive还没出来之前,也是从 ...

  6. 大数据江湖之即席查询与分析(下篇)--手把手教你搭建即席查询与分析Demo

    上篇小弟分享了几个"即席查询与分析"的典型案例,引起了不少共鸣,好多小伙伴迫不及待地追问我们:说好的"手把手教你搭建即席查询与分析Demo"啥时候能出?说到就得 ...

  7. 易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

    凭借多年大数据平台建设经验,易观 CTO郭炜为大家分享了易观在大数据实时查询引擎建设过程所获经验与挑战,以及大数据人员如何快速建立自己的大数据查询引擎套件,让自己的数据人员不再是"表哥表妹& ...

  8. Kafka实时数据即席查询应用与实践

    作者:vivo 互联网搜索团队- Deng Jie Kafka中的实时数据是以Topic的概念进行分类存储,而Topic的数据是有一定时效性的,比如保存24小时.36小时.48小时等.而在定位一些实时 ...

  9. 【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

    基于Blink为新商业调控打造实时大数据交互查询服务 案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 从IT到DT.从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖 ...

  10. 【2017年第2期】感悟大数据——从数据管理和分析说起

    周傲英 华东师范大学数据科学与工程学院,上海  200062 摘要:大数据依然很热,对其解读也越发众说纷纭.结合笔者长期以来的研发经历和深层思考,讨论了对"大数据"本身." ...

最新文章

  1. 详细讲解 移植Uboot到ARMer9开发系统上
  2. How to apply for the PG studies as a UG
  3. 第一章初始mybatis框架
  4. 一个长方体玻璃容器从里面量长宽_养观赏鱼用玻璃鱼缸吗?3种常见养鱼容器,另外2种养鱼效果不差...
  5. 【自我救赎--牛客网Top101 4天刷题计划】 第一天 热身运动
  6. Ubuntu 16.04上安装Code::Blocks
  7. qq linux五笔输入法下载软件,QQ五笔下载官方网站
  8. 后台事务调用需启动工作流监听
  9. linux shell脚本查找局域网内所有已连接的设备ip
  10. 华尔街不是中国的机会
  11. 矿难猫盘救砖刷回OneSpace系统的记录
  12. Leetcode力扣 MySQL数据库 1132 报告的记录II
  13. css安卓手机位置偏差,完美解决移动端使用rem单位时CSSSprites错位问题_html/css_WEB-ITnose...
  14. ABAQUS中inp文件的使用和书写
  15. 力扣解法汇总2013-检测正方形
  16. java连接twitter登录,twitter应用程序只认证java android与twitter4j
  17. Windows下运行XServer,XServer和XClient
  18. 用opencv和vc++6.0开发的五子棋游戏软件
  19. [学习笔记]黑马程序员-Hadoop入门视频教程
  20. mysql中自动求和_数据库mysql如何进行字段的自动求和?

热门文章

  1. GUI制作信号分析的频域和时域分析
  2. metro3000 OSN2500 OSN3500 华为传输 华为光端机
  3. Kvaser:CAN(FD)总线测试、开发仿真和控制
  4. qt mysql图形界面_qt数据库界面
  5. lora网关软件设计_LoRa网关芯片SX1301IMLTRT网关设计资料
  6. zemax输出ies_ProSource光源模型分析和转换软件
  7. js刷新当前页面的5种方式
  8. 数据结构图---拓扑结构
  9. 数学知识整理:布朗运动与伊藤引理 (Ito‘s lemma)
  10. 二叉平衡树的旋转操作