作者:蒋步星

来源:数据蒋堂

本文共1200字,建议阅读9分钟。在数据查询时,有时会碰到数据量很大的清单报表。

在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间,用户体验恶劣;而且报表一般采用内存运算机制,大多数情况下也装不下这么多数据。所以,我们一般都是使用分页呈现的方式,尽量快速地呈现出第一页,然后可以随意翻页显示,每次只显示一页,也不会造成内存溢出。

那么,一般的报表工具或BI系统都是怎么实现这一机制的呢?
绝大多数产品都是使用数据库分页的方法来做的。
具体来讲,就是利用数据库提供的返回指定行号范围内记录的语法。界面端根据当前页号计算出行号范围(每页显示固定行数)作为参数拼入SQL中,数据库就会只返回当前页的记录,从而实现分页呈现的效果。
这样做,会有两个问题:
1. 翻页时效率较差
用这种办法呈现出第一页来一般都会比较快,但如果向后翻页时,这个原始取数的SQL会被再次执行,并且将前面页涉及的记录跳过。有些数据库没有OFFSET关键字,就只能由界面端自行跳过这些数据(取出后丢弃),像ORACLE还需要用子查询产生一个序号才能再用序号做过滤,这些动作都会浪费时间,前几页还感觉不明显,但如果翻到的页号比较大时,就会有等待感了。
2. 可能出现数据不一致
一般来说,每次按页取数时发出的SQL是独立的。这样,如果在两页取数之间数据库又有了插入删除动作,这时取出来的数据将是最新的,很可能和原来的页号匹配不上了。比如第1页取出20行记录后,在取第2页前,第1页的20行记录中被删除了1行,那么这时候取出来的第2页的第1行就会是原来的第22行记录,原来的第21行会落到第1页去了,要再倒翻页才能看到。如果基于这些数据做汇总统计,那会出现错误的结果。

还有一种不常用的方法。向数据库发出取数SQL生成游标,从中取出一页后呈现,但并不终止这个游标,要取下一页的时候再继续取数。这种方法能克服上述两个问题,不会发生不一致的现象,但绝大多数的数据库游标只能向后取数而不是倒回去,这样在界面上的表现就是只能向后翻页了,这一点很难向业务用户解释,所以很少用这种办法。
也可以是两种办法的结合,向后翻页时用后一种办法,一旦发生向前翻页时,则重新执行取数SQL。这样比每次分页取数的体验略好一些,但并没有根本上解决问题。

还有什么好办法呢?
把取数和呈现做成两个异步线程,取数线程发出SQL后就不断取出数据并缓存到本地存储中,呈现线程根据页数计算出行数到本地缓存中去获取数据显示。这样,只要已经取过的数据就能快速呈现,不会有等待感,还没取到的数据需要等待一下也是正常可理解的;而取数线程只涉及一句SQL,在数据库中是同一个事务,也不会有不一致的问题。这样,两个问题都能得到解决。不过这需要设计一种可以按行号随机访问记录的存储格式,不然要靠遍历把记录数出来,那反应仍然会很迟钝。
在当前数据库系统不直接支持这种机制时,只能是报表工具或BI系统受累自己写这些程序了,对于有大清单报表呈现需求的用户,就要认真考察这些功能点了。

专栏作者简介

润乾软件创始人、首席科学家

清华大学计算机硕士,中国大数据产业生态联盟专家委员,著有《非线性报表模型原理》等,1989年,中国首个国际奥林匹克数学竞赛团体冠军成员,个人金牌;2000年,创立润乾公司;2004年,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准;2014年,经过7年开发,润乾软件发布不依赖关系代数模型的计算引擎——集算器,有效地提高了复杂结构化大数据计算的开发和运算效率;2015年,润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”;2016、2017年,荣获中国电子信息产业发展研究院评选的“中国软件和信息服务业十大领军人物”;2017年度中国数据大工匠、数据领域专业技术讲堂《数据蒋堂》创办者。

数据蒋堂

《数据蒋堂》的作者蒋步星,从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞,虚拟与现实的相互交织,产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点,站在研发人员的角度从浅入深,进行全方位、360度无死角深度剖析;对于一些业内观点,站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展,站在业内专家角度给予预测和推断。静下心来认真研读你会发现,《数据蒋堂》的文章,有的会让用户避免重复前人走过的弯路,有的会让攻城狮面对扎心的难题茅塞顿开,有的会为初入行业的读者提供一把开启数据世界的钥匙,有的甚至会让业内专家大跌眼镜,产生思想交锋。

数据蒋堂第二年往期回顾:

数据蒋堂 | 大清单报表应当怎么做?相关推荐

  1. 数据蒋堂 | 大清单报表的打印?

    作者:蒋步星 来源:数据蒋堂 本文共900字,建议阅读5分钟. 报表打印也需要做一个缓存机制吗? 上一期文章<大清单报表应当怎么做?>中,我们谈了大清单报表的呈现方法,其实有时候这些报表还 ...

  2. 数据蒋堂 | 大数据技术的4个E

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...

  3. 数据蒋堂 | 大数据集群该不该透明化?

    作者:蒋步星 来源:数据蒋堂 本文约1500字,建议阅读5分钟. 通过本文为大家解读大数据集群透明化的利弊! 这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现. 所谓集群 ...

  4. 数据蒋堂 | 大数据计算语法的SQL化

    作者:蒋步星 来源:数据蒋堂 本文共1602字,建议阅读5分钟. 通过本文为大家解读为什么现在SQL变成了当前大数据计算语法的一个发展倾向. 回归SQL是当前大数据计算语法的一个发展倾向.在Hadoo ...

  5. 数据蒋堂 | 做基础软件要投入很多钱?

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 看起来还真是,似乎还要再加大投入才行? 现在有个说法,国家对基础软硬件的投入太少,经常会说微软.Oracle.Intel这些巨头每年的 ...

  6. 数据蒋堂 | BI系统中容易被忽视的数据源功能

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 关注BI系统数据源有关的后台功能点. 用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性.操作的流畅性.移动端支 ...

  7. 你的报表工具会做数据准备吗 ——报表开发中的深层次问题

    前言 现在企业的报表开发大部分都使用报表工具完成,成熟的报表工具提供了丰富的显示设置.图表类型.导出打印等功能可以简化报表开发,非常方便.但在实际报表开发中还是经常碰到一些非常棘手的深层次问题,即使是 ...

  8. 数据蒋堂 | Hadoop中理论与工程的错位

    作者:蒋步星 来源:数据蒋堂 校对:林亦霖 本文共1400字,建议阅读6分钟. 本文分析了在Hadoop的设计和实现中的理论问题和工程问题. Hadoop是当前重要的大数据计算平台,它试图摒弃传统数据 ...

  9. 数据蒋堂 | Hadoop - 一把杀鸡用的牛刀

    作者:蒋步星 来源:数据蒋堂 本文共1800字,建议阅读6分钟. 通过本文为大家解读为什么Hadoop不适合小集群实现. Hadoop是个庞大的重型解决方案,它的设计目标本来就是大规模甚至超大规模的集 ...

最新文章

  1. vlc的应用之十:vlc的远程控制
  2. python爬虫简单示例_最简单爬虫示例(入门级)
  3. 锐捷网络GSN全局安全政府行业解决方案
  4. 【ABAP】带PDF附件的邮件发送功能
  5. Python面向对象:反射(hasattr和getattr和setattr和delattr)
  6. java三大范_Java深度学习系列——数据库的三大范式
  7. c语言程序设计电加热炉,基于80C52单片机的电加热数字恒温控制系统设计
  8. JAVA中extends 与implements区别
  9. 第四章:更多的bash shell命令
  10. python禁用警告
  11. Vue项目中关闭Eslint
  12. 为什么现在的年轻人越来越不愿意结婚、生子了?
  13. H3C VLAN显示及维护
  14. 三角形外接球万能公式_宏程序不是万能的,没有宏程序是不能的,一款通用宏分享给大家!...
  15. linux 常用图形库,在Linux下常用的3款Git图形客户端
  16. 从微信服务通知进入小程序显示环境加载失败,请稍后再试
  17. 黎明回港避谈婚事 被曝宴请好友庆祝新婚(附图)
  18. 移动电源最大多少毫安?移动电源多少毫安合适
  19. 欢度春节|领取你的微信专属红包封面-免费送
  20. 突然断电对oracle的影响吗,当ORACLE突然断电,重新启动过程发生了哪些事?

热门文章

  1. 初识 Knative: 跨平台的 Serverless 编排框架
  2. 软件测试2019:第四次作业—— 性能测试(含JMeter实验)
  3. Flatten Nested Arrays(展平嵌套数组)
  4. Python学习之路29-序列的修改、散列和切片
  5. 跟我做CVS版本管理试验
  6. FileOutPutStream in 创新实训 自然语言交流系统
  7. Genymotion与Oracle VM VirtualBox,搭建快速移动应用模拟环境
  8. .Net魔法堂:史上最全的ActiveX开发教程——发布篇
  9. 程序设计基本概念(2)-2.19
  10. Silverlight动态设置WCF服务Endpoint