一文讲透数仓临时表的用法
摘要:临时表作为一个SQL标准中的表类型,各个厂商在实现时,往往却不相同,甚至行为上也存在差异,本文小结下GaussDB(DWS)的临时表使用场景。
本文分享自华为云社区《GaussDB(DWS)临时表小结》,作者: sincatter 。
语法介绍
如下为创建表的基本语法(详见手册):
CREATE [ [ GLOBAL | LOCAL ] { TEMPORARY | TEMP } | UNLOGGED ] TABLE [ IF NOT EXISTS ] table_name ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ]| table_constraint| LIKE source_table [ like_option [...] ] }[, ... ])[ WITH ( {storage_parameter = value} [, ... ] ) ][ ON COMMIT { PRESERVE ROWS | DELETE ROWS | DROP } ][ COMPRESS | NOCOMPRESS ][ TABLESPACE tablespace_name ][ DISTRIBUTE BY { REPLICATION | { HASH ( column_name [,...] ) } } ][ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ];
其中临时表相关的关键字有:
- [ GLOBAL | LOCAL ]
创建临时表时可以在TEMP或TEMPORARY前指定GLOBAL或LOCAL关键字。目前GaussDB(DWS)设立这两个关键字,仅仅是为了兼容SQL标准,实际行为上无论指定的是GLOBAL还是LOCAL,GaussDB(DWS)都只会创建为本地临时表,即只有LOCAL关键字是有效的。
- { TEMPORARY | TEMP }
TEMP和TEMPORARY等价。如果指定TEMP或TEMPORARY关键字,则创建的表为临时表。临时表行为上的主要特征为只在当前会话可见,本会话结束后会自动删除。由于临时表只在当前会话创建,对于涉及对临时表操作的DDL语句,很容易产生DDL失败的报错。因此,建议DDL语句中不要对临时表进行操作。
- ON COMMIT { PRESERVE ROWS | DELETE ROWS | DROP }
ON COMMIT选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。有以下三个选项:
- PRESERVE ROWS(缺省值):提交时不对临时表做任何操作,临时表及其表数据保持不变。
- DELETE ROWS:提交时删除临时表中数据。
- DROP:提交时删除此临时表。
原理介绍
GaussDB(DWS)的临时表机制继承自PostgreSQL,临时表在元数据和数据存储上与普通表基本无差异,具体来说,临时表是通过建表时将其Schema指定为与session id相关的一个schema,其他session实际上也是可以在系统表中查看到当前临时表的元数据。GaussDB(DWS)会利用schema进行临时表的不同session间隔离。这里通过两个现象去说明这个机制:
现象一:
一个session_1创建一个临时表:
postgres=# create temp table tt1(a int);
CREATE TABLE
postgres=# \dList of relationsSchema | Name | Type | Owner | Storage
------------------------------------------+------+-------+-------+----------------------------------pg_temp_coordinator1_2_4_139820525504256 | tt1 | table | xucw | {orientation=row,compression=no}
(1 row)
postgres=# select relname,relnamespace from pg_class where relname like 'tt%';relname | relnamespace
---------+--------------tt1 | 24600
(1 row)
另外一个session_2,可以一样可以通过pg_class查看临时表的表结构:
postgres=# select relname,relnamespace from pg_class where relname like 'tt%';relname | relnamespace
---------+--------------tt1 | 24600
(1 row)
但session_2中是无法查看当前临时表中的数据:
postgres=# select * from pg_temp_coordinator1_2_4_139820525504256.tt1;
ERROR: Can only access temp objects of the current session.
LINE 1: select * from pg_temp_coordinator1_2_4_139820525504256.tt1;
现象二:
创建一个临时表后,再根据这个临时表的schema,去创建一个相同schema的普通表:
postgres=# create temp table tt1(a int);
CREATE TABLE
postgres=# \dList of relationsSchema | Name | Type | Owner | Storage
------------------------------------------+------+-------+-------+----------------------------------pg_temp_coordinator1_2_3_139820525504256 | tt1 | table | xucw | {orientation=row,compression=no}
(1 row)
postgres=# create table pg_temp_coordinator1_2_3_139820525504256.tt2(a int);
CREATE TABLE
postgres=# select relname,relnamespace from pg_class where relname like 'tt%';relname | relnamespace
---------+--------------tt1 | 24592tt2 | 24592
(2 rows)
随后,退出当前session,重新连接查看表状态,我们会神奇发现之前创建的临时表tt1消失的同时,创建的普通表tt2也一样消失了。
postgres=# select relname,relnamespace from pg_class where relname like 'tt%';relname | relnamespace
---------+--------------
(0 rows)
使用注意
- 与使用永久表相比,使用临时表可以提高性能,但存在丢失数据的风险。临时表只在当前会话可见,本会话结束后将自动删除。如果数据丢失是不可接受的,请使用永久表。
- 临时表对应的sechema在搜索路径中的优先级是高于其他sechma的,即临时表对应schema具有第一搜索优先级。
- \parallel模式不支持创建临时表!如需使用临时表,需要在开启parallel之前就创建好,并在parallel内部使用。parallel内部创建的临时表不会生效。
- PG_TOTAL_USER_RESOURCE_INFO视图中的used_temp_space和total_temp_space可以查看当前临时表的相关空间使用情况
- 创建临时表时,会同步创建临时Schema,这些临时Schema的名称类似于pg_temp_*和pg_toast_temp_*
- CN Retry功能开启时会为临时表数据记录日志,为保证数据一致性,在使用临时表时不能切换CN Retry开关状态,保持使用临时表的会话中CN Retry开关始终处于打开状态或者关闭状态。
- 临时表和非日志表的存储方式建议和基表相同。当基表为行存(列存)表时,临时表和非日志表也推荐创建为行存(列存)表,可以避免行列混合关联带来的高计算代价
- 如果上层应用,使用了连接池机制连接GaussDB(DWS),在使用临时表时,强烈建议将连接归还连接池之前,将临时表主动删除,避免造成连接未断开导致的数据异常
- 在每个会话第一次使用临时表之前可以改变temp_buffers的值,之后的设置将是无效的
- autoanalyze不支持对带有ON COMMIT [DELETE ROWS|DROP]选项的临时表触发autoanalyze,如需收集,需用户手动执行analyze操作
- 如果创建视图时包含临时表,则该视图会自动转为临时视图
典型场景
临时存储
临时表可以减少冗余中间表的存在,在一些复杂操作时,往往需要借助一些中间表去完成功能,但一般来说普通表的创建是需要数据库管理员来统计创建维护的。临时表的存在就允许中间表用完即清,减少数据库系统中冗余表的存在。另外,临时表在使用时数据是session间隔离的,其他session不能看到当前session的数据,数据安全性在一定程度上也更好。
提升性能
对于过于复杂并且不易通过普通优化方法调整性能的SQL可以考虑拆分的方法,把SQL中某一部分拆分成独立的SQL并把执行结果存入临时表,拆分常见的场景包括但不限于:
- 作业中多个SQL有同样的子查询,并且子查询数据量较大。
- Plan cost计算不准,导致子查询hash bucket太小,比如实际数据1000W行,hash bucket只有1000。
- 函数(如substr,to_number)导致大数据量子查询选择度计算不准。
- 多DN环境下对大表做broadcast的子查询。
点击关注,第一时间了解华为云新鲜技术~
一文讲透数仓临时表的用法相关推荐
- 【hadoop】一文讲透hdfs的delegation token
1.概述 转载并且补充:一文讲透hdfs的delegation token 最近我也在研究这个,学习一下. 1.1 起因 我最近在做FLink kerberos认证.我在flink配置文件中配置正确的 ...
- 10自带sftp服务器_一文讲透FTP和SFTP的区别
阅读本文约需要10分钟,您可以先关注我们或收藏本文,避免下次无法找到. FTP和SFTP都是文件传输协议,我们知道FTP使用的是20和21端口,SFTP使用的是22端口.另外,SFTP前面的S应该是S ...
- js打印线程id_一文讲透“进程,线程和协程”
一文讲透"进程,线程和协程" 本文从操作系统原理出发结合代码实践讲解了以下内容: 什么是进程,线程和协程? 它们之间的关系是什么? 为什么说Python中的多线程是伪多线程? 不同 ...
- 双线macd指标参数最佳设置_一文讲透双线MACD指标及其实战运用
原标题:一文讲透双线MACD指标及其实战运用 船长的舍得交易体系技术理论模型中,我们要用到两大指标,分别是均线系统和双线MACD指标. 很多小伙伴都喜欢用双线MACD这个指标,但是90%的人都不知道其 ...
- 【敏捷开发】一文讲透敏捷管理中的DoR、DoD与AC
文章目录 一.需求侧:DoR 案例: DoR是什么? 如何建立DoR的标准? DoR样例 1.需求 2.交互 3.架构 二.研发侧:DoD DoD是什么? 如何建立DoD的标准? DoD样例 三.用户 ...
- 一文讲透『大神修炼心法』!35岁让自己过的越来越好!
Cocos 的老铁,如果你这几天没有被麒麟子给卷到?那说明你还没有真正进入 Cocos 圈子里来.为什么这么说呢?看下面. 3月1号 23:57 | 2800+字 麒麟子全方位解读 Cocos Cyb ...
- 一文讲透植物内生菌研究怎么做 | 微生物专题
内容导览 1. 隐秘而强大的植物内生菌 2. 难以区分的植物内生菌 3. 更好的植物内生细菌测序方法 3.1 LNA-16S测序鉴定内生细菌原理 3.2 LNA-16S测序鉴定内生细菌占比高达99% ...
- cstring只获取到第一个数_一文讲透 Dubbo 负载均衡之最小活跃数算法
(给ImportNew加星标,提高Java技能) 作者:why技术(本文来自作者投稿) 本文是对于Dubbo负载均衡策略之一的最小活跃数算法的详细分析.文中所示源码,没有特别标注的地方均为2.6.0版 ...
- 万字长文,一文讲透!终于有人把商业智能(BI)讲清楚了
新一代信息化.数字化技术和应用的落地,使得商业智能BI在市场上的规模越来越大,各行各业的企业都开始通过部署商业智能BI来帮助企业更好的促进业务发展.提供准确的业务.管理决策. 这些不同领域的企业把商业 ...
最新文章
- Java - 将整数转换为字符串[duplicate]
- “十四五”要建设的「交通强国」,会让我们都坐上自动驾驶车么?
- Windows XP中安装虚拟网卡microsoft loopback adapter
- NF5270M3服务器主板安装系统,NF5270M3 – 主板相关
- textmate开发一个blog
- 基于注解的Spring MVC整合Hibernate(所需jar包,spring和Hibernate整合配置,springMVC配置,重定向,批量删除)
- leetcode222. 完全二叉树的节点个数(两种做法)
- 2018-08-03北大青鸟S1结业 项目MyKTV的总结
- 数据不平衡问题及解决方案
- ios学习:UIToolBar的单独使用
- 896.Montonic Array - LeetCode
- OpenCV图像处理基础操作(2)
- Mixly第三方自定义用户库实现
- Matlab中如何清除persistent 变量
- 擦窗机器人毕业设计_家用擦玻璃清洁机器人结构设计毕业设计说明方案.doc
- java特种兵读书笔记(3-5)——java程序员的OS之OOM
- 实验有效的js原生前端 全国三级联动
- 计算机网络协议(五)——DNS、HTTPDNS
- 数字信号处理专业术语翻译
- 使用Jobs之创建jobs
热门文章
- ldap 管理_彻底改变内容管理,财务,LDAP等
- github 创始人_GitHub联合创始人Scott Chacon的视频采访,探讨代码之外的未来
- (2)JavaScript书写语法
- C语言之变量存储类型与链接属性
- Bootstrap 表单的基本控件
- 修复IE下相对容器中绝对定位Bug
- c语言数字排列和算法思路,冒泡排序、快速排序算法理解及C程序实现
- 长微博android,Android 上最强大的长微博工具:BlackLight 长微博
- matlab中if可以判断或语句吗,matlab中if 语句后面的判别式不能是算术表达式?或者说变量?...
- 禁用UpdateOrchestrator重新启动任务