Apache Calcite官方文档中文版-概览-1.背景
第一部分 概览
1. 背景
Apache Calcite是一个动态数据管理框架。它包含了许多组成典型数据管理系统的经典模块,但省略了一些关键性的功能: 数据存储,数据处理算法和元数据存储库。
Calcite有意地远离了存储和处理数据的任务。如我们所见,这使得它成为在应用程序和一个或多个数据存储位置和数据处理引擎之间的最佳中间层选择。它同样也是构建数据库的完美基础选择: 只需要在它的基础上添加数据。
下面为了展示说明,我们建立了一个空的Calcite实例并查询数据。
public static class HrSchema {public final Employee[] emps = 0;public final Department[] depts = 0;
}
Class.forName("org.apache.calcite.jdbc.Driver");
Properties info = new Properties();
info.setProperty("lex", "JAVA");
Connection connection = DriverManager.getConnection("jdbc:calcite:", info);
CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);
SchemaPlus rootSchema = calciteConnection.getRootSchema();
Schema schema = ReflectiveSchema.create(calciteConnection,
rootSchema, "hr", new HrSchema());
rootSchema.add("hr", schema);
Statement statement = calciteConnection.createStatement();
ResultSet resultSet = statement.executeQuery("select d.deptno, min(e.empid)\n"+ "from hr.emps as e\n"+ "join hr.depts as d\n"+ " on e.deptno = d.deptno\n"+ "group by d.deptno\n"+ "having count(*) > 1");
print(resultSet);
resultSet.close();
statement.close();
connection.close();
大家可能对上面的代码比较疑惑,数据库在哪里?这里没有数据库。在我们调用ReflectiveSchema.create将一个java object注册为schema,以及这个集合的成员emps和depts作为表之前,connection都是空的。
Calcite并不想管理数据,它甚至没有标准的数据格式。上面的例子使用了内存数据集,并且使用linq4j libaray的groupBy和join操作来对他们进行处理,但Calcite同样也支持以其他标准数据格式对数据进行处理,例如JDBC。在上面的例子中,将下面的代码
Schema schema = ReflectiveSchema.create(calciteConnection, rootSchema, "hr", new HrSchema());
替换成:
Class.forName("com.mysql.jdbc.Driver");
BasicDataSource dataSource = new BasicDataSource();
dataSource.setUrl("jdbc:mysql://localhost");
dataSource.setUsername("username");
dataSource.setPassword("password");
Schema schema = JdbcSchema.create(rootSchema, "hr", dataSource,null, "name");
Calcite就可以通过JDBC来执行同样的查询了。对应用来说,数据和API不会产生任何变化,但底层的实现却差异巨大。Calcite使用优化规则来将JOIN和GROUP BY操作下推到源数据库中进行执行。
基于内存和基于JDBC只是两个大家较为熟悉的例子。Calcite可以处理任意一种数据源和数据格式。如果想要增加数据源,我们需要编写一个适配器来告诉Calcite,它应该将数据源中的什么样的集合视为“table”来进行操作。
如果想要进一步更智能地集成,我们可以编写自己的优化器规则。优化器规则允许Calcite来处理新格式的数据,并注册新的算子(如更优化的join算法),同时还允许Calcite来对查询转化为算子的过程进行优化。Calcite会结合用户提供的规则和算子与系统内建规则和算子,执行基于成本的优化,生成高效的执行计划。
编写适配器Adapter
Calcite在example/csv子项目下提供了CSV的适配器。它能很好地支持应用程序的功能需求,同时如果正在编写自己的适配器,它也能作为一个足够简单的例子来作为参考模板。
具体使用CSV 适配器和编写其他适配器的方法请查看下一章节2教程。
帮助(HOWTO)章节提供了更多使用其他适配器的信息,和常用的使用场景。
功能状态
Calcite提供了以下特性:
1) 查询解析器、验证器和优化器
2) 以JSON格式读取模型
3) 标准函数以及标准聚合函数
4) 针对Linq4j和JDBC后端的JDBC查询
5) Linq4j front-end
6) SQL特性:SELECT, FROM (包括JOIN语法), WHERE, GROUP BY (包括GROUPING SETS), 聚合函数 (包括COUNT(DISTINCT...) 和FILTER),HAVING, ORDER BY(包括NULLS FIRST/LAST), 集合操作 (UNION, INTERSECT, MINUS), 子查询(包括相关子查询), 窗口聚合函数,LIMIT (Postgres语法); SQL reference章节中提供了更详细的信息
7) 本地和远程JDBC驱动器,详情参考Avatica章节
8) 多种适配器
转载于:https://blog.51cto.com/1196740/2160519
Apache Calcite官方文档中文版-概览-1.背景相关推荐
- Apache Calcite官方文档中文版- 概览-2. 教程
第一部分 概览 2. 教程 本章针对Calcite的连接建立提供了循序渐进的教程,使用一个简单的适配器来将一个CSV文件目录以包含Schema信息的tables形式呈现,并提供了一个完全SQL接口 ...
- Apache Calcite官方文档中文版- 进阶-1. 适配器
第二部分 进阶(Advanced) 1. 适配器(Adapters) 1.1 Schema adapters 一个schema adapter允许Calcite去读取特定类型的数据,将这些数据以一 ...
- Apache Knox官方文档中文版(1.1.0)--简介
Apache Hadoop生态中REST API和应用的网关 Apache Knox是一个通过REST API和UI与Apache Hadoop 部署交互的应用网关. Knox网关为所有与Ha ...
- Apache Ambari官方文档中文版
Apache Ambari Installation Apache Ambari Administration 持续更新中...
- Python Turtle 海龟绘图详解官方文档中文版
Python Turtle 海龟绘图详解 (官方文档中文版)-安徽省太湖中学陈晓中整理 概述 海龟绘图很适合用来引导孩子学习编程. 最初来自于 Wally Feurzeig, Seymour Pape ...
- Hyperledger Fabric 2.0 官方文档中文版 第3章 关键概念
Hyperledger Fabric 2.0 官方文档中文版 第3章 关键概念 总目录 3.关键概念 引言 什么是区块链? 区块链为什么有用? 什么是Hyperledger Fabric? Hyper ...
- scikit-learn sklearn 0.18 官方文档中文版
ApacheCN(Apache中文网)- 关于我们 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813869 ApacheCN ...
- TensorFlow 官方文档中文版发布啦(持续维护)
TensorFlow 是 Google 研发的第二代人工智能学习系统,是 Google 为了帮助全球开发者们更加方便和高效地开发机器学习 (Machine Learning)和人工智能 (AI) 应用 ...
- scikit-learn (sklearn) 官方文档中文版
scikit-learn (sklearn) 官方文档中文版 sklearn 0.21.3 中文文档 sklearn 0.21.3 中文示例 sklearn 英文官网 介绍 sklearn (scik ...
最新文章
- 你不得不会的MarkDown--手把手教你掌握MarkDown
- 一刷leetcode——计算几何
- 在Linux上如何打开或运行AppImage软件
- 数据结构之查找二叉树
- mac svn .a文件的上传方法
- linux 3.10 内核,升级linux内核到3.10
- 数据结构之线段树入门(单点更新区间查询)
- 解决linux下source /etc/profile关闭终端失效问题
- Angular最新教程-第六节编写响应式导航栏
- 刷新页面,无论点击多少次让Element UI的Message消息提示弹出一个
- tableau如何按条件累加_Pointer分享:Tableau学习—8种图表介绍
- 转:PyDev for Eclipse 简介
- PostgreSQL 11 preview - Faster partition pruning
- 用友v11服务器的共享文件,用友U8系列财务及供应链一体化操作手册u8V11.1(标准)版.docx...
- 最详细教学--实现win10 多用户同时远程登录内网机--win10+frp+rdpwrap+阿里云服务器
- 1、【易混淆概念集】-前三章 1 工作绩效数据、信息、报告
- 如何备份 WordPress 数据库
- 关于SCO Unix 串口通讯
- mysql ext3 ext4_Mysql如何选择文件系统?(ext4 vs ext3 vs jfs vs xfs vs reise
- 放大镜 讲课_放大镜说课稿
热门文章
- java字段偏移量什么意思_求结构体的字段的偏移量
- pandas合并groupby_Pandas中级技巧-数据的灵活运算
- Vue3+Cli4 中使用 Echarts 5
- android pdfjet_GitHub - lnj721/PdfBuilder: Android端使用图片生成PDF文件
- 微信小程序四种父子相互传值方式
- 开源运维管理软件排名_企业运维监控平台架构设计与实现(ganglia篇)
- python中注释的作用_Python函数添加注释的好处
- 机房收费系统合作版(一):开始团队合作之旅
- 吴恩达新研究:AI看心电图,诊断心律失常准确率超过人类医生丨Nature
- 不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点