Apache Drill允许用户使用ANSI SQL探索任何类型的数据。 这很棒,但是Drill的作用远远不止于此,它允许您创建自定义函数来扩展查询引擎。 这些自定义功能具有任何Drill基本操作的所有性能,但是允许执行这些性能会使编写这些功能比您期望的要复杂一些。

在本文中,我将使用一个非常基本的示例逐步说明如何创建和部署新功能。 请注意,您可以在文档中找到许多有关“ 钻取自定义功能”的信息 。

让我们创建一个新函数,使您能够屏蔽字符串中的某些字符,并使它变得非常简单。 新功能将允许用户从头开始隐藏x个字符,然后替换为他们选择的任何字符。 看起来像:

MASK( 'PASSWORD' , '#' , 4 ) => ####WORD
  • 您可以在以下Github存储库中找到完整的项目。

如前所述,我们可以想象很多高级功能,但是我的目标是着重于编写自定义功能的步骤,而不是功能的作用。

先决条件

为此,您将需要:

  • Java Developer Kit 7或更高版本
  • Apache Drill 1.1或更高版本
  • Maven 3.0或更高版本

依存关系

以下Drill依赖项应添加到您的Maven项目中

<dependency><groupId>org.apache.drill.exec</groupId><artifactId>drill-java-exec</artifactId><version>1.1.0</version>
</dependency>

资源

Mask函数是DrillSimpleFunc的实现。

开发人员可以创建两种类型的自定义函数:

  • 简单函数:这些函数具有一行作为输入,并产生单个值作为输出
  • 聚合函数:接受多行作为输入并产生一个值作为输出

简单功能通常称为UDF,代表用户定义的功能。 聚合功能称为UDAF,代表用户定义的聚合功能。

在此示例中,我们只需要转换每一行上一列的值,因此一个简单的函数就足够了。

创建功能

第一步是实现DrillSimpleFunc接口。

package org.apache.drill.contrib.function;import org.apache.drill.exec.expr.DrillSimpleFunc;
import org.apache.drill.exec.expr.annotations.FunctionTemplate;@FunctionTemplate(name="mask",scope= FunctionTemplate.FunctionScope.SIMPLE,nulls = FunctionTemplate.NullHandling.NULL_IF_NULL
)
public class SimpleMaskFunc implements DrillSimpleFunc{public void setup() {}public void eval() {}
}

函数的行为由注释驱动(第6-10行)*函数的名称 *函数的范围 ,在我们的情况下为简单*值为NULL时的操作,在这种情况下,Reverse将仅返回NULL

现在,我们需要使用setup()eval()方法来实现函数的逻辑。

  • setup是不言自明的,在我们这里,我们不需要设置任何东西。
  • eval是该功能的核心。 如您所见,此方法没有任何参数,并返回void。 那么它是怎样工作的?

实际上,该函数将动态生成(请参阅DrillSimpleFuncHolder ),并且输入参数和输出保持器是通过注释的保持器定义的。 让我们来看看这个。

import io.netty.buffer.DrillBuf;
import org.apache.drill.exec.expr.DrillSimpleFunc;
import org.apache.drill.exec.expr.annotations.FunctionTemplate;
import org.apache.drill.exec.expr.annotations.Output;
import org.apache.drill.exec.expr.annotations.Param;
import org.apache.drill.exec.expr.holders.IntHolder;
import org.apache.drill.exec.expr.holders.NullableVarCharHolder;
import org.apache.drill.exec.expr.holders.VarCharHolder;import javax.inject.Inject;@FunctionTemplate(name = "mask",scope = FunctionTemplate.FunctionScope.SIMPLE,nulls = FunctionTemplate.NullHandling.NULL_IF_NULL
)
public class SimpleMaskFunc implements DrillSimpleFunc {@ParamNullableVarCharHolder input;@Param(constant = true)VarCharHolder mask;@Param(constant = true)IntHolder toReplace;@OutputVarCharHolder out;@InjectDrillBuf buffer;public void setup() {}public void eval() {}}

我们需要定义函数的参数。 在这种情况下,我们有3个参数,每个参数都使用@Param批注定义。 另外,我们还必须使用@Output注释定义返回的值。

我们的mask函数的参数为​​:

  • 可为空的字符串
  • 掩码字符或字符串
  • 从第一个字符开始替换的字符数

该函数返回:

  • 一串

对于每个参数,您都必须使用一个holder类。 对于String ,这由VarCharHolderNullableVarCharHolder 21、24,30行管理,该行提供了一种缓冲区,可以有效地管理较大的对象。 由于我们正在处理VarChar您还必须注入另一个缓冲区,该缓冲区将用于输出行33-。 请注意,Drill实际上并不将Java堆用于查询中正在处理的数据,而是将这些数据保留在堆外,并为我们管理生命周期,而无需使用Java垃圾收集器。

因为我们有了适当的类(输入/输出对象),所以我们差不多完成了,只需要实现eval()方法本身,并使用这些对象即可。

public void eval() {// get the value and replace withString maskValue = org.apache.drill.exec.expr.fn.impl.StringFunctionHelpers.getStringFromVarCharHolder(mask);String stringValue = org.apache.drill.exec.expr.fn.impl.StringFunctionHelpers.toStringFromUTF8(input.start, input.end, input.buffer);int numberOfCharToReplace = Math.min(toReplace.value, stringValue.length());// build the mask substringString maskSubString = com.google.common.base.Strings.repeat(maskValue, numberOfCharToReplace);String outputValue = (new StringBuilder(maskSubString)).append(stringValue.substring(numberOfCharToReplace)).toString();// put the output value in the out bufferout.buffer = buffer;out.start = 0;out.end = outputValue.getBytes().length;buffer.setBytes(0, outputValue.getBytes());
}

代码很简单:

  • 获取面具本身-第4行
  • 获取值–第5行
  • 获取要替换的字符数–第7行
  • 生成带有掩码值的新字符串-第10/11行
  • 创建并填充输出缓冲区–第14至17行

但是,对于习惯于阅读Java代码的人来说,这段代码确实有些奇怪。 之所以会出现这种奇怪现象,是因为在查询中执行的最终代码实际上会即时生成。 这使Drill可以利用Java的即时(JIT)编译器来达到最大速度。 要使此工作有效,您必须遵守一些基本规则:

  • 不要使用import,而是使用完全限定的类名 ,这是在第10行使用Strings类完成的。 (来自Apache Drill中打包的Google Guava API)
  • ValueHolders类,在我们的例子VarCharHolderIntHolder应该被操纵结构一样,所以你必须调用辅助方法,例如getStringFromVarCharHoldertoStringFromUTF8 。 调用诸如toString类的toString将导致非常严重的问题。

现在,我们准备部署和测试此新功能。

再一次,由于Drill将生成源代码,因此您必须以在classpath中存在函数的类和源代码的方式来准备软件包 。 这不同于通常打包Java代码的方式,但是Drill能够进行必要的代码生成是必需的。 Drill使用编译后的代码访问注释,并使用源代码进行代码生成。

一种简单的方法是使用maven构建项目,尤其是在pom.xml文件中使用如下所示的maven-source-plugin :

<plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-source-plugin</artifactId><version>2.4</version><executions><execution><id>attach-sources</id><phase>package</phase><goals><goal>jar-no-fork</goal></goals></execution></executions>
</plugin>

现在,当您使用mvn package构建时,Maven将生成2个jar:

  • 带有类和资源的默认jar( drill-simple-mask-1.0.jar
  • 第二个带有源的jar( drill-simple-mask-1.0-sources.jar

最后,您必须在项目的resources文件夹中添加drill-module.conf文件,以告诉Drill您的jar包含自定义函数。 如果您没有为功能设置特定的配置,则可以将此文件保留为空。

一切准备就绪,您现在可以打包和部署新功能,只需打包并将Jars复制到Drill 3rd party文件夹中即可; $ DRILL_HOME / jars / 3rdparty,其中$ DRILL_HOME是您的Drill安装文件夹。

mvn clean packagecp target/*.jar  $DRILL_HOME/jars/3rdparty

重新开始练习。

跑 !

现在,您应该可以在查询中使用您的函数了:

SELECT MASK(first_name, '*' , 3) FIRST , MASK(last_name, '#', 7) LAST  FROM cp.`employee.json` LIMIT 5;
+----------+------------+
|  FIRST   |    LAST    |
+----------+------------+
| ***ri    | ######     |
| ***rick  | #######    |
| ***hael  | ######     |
| ***a     | #######ez  |
| ***erta  | #######    |
+----------+------------+

结论

在这个简单的项目中,您学习了如何编写,部署和使用自定义的Apache Drill Function。 现在,您可以扩展它以创建自己的函数。

扩展Apache Drill(使用自定义功能,存储插件或格式)时,要记住的一件事是Drill运行时动态生成大量代码。 这意味着在编写和部署扩展时可能必须使用非常特定的模式。 使用我们的基本功能,这意味着我们必须:

  • 部署类和源
  • 使用完全合格的班级名称
  • 使用值持有者类和辅助方法来操纵参数*

翻译自: https://www.javacodegeeks.com/2015/07/apache-drill-how-to-create-a-new-function.html

Apache Drill:如何创建新功能?相关推荐

  1. drill apache_Apache Drill:如何创建新功能?

    drill apache Apache Drill允许用户使用ANSI SQL探索任何类型的数据. 这很棒,但是Drill的作用远远不止于此,它允许您创建自定义函数来扩展查询引擎. 这些自定义函数具有 ...

  2. ROS2入门教程—创建ROS2功能包(C++版)

    ROS2入门教程-创建ROS2功能包(C++版) 1 ROS2中的功能包 2 创建功能包 3 编译功能包 4 设置环境变量 5 运行功能包 6 功能包中的内容 7 修改package.xml文件    ...

  3. 战神4 幕后花絮 概念艺术_Java 9幕后花絮:新功能从何而来?

    战神4 幕后花絮 概念艺术 找出Java幕后发生的事情,以及新功能如何实现 在上一篇文章中,我们介绍了即将发布的Java 9版本的新功能和尚待解决的功能,并简要提到了将新功能添加到下一个版本之前要经历 ...

  4. Java 9幕后花絮:新功能从何而来?

    找出Java幕后发生的事情,以及新功能如何实现 在上一篇文章中,我们介绍了即将发布的Java 9版本的新功能和尚待解决的功能,并简要提到了将新功能添加到下一个版本之前要经历的过程. 由于此过程几乎影响 ...

  5. 谷歌play支付_Google Play的新功能

    谷歌play支付 Google mentioned that in the last 21 months, there have been 116 billion downloads of the a ...

  6. 战神4 幕后花絮 概念艺术_Java 9的幕后花絮–如何制作新功能

    战神4 幕后花絮 概念艺术 这篇文章最初发布在Takipi博客上 -Java和Scala异常分析和性能监控. 在上一篇文章中,我们介绍了即将发布的Java 9版本的新功能和尚待解决的功能,并简要提到了 ...

  7. portlet 2.0_Java Portlet规范V2.0(JSR 286)中有哪些新功能?

    Portlet是组件化的面向用户的应用程序,可创建某种标记. 该标记旨在与其他标记片段聚合到一个更大的应用程序中,例如,如图1所示的门户页面. 图1.一个样本门户页面 因此,可以将Portlet视为基 ...

  8. drill apache_大数据SQL:Apache Drill查询执行功能概述–白板演练

    drill apache 在本周的白板演练中,MapR Technologies产品管理高级总监Neeraja Rentachintala概述了开源Apache Drill如何在大型数据集上实现交互式 ...

  9. Apache Hudi 0.7.0 和 0.8.0 新功能已在 Amazon EMR 中可用

    文末限时福利倒计时3天,不要错过! 前言 Apache Hudi 是一个开源事务性数据湖框架,通过提供记录级插入.更新和删除功能,极大地简化了增量数据处理和数据管道开发.如果您要在 Amazon Si ...

最新文章

  1. python这个软件学会能做什么工作-工作三年却被实习生抢了饭碗,学会Python到底有多吃香?...
  2. Python基础:一起来面向对象 (二) 之搜索引擎
  3. 互联网与CTI技术结合之商业应用
  4. X264编码流程详解(转)
  5. boost::make_nvp用法的实例
  6. Linux学习之CentOS(二)--初识linux的一些常用命令
  7. Android中build target,minSdkVersion,targetSdkVersion,maxSdkVersion概念区分
  8. [PHP 安全] pcc —— PHP 安全配置检测工具
  9. 【超分辨率实验】Matlab-使用深度学习的单图像超分辨率(Single Image Super-Resolution Using Deep Learning)
  10. 程序员有必要参加软考吗?大一可以考的编程证书还有哪些
  11. Python:获取文件夹内 文件夹 和 文件数量
  12. win98访问win7方法
  13. 快速傅里叶变换(蝶形算法)
  14. ki51单片机流水灯c语言程序,STC89C51单片机流水灯程序
  15. 动词ing形式的5种用法_动词ing形式的用法及变化规则 | 学思外教
  16. 轻量android模拟器,夜神安卓模拟器6.2.0.0版:开启专业“特需”服务
  17. 解决data too long for column 'name' at row2
  18. 组织架构图怎么画?思维导图创作教程分享
  19. 计算机结构化面试万能套话,结构化面试30句万能套话拯救你.pdf
  20. 数据结构PTA 进阶实验5-3.2 新浪微博热门话题

热门文章

  1. 你们考试,我们都有点紧张呢…
  2. 简化springboot部署,太灵活方便了!
  3. java反射机制的原理与简单使用
  4. php 去掉url中的index.php,php 去掉url中的index.php
  5. php file_put_contents(quot;,php file_put_contents函数怎么用?
  6. python菱形画法解释_用Python画棱形
  7. java数据库编程——执行查询操作(二)
  8. 端到端的地址翻译(虚拟地址是怎样取到相应高速缓存的数据的?)
  9. volatile关键字的作用
  10. graal java_如何在CircleCI上构建支持Graal的JDK8?