Hive UDAF开发

Hive进行UDAF开发，相对要比UDF复杂一些，不过也不是很难。

请看一个例子

package org.hrj.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;

public class UDAFSum_Sample extends NumericUDAF {
        public static class Evaluator implements UDAFEvaluator {
                private boolean mEmpty;
                private double mSum;
                public Evaluator() {
                        super();
                        init();
                }

public void init() {
                        mSum = 0;
                        mEmpty = true;
                }

public boolean iterate(DoubleWritable o) {
                        if (o != null) {
                                mSum += o.get();
                                mEmpty = false;
                        }
                        return true;
                }

public DoubleWritable terminatePartial() {
                        // This is SQL standard - sum of zero items should be null.
                        return mEmpty ? null : new DoubleWritable(mSum);
                }

public boolean merge(DoubleWritable o) {
                        if (o != null) {
                                mSum += o.get();
                                mEmpty = false;
                        }
                        return true;
                }

public DoubleWritable terminate() {
                        // This is SQL standard - sum of zero items should be null.
                        return mEmpty ? null : new DoubleWritable(mSum);
                }
        }
}

将java文件编译成Sum_Sample.jar
进入hive

hive> add jar Sum_sample.jar;

hive> create temporary function sum_test as 'com.hrj.hive.udf.UDAFSum_Sample';

hive> select sum_test(t.num) from t;

hive> drop temporary function sum_test;

hive> quit;

关于UDAF开发注意点：

需要import org.apache.hadoop.hive.ql.exec.UDAF以及org.apache.hadoop.hive.ql.exec.UDAFEvaluator,这两个包都是必须的
函数类需要继承UDAF类，内部类Evaluator实现UDAFEvaluator接口
Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数
1. init函数类似于构造函数，用于UDAF的初始化
2. iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean
3. terminatePartial无参数，其为iterate函数轮转结束后，返回乱转数据，iterate和terminatePartial类似于hadoop的Combiner
4. merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean
5. terminate返回最终的聚集函数结果

转载于:https://blog.51cto.com/richiehu/386113

Hive UDAF开发相关推荐

Hive UDAF开发详解
说明这篇文章是来自 Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比 ...
6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)
目录: 5 HIVE开发 5.1 Hive JDBC开发 5.2 Hive UDF 6 Hive的体系结构 6.2 Thrift服务器 6.3 Driver 6.4 元数据库Metastore 6.5 ...
Hive UDF开发
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...
Hive UDF 开发手册
文档目的笔者在工作中有接触到 Hive UDF 的开发任务,大部分 UDF 开发并不困难,困难的往往是: 不清楚 UDF 代码的编写逻辑(UDF.UDTF.UDAF) 不清楚如何传入特定类型的参数 ...
最强最全面的Hive SQL开发指南，超四万字全面解析！
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQl的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表 ...
Hive中分组取前N个值
分享两篇文章,结合看更清楚一点. 背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩. 这个就是典型在分组取Top N的需求. 解决思路对于取出每科成绩前100名的 ...
Pig、Hive、MapReduce 解决分组 Top K 问题
2019独角兽企业重金招聘Python工程师标准>>> 问题: 有如下数据文件 city.txt (id, city, value) cat city.txt 1 wh 500 2 ...
Hadoop的学习笔记（Hive|pig|zookeeper|hbase）
轉載的,此筆記的鏈接地址請點擊此處 hadoop笔记本 <div class="postText"><div id="cnblogs_post_body ...
udf,udaf,udtf之间的区别
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /*** @function 自定义UDF统计最小值* @author John**/publi ...

Hive UDAF开发

Hive UDAF开发相关推荐

最新文章

热门文章