pig---用户自定义函数(UDF)
为什么80%的码农都做不了架构师?>>>
用户自定义函数(UDF)
public abstract class EvalFunc<T> {
public abstract T exec(Tuple input) throws IOException;
public List<FuncSpec> getAvgToFuncMapping() throws FrontendException;
public FuncSpec outputSchema() throws FrontendException; }
输入元组的字段包含传递给函数的表达式,输出是泛型;对于过滤函数输出就是Boolean类型。建议尽量在
getAvgToFuncMapping()/outputSchema()申明输入和输出数据的类型,以便Pig进行类型转换或过滤不匹配类型的错误值。
Grunt>REGISTER pig-examples.jar;
DEFINE isGood org.hadoopbook.pig.IsGoodQuality();
加载UDF
public LoadFunc {
public void setLocation(String location, Job job);
public InputFormat getInputFormat();
public void prepareToRead(RecordReader reader, PigSplit split);
public Tuple next() throws IOException; }
类似Hadoop,Pig的数据加载先于mapper的运行,所以保证数据可以被分割成能被各个mapper独立处理的部分非常重要。从Pig 0.7开始,
加载和存储函数接口已经进行了大幅修改,以便与Hadoop的InputFormat和OutputFormat类基本一致。
Grunt>Register loadfunc.jar
Define customLoad org.hadoopbook.pig.loadfunc()
records = load ‘input/sample.txt’ using customLoad(‘16-19, 88-92, 93-93’)
as (year:int, temperature:int, quality:int);
更多精彩内容请关注:http://bbs.superwu.cn
关注超人学院微信二维码:
转载于:https://my.oschina.net/crxy/blog/420708
pig---用户自定义函数(UDF)相关推荐
- 【Flink】Flink Table SQL 用户自定义函数: UDF、UDAF、UDTF
本文总结Flink Table & SQL中的用户自定义函数: UDF.UDAF.UDTF. UDF: 自定义标量函数(User Defined Scalar Function).一行输入一行 ...
- Hive 之 用户自定义函数 UDF UDAF UDTF
一 什么是UDF UDF是UserDefined Function 用户自定义函数的缩写.Hive中除了原生提供的一些函数之外,如果还不能满足我们当前需求,我们可以自定义函数. 除了UDF 之外,我们 ...
- Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
- 4.2.11 Flink-流处理框架-Table API 与 SQL-函数(Functions)之用户自定义函数 UDF
目录 1.写在前面 2.标量函数(Scalar Functions):一对一 3.表函数(Table Functions):一对多 4.聚合函数(Aggregate Functions) 5.表聚合函 ...
- T-SQL里数据库工程师都不知道的秘密之SQL Server自定义函数UDF
T-SQL SQL Server UDF自定义函数概念与案例实战 函数的定义 这里的函数指的是用户自定义函数(UDF)全名为(user-defined function),以下简称为函数. 它是数据库 ...
- hive 元数据 自定义_Hive中的用户自定义函数
1.1 关于自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展. 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考 ...
- sql server 2008学习11 UDF用户自定义函数
用户自定义函数 和存储过程是类似的, 是一组 有序的t-sql语句,udf被 预先优化和编译,并且可以作为一个单元来进行调用. 使用存储过程 时 可传入参数,传出参数.可以返回值,不过该值用于指示成 ...
- 【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数(用户自定义函数)、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录 一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务 二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
- SQL SERVER 用户自定义函数(UDF)深入解析
本文内容概要: UDF 概念.原理.优缺点.UDF 的分类 详细讲述3种 UDF 的创建.调用方法以及注意事项 UDF 的实践建议 基本原理: UDF:user-defined functions,用 ...
- Hive UDF 用户自定义函数-手机号掩盖(脱敏)
需求分析 能够对输入数据进行非空判断.手机号位数判断 能够实现校验手机号格式,把满足规则的进行****处理 对于不符合手机号规则的数据直接返回,不处理 Maven必须配置 <dependenci ...
最新文章
- 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
- 一文看懂 NLP 中的情感分析任务
- 上海女白领吃火锅碰瓷,支付宝口碑居然真的要赔?
- 关于TableView中图片的延时加载(转)
- python函数时间,python之时间函数
- 详解GaussDB(DWS) explain分布式执行计划
- C# 中对于json的解析小结
- oracle 修改字段长度_Oracle修改字符集前如何找出可能出现问题的数据?
- Build your own distribution based on Fedora CoreOS
- [转贴] 电脑族请关爱自己的身体--远离“电脑病”完全实用手册
- python 读取特定字符之间数据_python 搜索每一行特定字符串之间的数据,求高人帮忙写人程序...
- windows下设置PHP环境变量
- 揭秘springboot集成tomcat原理
- 计算机管理规划,2019年计算机软考系统规划与管理师考试大纲
- java.io.IOException: (null) entry in command string: null chmod 0700 E:\tmp\hadoop\mapred\staging\te
- 网站实时监控,Web网站及前端性能监控方法
- 【SAP-CO】成本中心会计报表
- 【加拿大访问学者】加拿大康考迪亚大学访问学者须知【蒙特利尔访问学者必看 Concordia University Visiting Scholars or Research Interns】
- 计算机及相关经典书籍收集
- 七夕节微信表白墙小程序源码/基于Laravel的表白墙微信小程序源码