PyODPS 中使用 Python UDF
摘要: PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。
点此查看原文:http://click.aliyun.com/m/41092/
PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。下面我们分开说明。
作为准备工作,我们需要 ODPS 入口,可以通过直接初始化,或者使用 room 机制 加载。
from odps import ODPSo = ODPS('your-access-id', 'your-access-key', 'your-project')
MaxCompute SQL 中使用 Python UDF
首先,我们需要写一个 Python 文件,假设我们就是把某一列按 csv 格式放的一列转成 json 格式。
import jsonfrom odps.udf import annotate@annotate('string->string')
class Transform(object):def evaluate(self, x):columns = list('abc')d = dict(zip(columns, x.split(',')))return json.dumps(d)
假设这个文件叫 my.py,接下来我们就需要创建 py 资源。
r = o.create_resource('csv_to_json.py', 'py', fileobj=open('my.py'))
fileobj 参数也可以是 str 类型,就是表示文件的内容
接着我们就可以创建 Python UDF 了。
o.create_function('csv_to_json', class_type='csv_to_json.Transform', resources=[r])
这里我们指定了函数名叫 csv_to_json,主类使我们上传的 csv_to_json.py 文件里的 Transform 类。
现在我们就可以在 MaxCompute SQL 中调用这个 UDF 了。
o.execute_sql('select csv_to_json(raw) from pyodps_test_udf')
这样我们就完成了在 PyODPS 中使用 MaxCompute SQL + Python UDF 的整个过程。
PyODPS DataFrame
对于 PyODPS DataFrame 来说,用户只需要写普通的 Python 函数或者类,在函数或者类里,甚至可以读取全局变量,这样给开发带来了极大的方便。
和上面的例子目标相同,我们定义一个 transform 函数即可。然后我们对于 DataFrame 的一列调用 map 方法来应用这个函数。
passed_columns = list('abc') # 可以从数据库中读取或者写死def transform(x):import jsond = dict(zip(passed_columns, x.split(',')))return json.dumps(d)df.raw.map(transform)
In [30]: dfraw
0 1,2,3
1 4,5,6
2 7,8,9In [31]: df.raw.map(transform)raw
0 {"a": "1", "c": "3", "b": "2"}
1 {"a": "4", "c": "6", "b": "5"}
2 {"a": "7", "c": "9", "b": "8"}
实际上,PyODPS DataFrame 在用 MaxCompute 执行的时候,也会创建 Python UDF 来实现这个功能,但用户不需要去创建文件、资源和函数这些过程,一切都是 Python 原生函数和类,整个过程相当顺畅。
另外可以看到,在上面的 my.py 里,我们也是定义了一个 columns 参数的,而如果这个参数是通过变量传进去的话,在 Python UDF 里非常麻烦,可能常常需要用一些 tricky 的方法,比如写到某个文件资源,然后在 UDF 里读取之类的。而对于 DataFrame 来说,完全没有这个问题,我们可以自由读取全局变量。
不过要注意的是,这个全局变量是被序列化到各个机器上的,所以你修改它不会全局生效。
好了,还有什么问题可以随时和我们取得联系。
文档:http://pyodps.readthedocs.io/zh_CN/latest/
代码:https://github.com/aliyun/aliyun-odps-python-sdk ,欢迎提 issue 和 merge request
PyODPS 中使用 Python UDF相关推荐
- 如何在 PyFlink 1.10 中自定义 Python UDF?
我们知道 PyFlink 是在 Apache Flink 1.9 版新增的,那么在 Apache Flink 1.10 中 Python UDF 功能支持的速度是否能够满足用户的急切需求呢? Pyth ...
- MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发
摘要: 2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python ...
- Flink SQL Client注册Python UDF完整流程
概述 本文是对[1]的复现 支持的版本是 组件 版本 备注 Flink 1.12.0 apache版本 apache-flink 1.12.0 pip安装 python 3.6.10 anaconda ...
- 如何在 Apache Flink 中使用 Python API?
本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享.重点为大家介绍 Flink Python API 的现状及未来规划, ...
- python flink_如何在 Apache Flink 中使用 Python API?
原标题:如何在 Apache Flink 中使用 Python API? 导读:本文重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Pyth ...
- udf开发入门(python udf、hive udf)
开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具 ...
- Python UDF
Python UDF 1.受限环境 2.第三方库 3.参数与返回值类型 4.UDF 5.UDAF 6.UDTF 7.引用资源 MaxCompute UDF包括UDF.UDAF和UDTF三种函数,本文将 ...
- java中调用python
在Java中调用Python </h1><div class="clear"></div><div class="postBod ...
- Blender中的Python脚本介绍学习教程
Blender中的Python脚本介绍学习教程 MP4 |视频:h264,1280×720 |音频:AAC,48000 Hz 语言:英语+中英文字幕(根据原英文字幕机译更准确)|大小解压后:1.63 ...
最新文章
- Matlab数据的可视化 -- 简易线性函数图
- C#编程(四十八)----------列表
- 纯C++创建Windows窗体(理解WinMain()与WndProc())
- redis搭建集群(非主从)版本5.0
- Yii 1.0 伪静态即Yii配置Url重写(转)
- Leetcode每日一题:58.length-of-last-word(最后一个单词的长度)
- awk使用多个分割符
- Weblogic安装及配置
- 《童趣》——《所见》《小儿垂钓》《村居》《浮生六记·童趣》 ——诗文诵读教学设计
- 《流媒体服务器》专栏总览丨蓄力计划
- 软件构造设计模式III(转载整合)
- 学习笔记整理:网络应用技术-实验-路由器交换机配置命令
- Android知识架构 · Java的编程思想
- PyCharm代码格式化插件
- 服务计算作业二——GO语言TDD实践报告
- 2020年十大OA办公系统排行榜
- 订单23系统服务器,死亡搁浅图文攻略 主线流程+订单系统+运送流程+建筑搭建 第3节芙拉吉尔 订单No23.系统服务器-游侠网...
- MYSQL 查询语句(No.10)
- 垃圾渗滤液处理常用的组合工艺
- Matlab符号数学Symbolic Math Toolbox™帮助文档(全)
热门文章
- mysql搜索标题及时间_mysql搜索标题,描述和多行标记
- google 浏览器默认打开控制台_chrome浏览器使用 Console(控制台)
- c mysql 视图_MySQL入门教程(七)之视图
- 计算机相近专业有哪些,计算机相关的专业有哪些
- python神经网络调节参数_神经网络进阶-用python实现一个完整的神经网络框架并在CIFAR10数据集上调参...
- 与「韦神」齐名,他35岁任教清华!18岁一战成名,数学界颜值巅峰
- 双11又来了,网友:比数学考试都难
- 专访图灵奖得主:完全自动驾驶是计算机接近人类智能的一大步
- mysql root密码过期了_Mac下重置mysql的root密码
- ns2相关学习——TCL脚本编写(3)