近日,阿里云发布PyODPS 0.7.18,主要是针对聚合函数进行优化同时新增对Python 3.7支持。

PyODPS是MaxCompute的Python版本的SDK,SDK的意思非常广泛,辅助开发某一类软件的相关文档、范例和工具的集合都可以叫做“SDK”。 PyODPS在这里的作用是提供了对MaxCompute对象的基本操作和DataFrame框架,可以轻松地在MaxCompute上进行数据分析。

PyODPS对于MaxCompute来说有多重要?
首先MaxCompute是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。MaxCompute可以为用户提供完善的数据导入方案以及多种经典的分布式计算模型,更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。

在MaxCompute上,大家有很多种分析和机器学习的方式。大家可以用在数加的web界面编写SQL,提交SQL作业;可以用console直接执行SQL,等等等。那机器学习呢,大家需要通过PAI命令提交PAI任务,或者在xlab上操作xlib;画图呢?导出数据绘图或者使用xlab。而这一切工具,都是割裂的,你不得不在各个地方进行切换,而且,也没有传统的数据分析和机器学习的快感。

那传统的任务是怎么做的呢,使用RStudio或者jupyter notebook,但对于Pythoner,用pandas进行数据分析、绘图,再用scikit-learn执行机器学习算法,在一个notebook里,能做所有想做的事情,非常高效。

现在呢,整合这一切的就是PyODPS,包含有基础MaxCompute SDK,因此一切对MaxCompute模型都可以操作。除此之外,还包括了DataFrame框架,和机器学习模块,这一切操作都进行了整合。

PyODPS具体实操
安装
PyODPS支持Python2.6以上(包括Python3),系统安装pip后,只需运行pip install pyodps,PyODPS的相关依赖便会自动安装。
快速开始
首先,用阿里云账号初始化一个MaxCompute的入口,如下所示:

根据上述操作初始化后,便可对表、资源、函数等进行操作。
项目空间
项目空间是MaxCompute的基本组织单元,类似于Database的概念。
您可通过 get_project获取到某个项目空间,如下所示:

表操作
通过调用 list_tables可以列出项目空间下的所有表,如下所示:

通过调用 exist_table可以判断表是否存在,通过调用 get_table可以获取表。


创建表的Schema
初始化的方法有两种,如下所示:
通过表的列和可选的分区来初始化。

通过调用Schema.from_lists,虽然调用更加方便,但显然无法直接设置列和分区的注释。

创建表
您可以使用表的Schema来创建表,操作如下所示:

也可以使用逗号连接的 字段名 字段类型字符串组合来创建表,操作如下所示:

在未经设置的情况下,创建表时,只允许使用bigint、double、decimal、string、datetime、boolean、map和array类型。
如果您的服务位于公共云,或者支持tinyint、struct等新类型,可以设置 options.sql.use_odps2_extension = True,以打开这些类型的支持,示例如下:

获取表数据
您可通过以下两种方法获取表数据。
通过调用head获取表数据,但仅限于查看每张表开始的小于1万条的数据,如下所示:

通过在table上执行open_reader操作,打开一个reader来读取数据。您可以使用with表达式,也可以不使用。

通过使用Tunnel API读取表数据,open_reader操作其实也是对Tunnel API的封装。
写入数据
类似于 open_reader,table对象同样可以执行 open_writer来打开writer,并写数据。如下所示:

同样,向表中写入数据也是对Tunnel API的封装,更多详情请参见数据上传下载通道。
删除表
删除表的操作,如下所示:

了解更多关于PyODPS 0.7.18详情请戳:https://help.aliyun.com/document_detail/34615.html?spm=a2c4g.11186623.6.694.175c517cSWoptV

阿里云PyODPS 0.7.18发布,针对聚合函数进行优化同时新增对Python 3.7支持相关推荐

  1. 阿里云CDN6.0发布 重新定义CDN内涵

    本文讲的是阿里云CDN6.0发布 重新定义CDN内涵[IT168 云计算]近日,阿里云PR一改往日规模会议的模式,落脚创业大街,在3W咖啡办起了CDN专项技术媒体分享会.从邀请函中明显看出,本场媒体沙 ...

  2. 阿里云“城市大脑” 的18个智慧解决方案( 附PDF )

    来源:钱塘大数据 本文多图,建议阅读6分钟 本文为你介绍阿里云"城市大脑" 的18个智慧解决方案. 2016年,阿里云城市大脑在萧山落地,城市交通成为城市大脑最先探索的领域.201 ...

  3. 【云服务月刊】2018年第6期:阿里云MVP第五期发布,这么多行业大牛你Pick哪一个?...

    本期头条 阿里云MVP第五期发布,这么多行业大牛你Pick哪一个? 回顾阿里云的发展历程,阿里巴巴集团技术委员会主席王坚博士曾感慨"是阿里云的用户教会我们怎么做云计算的!".近十年 ...

  4. 阿里云MVP第六期发布——覆盖全球20多个国家和地区,成为数字化转型的中坚力量...

    9月27日,阿里云MVP(最有价值专家)第六期发布.截止本期,全球已有20多个国家和地区,300余位云计算专家成为阿里云MVP. 2017 年 6 月,阿里云总裁胡晓明在上海云栖大会上发布了阿里云MV ...

  5. 使用阿里云搭建自己的原型发布站点

    最近在做项目时,使用了Axure团队协同工具"AxureShare"时,发现了一个问题:由于AxureShare服务器在国外,Axure共享生成的链接访问时非常慢,网上找了很多解决 ...

  6. 阿里云服务器上调用自己编写的matlab函数

    该博客为<Ubuntu 相关>系列博客的第五篇,该系列博客主要对Ubuntu安装各种软件或者库进行一个记录,方便重装系统后快速恢复工作. 这是进项目组以来接受的第一个任务的后续工作,以此记 ...

  7. 阿里云SAG2.0发布,助力企业全球互联

    2016年以来,阿里云洛神云网络陆续发布了高速通道.VPN网关.云企业网CEN(cloud enterprise network).SAG(smart access gateway)等混合云网络产品, ...

  8. 如何用阿里云服务器建立个人网站(针对新手)

    首先,我们需要购买云服务器和域名. 域名建议用.com后缀的(一般五十左右),想要便宜的域名可以买.top等后缀的(一般几块钱). 点击这里购买域名 云服务器的话,根据自己的需要购买,如果只是简单的发 ...

  9. Druid 0.2.18 发布,阿里巴巴数据库连接池

    阿里开源数据库连接池druid发布0.2.18版本,主要增强对tddl的支持和bug修复. Bug [DRUID-243] - 当log4j不存在时不该输出错误信息 [DRUID-244] - Ora ...

最新文章

  1. J2ee分布式框架--技术介绍文档
  2. VTK:图片之ImageMapToColors
  3. CentOS 6.4利用xampp安装bugfree3
  4. IOS12上微信中点击不到表单的bug
  5. 腾讯T2亲自讲解!搞懂开源框架设计思想真的这么重要吗?系列篇
  6. gitlab重置root密码
  7. AYOJ N皇后问题
  8. 用c语言编写最大最小值_C语言学习教程,用C语言编写扫雷游戏
  9. 【实践】因果推断在快手推荐场景的应用探索.pdf(附下载链接)
  10. 开坑,写点Polymer 1.0 教程第2篇(上)——hello world篇
  11. 销毁session的三种方式
  12. 腾达U12千兆无线网卡在Linux下的支持方式(安装过程)
  13. CentOS系统介绍
  14. 微信群二维码活码生成管理系统源码
  15. 全栈很屌?什么是全栈工程师
  16. 域名 CN 被注册;上世纪最大的 BBS 论坛 | 历史上的今天
  17. 北洋 U80II 打印机驱动
  18. p73 应急响应-WEB 分析 phpjavaweb自动化工具
  19. xml转json以及调用websrvices传参
  20. 电商平台用户行为分析

热门文章

  1. oracle no such file or directory,ORA-09925 Linux-x86_64 Error: 2: No such file or directory
  2. worpress安装mysql连不上_wordpress安装时连接不上MySQL8.0(已解决)Windows
  3. 不用oracle改用mysql_数据库从oracle移植到mysql时需要进行的修改
  4. python快速排序解析_快速排序python实现总结
  5. 底部固定菜单_【悬浮菜单】安卓悬浮amp;手势助手
  6. linux 生成字母序列,Python序列之字符串
  7. 和smi_nvidia-smi 报错:无法与 nvidia driver 通信
  8. mysql递归查询所有上下节点_【转】MySQL之Spider存储引擎原理详解
  9. c语言最大公约数和最小公倍数_五年级数学最大公因数最小公倍数 练习
  10. 如何解决远程桌面无法连接问题--远程桌面连接工具