阿里云大数据ACP认证学习笔记

  • 1.大数据基础
  • 2.大数据计算服务Maxcompute
    • 2.1基础知识
      • 2.1.1购买Maxcompute并创建项目增加子用户
      • 2.1.2创建ODPS
      • 2.1.3maxcompute的命令行客户端odpscmd的安装与基本命令
    • 2.2数据上传与下载
      • 2.2.1 tunnel批量离线处理
        • 2.2.1.1tunnel上传
        • 2.2.1.2tunnel下载
      • 2.2.2使用javaSDK开发上传下载
      • 2.2.3 datahub实时处理通道
    • 2.3maxcomputeSQL开发基础
      • 2.3.1DDL
      • 2.3.2DML
      • 2.3.3内置函数
    • 2.4UDF开发基础
    • 2.5MR开发基础
    • 2.6Graph开发基础
    • 2.7权限与安全
  • 3.大数据开发与治理平台Dataworks
    • 3.1数据集成
    • 3.2数据开发
    • 3.3任务运维
    • 3.4数据管理
  • 4.数据可视化分析平台Quick Bi
  • 5.机器学习平台PAI

1.大数据基础

2.大数据计算服务Maxcompute

2.1基础知识

2.1.1购买Maxcompute并创建项目增加子用户

1.首先购买自己服务区的maxcompute:

2.创建项目

3.增加子用户并保存其AccessKey

4.给项目增加用户权限

2.1.2创建ODPS

1.创建ODPS

2.创建一个table:create table A (id bigint,name string);

3.查看这个table:desc A;

2.1.3maxcompute的命令行客户端odpscmd的安装与基本命令

1.在阿里官网下载安装包并解压

2.加压后打开conf目录下的唯一文件,并根据项目填写相关信息:

3.配置完文件后在bin目录下打开cmd,输入odpscmd.bat即可打开运行

4.输入quit;即可退出odpscmd

5.-f参数可以执行文件内的命令:odpscmd -f create.txt

6.-e参数可以执行SQL语句:odpscmd -e "select * from test_table;"
7.使用 use 项目名;即可跳转到用户的另一个项目,前提是用户有多个项目。

2.2数据上传与下载

2.2.1 tunnel批量离线处理

2.2.1.1tunnel上传

1.追加上传tunnel upload C:\Users\dz\Downloads\up.csv A;

drop table if exists A;#如果表存在删除
create table A(id int,name string);#创造表A,键是id和name
desc A;#查看表A
tunnel help;#查看tunel命令
tunnel upload C:\Users\dz\Downloads\up.csv A;#本地表up.csv内容追加上传到A表;
select * from A;#查看表A
truncate table A;#清理表A里的内容


2.分区表上传
首先创造分区表

create table A(id int,name string) partitioned by (gender string);#按gender创造分区表


然后

tunnel upload C:\Users\dz\Downloads\up_p\up_1.csv A/gender='male' -acp=true;#上传本地表到此分区,没有此分区值则创建
select * from A where gender='male';查看分区值是此的分区表

read A;#查看分区表的所有分区

3.文件目录上传

tunnel upload C:\Users\dz\Downloads\DIR B;#将C:\Users\dz\Downloads\DIR下的所有文件上传到表B;


当文件夹内有格式不一样表格时:-dbr=true表示只把格式正确表格录入,错误的表格抛弃;

tunnel upload C:\Users\dz\Downloads\DIR B -dbr=true;#有格式错误的表格,抛弃此表格

4.参数scan扫描

scan=true时,先扫描数据,格式正确,再导入数据;
scan=false时,不扫描数据,直接导入数据;
scan=only时,仅扫描本地数据,扫描完不导入

5.分割符

行分隔符-rd(默认\r\n)和列分隔符-fd(,)

6.第一行表头

去掉csv文件的第一行表头:-h=true

2.2.1.2tunnel下载

1.下载分区表

tunnel download A C:\Users\dz\Downloads\download\A_d.csv;#下载分区表的所有分区

tunnel download A\gender="male" C:\Users\dz\Downloads\download\A_d_male.csv;#下载分区表的指定分区


2.下载指定列:
-ci=列序号(序号从0开始)
-cn=列名称

tunnel download B C:\Users\dz\Downloads\download\B_d_ci0.csv -ci=0;

tunnel download B C:\Users\dz\Downloads\download\B_d_cnname.csv -cn="name";


3.代表头下载-h=true

tunnel download B C:\Users\dz\Downloads\download\B_d_h.csv -h=true;


4.只允许下载几条信息:-limit=num;

tunnel download B C:\Users\dz\Downloads\download\B_d_1.csv -limit=1 ;

2.2.2使用javaSDK开发上传下载

1.首先在阿里云官网下载javasdk,并安装eclipse。

2.2.3 datahub实时处理通道


1.创建datahub项目

2.在项目中写入topic

3.在topic中创建connect同步任务。

2.3maxcomputeSQL开发基础

2.3.1DDL

create table t_table01(id bigint,name string);#1.建表
desc t_table01;#2.看表
show create table t_table01;#3.查看建表语句
drop table t_table01;#4.删除表
select * from t_table01;#查看表
create table t_table01_p(id bigint,name string) partitioned by(class string);#1.创建分区表
desc t_table01_p;#2.查看分区表
create table AA as select * from A where gender="male";#使用as拿数据,不拿分区
create table AB like A;#使用like拿了表结构包括分区,不拿数据
alter table A set lifecycle 30;#1.设置分区表的生命周期是30天
alter table A disable lifecycle;#2.撤销分区表生命周期
select * from A where gender="male";#1.查看分区表,需要指定分区where
alter table A add if not exists partition(gender="unknown");#2.分区表增加分区gender=“unknown”
insert into A partition(gender="unknown") select 7,"someone";#3.指定分区unknow插入一条(7,someone)的数据
alter table A partition(gender="unknown") rename to partition(gender="trans");#4.将unknown分区名改为trans
alter table A merge partition(gender="male"),partition(gender="trans") overwrite partition(gender="unknow") purge;#5.将male和trans分区合并为unknow分区
alter table A rename to a_new;#6.修改表名A为a_new
alter table a_new add columns(desc string);#7.表加一列
create view v as select * from a_new;#1.创建视图

2.3.2DML


1.查询

list tables;#1.列出库内所有的表
select name,gender from aa;#2.查看aa表的name和gender两列
select name,gender from aa group by name,gender;#3.通过分组group by对这两列进行去重
select distinct name,gender from aa;#4.通过distinct对这两列进行去重
select * from aa limit 2;#5.查看aa表前两行
select * from (select * from aa where gender = 'female') a join (select * from aa where id = '21' and name = 'ki')b on a.id = b.id;#6.子查询

2.插入

insert into aa values(10,'dz','female');#1.aa表插入一行数据
create table aa2 like aa;#2.做一个aa的备份表,拿结构不拿数据
insert into aa2 select * from aa;2.把aa的数据全追加到aa2
insert overwrite table aa2 select * from aa;2.把aa的数据全覆盖到aa2,aa2里原数据删掉了

3.分区表

create table t_class_p (id int,name string)partitioned by(gender string);#1.创建分区表,gender分区
from aa insert into t_class_p partition(gender = '1') select id,name where id = 10 insert into t_class_p partition(gender = '2') select id,name where id = 11 insert into t_class_p partition(gender = '3') select id,name where id = 12;#2.多路输出,从aa表给分区表分别插入三个数据
set odps.sql.allow.fullscan =true;#3.设置分区表可以全局扫描
select * from t_class_p;#4.查询分区表所有内容

4.交、并、补、join

create table a1 as select * from aa where gender="female";#1.从aa表里分出gender为female的建表a1
create table a2 as select * from aa where gender="male";#2.从aa表里分出gender为male的建表a2
select id from a1 union all select id from a2;#3.a1表的id和a2表的id通过unio all求并集
select id from a1 union select id from a2;#4.使用union并集去重
select id from a1 intersect all select id from a2;#5.a1表的id和a2表的id通过intersect求交集
select id from a1 except all select id from a2;#6.使用except all求补集,在a1存在但在a2不存在

2.3.3内置函数

1.数学运算与字符处理

select 0.5*10*20*sin(60/180*3.1415926);#1.sin三角函数
select ceil(3.1415926),floor(3.1415926),round(3.1415926),trunc(3.1415926),conv('3.1415926',10,2);#2.ceil向上取整,floor向下取整,round四舍五入,trunc截取,conv10进制转换2进制。
select rand();#3.随机值,可以给种子
select abs(-2);#4.abs取绝对值
select power(-2,5);#5.-2的5次方
select sqrt(16);#6.16的均方根
select length("dacadc中文");#7.字符串长度,每个中文1个字符
select length("dacadc中文");#8.字符串长度,每个中文3个字符
select char_matchcount('asdf','asbrgdgf');#9.字符串1里面有几个在字符串2里面出现
select is_encoding("测试","utf-8");#10.测试编码是否utf-8
select instr("sdsdvfg","s");#11第2个字符在第1个字符的哪一个位置第一次出现,以1开头计数
select substr("dasdf",2,3);#从第2个字符开始剪切,剪切长度为3

2.日期处理和窗口函数

select getdate();#1.查询系统日期
select datediff(datetime '2022-06-18 20:00:00',datetime '2022-06-15 19:00:00','dd');#2.查看两个时间相差几天
select unix_timestamp(datetime '2022-06-13 20:00:00');#3.时间转换成时间戳
select from_unixtime(1655121600);#4.时间戳转换成时间

3.聚合和其他函数

在这里插入代码片

2.4UDF开发基础

用户自定义函数

2.5MR开发基础

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
创建:map、reduce、drive三个java文件

2.6Graph开发基础

2.7权限与安全

show grants;#1.查看此用户在此项目下的权限

3.大数据开发与治理平台Dataworks

3.1数据集成

1.首先新建数据源,这里建mysql数据源

3.2数据开发

3.3任务运维

3.4数据管理

4.数据可视化分析平台Quick Bi

5.机器学习平台PAI

1.开通阿里云pai

2.创建工作流并进入

3.下载数据集,这里用红酒分类,然后把数据导入到工作空间。

操作可参考:https://blog.csdn.net/wyn_365/article/details/107284561

阿里云大数据ACP认证学习笔记相关推荐

  1. 阿里云大数据ACP认证学习笔记之——————Dataworks

    基本概念 产品服务 数据集成 数据开发 数据地图 数据质量 数据服务 计算和存储引擎服务 离线计算MaxCompute 开源大数据引擎E-MapReduce 实时计算(基于Flink) 机器学习PAI ...

  2. 【赵渝强老师】阿里云大数据ACP认证之阿里大数据产品体系

    阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务.主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示: 一.阿里云大数据基础产品 1.云数据库--RDS(ApsaraDB for ...

  3. 阿里云大数据专业认证(ACP),值得报名吗?

    如果你想从事数据领域,那么阿里云大数据ACP证书就很值得考一个! 先来了解一下阿里云认证: 阿里云认证是基于核心技术及岗位的权威认证, 阿里云针对不同产品类别.用户成长阶段.生态岗位,精心打造不同的认 ...

  4. 有人考过阿里云大数据助理工程师认证(ACA)从而能分享心得攻略吗?

    阿里云认证分为ACA.ACP.ACE三个级别,目前相对来说,ACP级别的考试人数最多,也相对来说,含金量还可以,ACA就比较建议大学生考了,含金量不是很高,难度也不高.可以试试直接考ACP.ACP认证 ...

  5. 阿里云大数据助理工程师认证考试考什么内容?

    阿里云认证分为ACA.ACP.ACE三个级别,本文主要针对ACP认证.ACP认证目前按专业方向主要分四种:云计算(主要对应阿里云基础架构产品).大数据(主要对应阿里云大数据系列产品).云安全(主要对应 ...

  6. 阿里云大数据ACA认证考试总结

    刚参加完阿里云大数据助理工程师认证(ACA)考试,趁还有点记忆,总结一下. 在官网上没有找到ACA的考试大纲和样题,遂看了ACP的,结果有点误导.ACP考试大纲说maxcompute占55%,data ...

  7. 阿里云ACA大数据助理工程师认证学习笔记和题

    1 某大型企业计划使用MaxCompute对本公司的数据进行加工和分析,预计该项目会有上万个表.数干个本题分信任务,同时有近4人的团队负责该项目的建设和运维.从工程角度出发, ()可以大大减少项目管理 ...

  8. 阿里云大数据ACP(一)大数据开发平台 DataWorks

    文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...

  9. 【实验】阿里云大数据助理工程师认证(ACA)- 机器学习实现基本统计分析

    实验概述 本实验在阿里云PAI机器学习平台上,对一组农业数据进行基本的统计分析,包括观察数据的分布情况,对农民的收入和其他变量的相关性进行分析,对不同区域的农民收入进行分组分析和对比分析,以探讨不同地 ...

  10. 【大数据】阿里云大数据专业认证考试

    大数据: 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资 ...

最新文章

  1. 微信小程序中的tabBar设置
  2. 数据库高性能读写分离集群操作说明
  3. 小测一下fastjson的速度(纯娱乐)
  4. mysql数据库的行级锁有几种_mysql锁之三种行级锁介绍
  5. python面向对象思路_python面向对象方法
  6. sonarqube使用maven进行代码分析
  7. Linux下清空回收站
  8. Hexo next博客添加折叠块功能添加折叠代码块
  9. 高通平台驱动常见问题
  10. 广电CMMB拒考手机电视国标 新面孔IMMB欲分羹
  11. 批量发短信的平台浏览总结
  12. 两台电脑间的串口通信
  13. 免费申请树葬、草坪葬、花坛葬!东胜区殡仪馆发布2019年清明节祭奠服务安排!...
  14. 小包实用工具:国家代码大全
  15. POJ 3080 Blue Jeans(KMP + 暴力)
  16. VS2015编辑图片
  17. 迁移学习——Balanced Distribution Adaptation for Transfer Learning
  18. (转帖)Redis的LRU和LFU区别
  19. oracle ebcdic 转换,sql - oracle ebcdic sqlldr问题 - 堆栈内存溢出
  20. 用示波器抓取LIN协议波形并分析

热门文章

  1. vivo手机便签扫描功能怎么识别图片文字转为电子文字
  2. Apache Calcite介绍
  3. C个java都是多线程语言对吗_Java里的多线程
  4. 边境的悍匪—机器学习实战:第六章 决策树
  5. 阿里开发规约之编程规约(4)
  6. python(八) python 面向对象中的类(class)
  7. iOS AddressBook
  8. uni-app实现本地打包安卓APK
  9. html写樱花树,写樱花树的作文
  10. 信签纸有虚线怎么写_信签纸写作文格式怎么用