Glue是AWS的云上ETL工具,核心是Spark,查询也是先获取数据源的元数据,再通过元数据溯源数据。
本文示范使用Glue把数据从RDS抽到redshift的操作
总体步骤:
1.连接数据源
2.建立爬网程序
3.运行爬网程序生成元数据表
4.建立作业
5.运行作业
(再后面还可建立工作流程实现作业流,本文未涉及)

建立连接

连接可以是(半结构化)文件,和各种数据库,和kafka
图中的“数据库”是AWS对元数据表集合的叫法而已,和我们说的数据库不是一个概念,“表”是指元数据表,“连接”是指数据连接
添加元数据表的方法分手动添加爬网程序添加(其实就是自动添加,和爬虫没关系,为了可以及时侦测元数据改变,爬网程序可以重复定时按计划进行,所以推荐爬网程序添加)
分类器可以自定义识别半结构化文件方式

首先按引导各自连接RDS和redshift,其中有一步容易踩坑,需要IAM角色权限,细节如下,缺一不可:
1.第一步创建IAM角色并给AWSGlueServiceRole这个策略权限https://amazonaws-china.com/cn/blogs/china/use-aws-glue-to-run-etl-jobs-against-non-native-jdbc-data-source/
2.保证RDS和redshift所在的VPC终端节点列表中加入了S3

最后建立连接如下

建立爬网程序

按引导建立爬网程序获取下图这张RDS中的表的元数据

运行成功后会在“表”中会生成一张元数据表

建立作业

PS:Glue的作业是自动临时搭建spark环境的,大概需要15分钟,然后才开始跑,作业完成后5分钟若没有下个作业使用该环境便会自动销毁;数据少可以不用spark,只用python shell来进行ETL,启动时间短,但步骤好麻烦学不来,宁愿用spark等15分钟

这一步的IAM同样使用建立连接时的IAM角色





运行作业,等待15分钟(上面说的需要搭环境),报succeeded后用navicat查看redshift中已经创建并同步了这张表数据

AWS之Glue使用方法相关推荐

  1. aws lambda使用_如何使用AWS Lambda和S3构建无服务器URL缩短器

    aws lambda使用 by Daniel Ireson 丹尼尔·埃里森(Daniel Ireson) 如何使用AWS Lambda和S3构建无服务器URL缩短器 (How to build a S ...

  2. Amazon宣布将MXNet作为AWS的深度学习框架——貌似性能比tf高啊

    Amazon公司的Werner Vogels于上周宣布Amazon深度学习框架将会正式选用MXNet,并且AWS将会通过增加源代码贡献.改进文档以及支持来自其它框架的可视化.开发以及迁移工具,为实现M ...

  3. Node开发文件上传系统及向七牛云存储和亚马逊AWS S3的文件上传

    背景起,有奏乐: 有伟人曰:学习技能的最好途径莫过于理论与实践相结合. 初学Node这货时,每每读教程必会Fall asleep. 当真要开发系统时,顿觉精神百倍,即便踩坑无数也不失斗志. 因为同团队 ...

  4. 如何使用Java创建AWS Lambda函数

    在本教程中,我们将看到如何在Java中创建AWS Lambda函数,我告诉你,这样做非常容易-- 基本上,我们可以通过三种方式创建AWS Lambda函数: –通过实现RequestHandler接口 ...

  5. aws rds监控慢sql_估算AWS RDS SQL Server成本

    aws rds监控慢sql This article explores estimating the AWS RDS SQL Server cost so that you can plan reso ...

  6. aws cli 上传文件到s3命令_使用 AWS CLI 分段上传到 Amazon S3

    如何使用 AWS CLI 将文件分段上传到 Amazon S3? 上次更新时间:2020 年 11 月 10 日 我想将一个大文件作为多个部分或使用分段上传复制到 Amazon Simple Stor ...

  7. [转]竞价实例与AWS SPOT逆向解析

    竞价实例与AWS SPOT逆向解析 李力 李力 腾讯云的老程序员,招聘各类技术职位 作者是我的同事alexmwang,已经获得授权 竞价实例是什么 -- what 用户视角的竞价实例 AWS竞价实例, ...

  8. AWS使用(一)——申请付费版亚马逊云服务器的流程

    一.创建账号: 注册准备: 1,一个在用邮箱 2,一张在用的有Visa或者Master标志的信用卡(要支持美元预授权) 3,一部在用的电话 4,一个支持key文件导入的ssh客户端(我后面只介绍lin ...

  9. 优优工场(YOYOWORKS)XPU通过亚马逊 AWS Marketplace对外发布

    [2021年10月19日 优优工场]云原生的GPU虚拟化AI平台产品XPU 现已上线AWS Marketplace,可供用户直接使用. AWS Marketplace是全球规模最大最成功的公有云生态产 ...

最新文章

  1. python中的异常(try...except...else...finally)
  2. 华大基因回复深交所:“14万中国人基因大数据”项目与外方机构无关
  3. PHP str_word_count
  4. 调用方法[manageapp]时发生异常_探讨通过Feign配合Hystrix进行调用时异常的处理
  5. MAS 714 笔记20:规约和SAT
  6. acer switch 10 linux,【AcerSwitch10评测】高颜值的2in1电脑 Acer Switch 10评测_Acer Switch 10_笔记本评测-中关村在线...
  7. SCD缓慢变化维拉链表
  8. Codeup墓地-问题 A: 还是畅通工程
  9. mysql最大连接数512_MySQL服务器最大连接数怎么设置才合理
  10. python sqllite远程_Python实现Sqlite将字段当做索引进行查询的方法
  11. java war包合并,使用maven warpath插件合并多module的war包
  12. cmd一键启动程序脚本
  13. ArcGIS中裁剪(clip)出现000117错误的解决办法
  14. Javascript实战应用篇(2):继续完善网页文本框系列(增加水印和提示)
  15. T100学习笔记 - Genero FGL
  16. C# 操作word表格合并单元格
  17. C语言求斜边程序,用C语言编写勾股定理求斜边
  18. ComingChat进入Web3.0世界的门户,未来社交新趋势!
  19. FCPX插件:Stupid Raisins Text Pop( 3D文本和标题 )
  20. 已知二叉树:先序和中序求后序/后序和中序求先序

热门文章

  1. 关于遍历,看这篇文章就足够了【find()、findIndex()、forEach()、splice()、slice()详解】...
  2. [新星计划] Python环境搭建 | 万丈高楼平地起
  3. Excel如何批量重命名文件
  4. 如何禁止 iPhone Safari 视频自动全屏?
  5. 玩乐购与京东天猫深度合作 打造云购全网最低价
  6. 高通Q888内核源码分析--概述篇
  7. 挂耳式蓝牙耳机性价比推荐,盘点五款性能高的耳机分享
  8. 云e办学习笔记(十六)Redis集成菜单
  9. 微信小程序开发需要的相关技术
  10. 算法的时间复杂度排序