探秘采云间:全链路数据处理工具直击传统DW/BI痛点
采云间
近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域。如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。针对企业日益迫切的数据化运营需求,阿里云ODPS(Open Data Processing Service,开放数据处理服务)在2014年1月对外开放公测,旨在推动大数据分析处理“平民化”。为了丰富ODPS的周边生态,降低用户的接入成本,提高实施效率,尤其是弥补传统DW/BI工具的缺陷,基于多年建设内部数据工作平台的经验,我们搭建了一套解决方案,称为采云间(Data Process Center,简称DPC),取“采集云间数据”之意。采云间于2014年7月24日在阿里云官网上线,通过快速迭代数个版本,目前的V1.2版本已经可以较为完整地支持ETL工程师和数据分析师的工作。
DW/BI软件行业已有30多年的发展历史,Oracle、IBM、SAP等多家传统厂商,通过自研和收购的方式,形成了自己的DW/BI产品解决方案,并在金融、电信等传统行业中得到广泛的应用。然而,传统的ETL和BI工具,通常存在着以下问题。
- License昂贵,初始软件投入费用高。
- 学习成本大,需要1-2周的专业培训才能上手,后续咨询服务费用高。
- 需要二次开发,后期扩展难,普遍不支持分布式数据存储与计算平台,例如Hadoop。
- SaaS化,所有产品都在云端部署,不需要本地安装。
- 提供统一的数据工作台,通过应用中心可以接入第三方提供的服务,形成丰富的大数据工具解决方案。
- 多数产品都是图形化操作界面,比如简单拖拽即可完成数据分析和报表制作。
目前,采云间内部集成了Ali Data Developer Package(数据开发者套件)和 Ali Business Intelligence Package(商业智能套件),提供的数据处理工具,包括ODPS IDE、数据同步、任务调度、数据分析、报表制作等。其产品功能示意参见图1,其产品功能列表参见图2。用户通过采云间应用中心可以查看到具体的产品列表,见图3。
应用演示
下面以完成一个简单的业务报表的统计分析作为需求,来演示采云间的主要功能,并详细介绍采云间的产品实现。要完成一个业务报表的统计分析,主要涉及几个步骤:
- 同步RDS(Relational Database Service,关系型数据库服务)数据库中的数据到ODPS上;
- 使用数据工厂执行ODPS SQL;
- 通过“数据分析”进行在线可视化数据分析。
如何同步RDS数据库中的数据到ODPS上
采云间内置了数据同步和流转功能,完成RDS与ODPS之间的双向同步只需在采云间配置中心创建RDS和ODPS的连接信息即可。当配置RDS链接信息时,建议该账号只开通表的查询权限。对于这些用户名和密码,采云间会调用阿里云公有的加密服务进行加密保存。
- 步骤1:进入RDS控制台,点击实例名称,进入RDS管理页面获取实例ID。
- 步骤2:在采云间配置中心,点击“新建连接配置”,填写RDS实例的用户名和密码,保存配置。同理,可以完成ODPS链接信息的配置。
完成上述操作之后,通过数据工厂(该工具的使用,参见“如何使用数据工厂执行ODPS SQL”)创建需要同步的表的结构,然后在任务管理里通过新建“同步任务”的方式,配置数据同步任务,确定提交之后,就可以每天自动进行数据同步了。重复上述的操作,可以配置多个同步任务,完成每天从生产库里将表中的数据同步到离线分析环境ODPS中,为后续的数据清洗转换作准备。
如何使用数据工厂执行ODPS SQL
数据工厂是ODPS的集成开发环境(IDE),提供了类似PL/SQL Developer的功能。使用它,可以完成如下工作:编写和管理你的代码;查看和管理表;创建任务;上传本地文件。在采云间控制台上第一次登录数据工厂时,需要输入ODPS的Project名称和对应的Access Key ID和Access Key Secret。点击登录界面的“立即查看Access Key”,跳转到如图4中的页面,找到启用的Access Key ID和Access Key Secret,复制并粘贴。
通常我们会依据业务统计需求,对生产库里同步过来的多个表,进行数据关联处理,生成结果表。这个结果表就是后续进行数据可视化分析的源材料。
如何通过“数据分析”进行在线可视化数据分析
首先,需要从ODPS上导入元数据信息,形成数据分析的数据集。如图6所示,完成ODPS的链接信息设置;选择需要分析的表,点击导入,形成分析数据集。
其次,从导入的数据集中,选择一个打开,就可以开始进行数据分析了。整个分析过程的体验非常像在Excle里做透视分析,可以大大降低学习成本,如图7所示。
架构解读
通过上述介绍,相信大家已经从产品角度对采云间有了一定认知。下面将从技术角度对采云间的架构做一个简单的解读。
- 数据源支持:依托阿里云的飞天平台,采云间可以将ODPS作为DW的存储和计算引擎,并根据数据规模自动调整集群的存储和计算能力;采云间的数据分析和报表制作工具既可以支持ODPS数据源,也可以接入ADS和RDS作为数据源,并提供了各个数据源之间切换的功能,用户可以依据数据量、场景特点,选择合适的数据库。这三个产品在采云间数据分析场景下的选择依据如下。
- Web架构:用户通过浏览器可以访问采云间的所有产品功能。采云间本身由多个系统组成,每个系统(无论是前端Web服务器,还是后端执行引擎)都可以通过增加集群的机器数量,实现服务能力的水平扩展。并可以通过Admin控制台对集群和服务进行管控。
- 账号和权限:采云间有完整的权限模型,不仅可以透过ODPS对DB里的数据进行权限管理,也支持在应用层实现行级和列级的数据权限设置,同时考虑到企业级用户,不是每个企业员工都对应有阿里云账号,采云间的权限流程审批支持接入企业的内网系统。
总结
前文阐释了采云间的产品定位、应用步骤和架构思路,下面我们就来总结一下它的核心产品优势。
- 依托阿里云飞天平台,天生具备大数据的处理能力,且具有很强的扩展能力。
- 投入小,回报快。在线服务模式,无需部署,开通就可以使用;按需、按使用量付费,初期费用基本为零。
- 提供更友好的操作界面,易于上手,从技术层面降低企业使用大数据的门槛。
虽然采云间在阿里内部已得到广泛应用,但外部的产品仍处于公测期,在产品和技术上还有很多方面需要进一步完善和加强。欢迎大家现在可以申请试用,采云间和ODPS的产品运营团队将在12月选取少量用户进行重点服务,以进一步提升产品品质。相信通过采云间不断完善的全链路的数据处理工具,企业将更加容易收获大数据的价值。
原文链接
探秘采云间:全链路数据处理工具直击传统DW/BI痛点相关推荐
- 治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布
10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖.湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的"数 ...
- 腾讯云发布全链路数据开发平台WeData,大数据开发迈入新时代
9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...
- 腾讯云发布全链路数据开发平台WeData,企业数据开发门槛降低60%
9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...
- 企业深入使用微服务后会面临哪些问题?云原生全链路灰度给了新思路
作者:魁予.十眠 如何落地可灰度.可观测.可回滚的安全生产三板斧能力,满足业务高速发展情况下快速迭代和小心验证的诉求,是企业在微服务化深入过程中必须要面对的问题.在云原生流行的当下,这个问题又有了一些 ...
- 四大领域全面发力,腾讯云构筑全链路开发者服务体系
12 月 15 日,首届"腾讯云+社区开发者大会"在北京召开.在这场主题为"新趋势.新技术.新应用"的开发者盛会上,腾讯云副总裁王龙首次透露,通过整合自身技术和 ...
- 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界
一.前言 上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界. 二. DataWorks是什么 DataWorks基于MaxCompute. ...
- 百度智能云HDR全链路解决方案业内首发!
随着硬件设备.处理技术.传输设施等逐渐成熟,大片级精细震撼的画质体验,不去电影院也能看到了.辛巴小狮子的眼神光泽.毛发纹理,通过手机.电视也能清晰可见. 上图左侧是1080P/SDR 视频画面,右侧是 ...
- 得物云原生全链路追踪Trace2.0-采集篇
一.0xcc开篇 2020年3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进入了微服务时代.系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间 ...
- Kyligence联合创始人兼CTO李扬:用智能数据云打造全链路数字化转型
"本文由 Kyligence联合创始人兼CTO李扬 撰写并投递参与由数据猿&上海大数据联盟联合推出的"行业盘点季之数智化转型升级"大型主题策划活动之<202 ...
最新文章
- 安装varish作为缓存和代理
- Net 下安装、调试的常见问题与错误!!!
- 达摩院清华博士研发了一个AI摸鱼神器!有了它,老板都不好意思打扰你
- 边缘计算的三种模式:MEC、微云和雾计算
- Jsoup获取全国地区数据(省市县镇村)
- 007_SpringBoot文件上传
- 数字图像处理实验(11):PROJECT 05-02,Noise Reduction Using a Median Filter
- 【专升本计算机】甘肃省专升本计算机基础--判断题--汇编(737道带答案)
- C#之out和ref区别
- db2 语句包括不必要的列表_DB2的一些常用SQL写法(转)
- vns可变领域_技师可变工程师!
- ai作文批改_好未来:AI智能批改中英文作文为老师“减负”
- Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理
- 印染面料产品出现纬斜疵病,应该怎么防止?
- DenseNet实验
- nginx源码阅读 ---- Event模块和配置的初始化
- java_web基本概念
- 广州连续四年被评为最佳投资城市;快手科技一季度收入同比增长36.6% | 美通企业日报...
- Android 禁止键盘弹出 关闭键盘 禁用键盘 禁用输入法 关闭输入法
- java-net-php-python-ssm电子班牌系统计算机毕业设计程序
热门文章
- JavaScript(七)—— BOM 浏览器对象模型
- Tips--解决安装matplotlib无法使用pyplot的问题
- SAMSUNG的CMOS 图像传感器技术发展路线
- 有限数字生成素数 (10 分)
- PTA7、 转换函数使用 (10 分)
- solr set java opts_關於 Apache Solr 無法啟動的問題
- 什么标签用于在表单中构建复选框_基础表单标签及属性
- html语言hr的用法,htmlhr各种样式使用 - 米扑博客
- padding三个值含义
- [转]EXCEL截取字符串中某几位的函数——LeftMIDRight及Find函数的使用