采云间

近几年来,各行各业的数据增长趋势都非常明显,大数据不再是少数大企业的专属研究领域。如何在数据金矿中挖掘出宝藏、如何做好数字化运营,成为各类企业共同关注的话题。针对企业日益迫切的数据化运营需求,阿里云ODPS(Open Data Processing Service,开放数据处理服务)在2014年1月对外开放公测,旨在推动大数据分析处理“平民化”。为了丰富ODPS的周边生态,降低用户的接入成本,提高实施效率,尤其是弥补传统DW/BI工具的缺陷,基于多年建设内部数据工作平台的经验,我们搭建了一套解决方案,称为采云间(Data Process Center,简称DPC),取“采集云间数据”之意。采云间于2014年7月24日在阿里云官网上线,通过快速迭代数个版本,目前的V1.2版本已经可以较为完整地支持ETL工程师和数据分析师的工作。

DW/BI软件行业已有30多年的发展历史,Oracle、IBM、SAP等多家传统厂商,通过自研和收购的方式,形成了自己的DW/BI产品解决方案,并在金融、电信等传统行业中得到广泛的应用。然而,传统的ETL和BI工具,通常存在着以下问题。

  • License昂贵,初始软件投入费用高。
  • 学习成本大,需要1-2周的专业培训才能上手,后续咨询服务费用高。
  • 需要二次开发,后期扩展难,普遍不支持分布式数据存储与计算平台,例如Hadoop。
与传统工具相比,采云间在产品形态上有比较大的区别。
  • SaaS化,所有产品都在云端部署,不需要本地安装。
  • 提供统一的数据工作台,通过应用中心可以接入第三方提供的服务,形成丰富的大数据工具解决方案。
  • 多数产品都是图形化操作界面,比如简单拖拽即可完成数据分析和报表制作。

目前,采云间内部集成了Ali Data Developer Package(数据开发者套件)和 Ali Business Intelligence Package(商业智能套件),提供的数据处理工具,包括ODPS IDE、数据同步、任务调度、数据分析、报表制作等。其产品功能示意参见图1,其产品功能列表参见图2。用户通过采云间应用中心可以查看到具体的产品列表,见图3。

应用演示

下面以完成一个简单的业务报表的统计分析作为需求,来演示采云间的主要功能,并详细介绍采云间的产品实现。要完成一个业务报表的统计分析,主要涉及几个步骤:

  • 同步RDS(Relational Database Service,关系型数据库服务)数据库中的数据到ODPS上;
  • 使用数据工厂执行ODPS SQL;
  • 通过“数据分析”进行在线可视化数据分析。

如何同步RDS数据库中的数据到ODPS上

采云间内置了数据同步和流转功能,完成RDS与ODPS之间的双向同步只需在采云间配置中心创建RDS和ODPS的连接信息即可。当配置RDS链接信息时,建议该账号只开通表的查询权限。对于这些用户名和密码,采云间会调用阿里云公有的加密服务进行加密保存。

  1. 步骤1:进入RDS控制台,点击实例名称,进入RDS管理页面获取实例ID。
  2. 步骤2:在采云间配置中心,点击“新建连接配置”,填写RDS实例的用户名和密码,保存配置。同理,可以完成ODPS链接信息的配置。

完成上述操作之后,通过数据工厂(该工具的使用,参见“如何使用数据工厂执行ODPS SQL”)创建需要同步的表的结构,然后在任务管理里通过新建“同步任务”的方式,配置数据同步任务,确定提交之后,就可以每天自动进行数据同步了。重复上述的操作,可以配置多个同步任务,完成每天从生产库里将表中的数据同步到离线分析环境ODPS中,为后续的数据清洗转换作准备。

如何使用数据工厂执行ODPS SQL

数据工厂是ODPS的集成开发环境(IDE),提供了类似PL/SQL Developer的功能。使用它,可以完成如下工作:编写和管理你的代码;查看和管理表;创建任务;上传本地文件。在采云间控制台上第一次登录数据工厂时,需要输入ODPS的Project名称和对应的Access Key ID和Access Key Secret。点击登录界面的“立即查看Access Key”,跳转到如图4中的页面,找到启用的Access Key ID和Access Key Secret,复制并粘贴。

进入数据工厂,点击“新建SQL文件”,输入SQL语句,点击“执行”按钮,即可完成一个简单的查询,执行日志和查询结果会显示在下方(图5)。
 

通常我们会依据业务统计需求,对生产库里同步过来的多个表,进行数据关联处理,生成结果表。这个结果表就是后续进行数据可视化分析的源材料。

如何通过“数据分析”进行在线可视化数据分析

首先,需要从ODPS上导入元数据信息,形成数据分析的数据集。如图6所示,完成ODPS的链接信息设置;选择需要分析的表,点击导入,形成分析数据集。

其次,从导入的数据集中,选择一个打开,就可以开始进行数据分析了。整个分析过程的体验非常像在Excle里做透视分析,可以大大降低学习成本,如图7所示。

架构解读

通过上述介绍,相信大家已经从产品角度对采云间有了一定认知。下面将从技术角度对采云间的架构做一个简单的解读。

  • 数据源支持:依托阿里云的飞天平台,采云间可以将ODPS作为DW的存储和计算引擎,并根据数据规模自动调整集群的存储和计算能力;采云间的数据分析和报表制作工具既可以支持ODPS数据源,也可以接入ADS和RDS作为数据源,并提供了各个数据源之间切换的功能,用户可以依据数据量、场景特点,选择合适的数据库。这三个产品在采云间数据分析场景下的选择依据如下。
  • Web架构:用户通过浏览器可以访问采云间的所有产品功能。采云间本身由多个系统组成,每个系统(无论是前端Web服务器,还是后端执行引擎)都可以通过增加集群的机器数量,实现服务能力的水平扩展。并可以通过Admin控制台对集群和服务进行管控。
  • 账号和权限:采云间有完整的权限模型,不仅可以透过ODPS对DB里的数据进行权限管理,也支持在应用层实现行级和列级的数据权限设置,同时考虑到企业级用户,不是每个企业员工都对应有阿里云账号,采云间的权限流程审批支持接入企业的内网系统。

总结

前文阐释了采云间的产品定位、应用步骤和架构思路,下面我们就来总结一下它的核心产品优势。

  • 依托阿里云飞天平台,天生具备大数据的处理能力,且具有很强的扩展能力。
  • 投入小,回报快。在线服务模式,无需部署,开通就可以使用;按需、按使用量付费,初期费用基本为零。
  • 提供更友好的操作界面,易于上手,从技术层面降低企业使用大数据的门槛。

虽然采云间在阿里内部已得到广泛应用,但外部的产品仍处于公测期,在产品和技术上还有很多方面需要进一步完善和加强。欢迎大家现在可以申请试用,采云间和ODPS的产品运营团队将在12月选取少量用户进行重点服务,以进一步提升产品品质。相信通过采云间不断完善的全链路的数据处理工具,企业将更加容易收获大数据的价值。


原文链接

探秘采云间:全链路数据处理工具直击传统DW/BI痛点相关推荐

  1. 治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

    10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖.湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的"数 ...

  2. 腾讯云发布全链路数据开发平台WeData,大数据开发迈入新时代

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...

  3. 腾讯云发布全链路数据开发平台WeData,企业数据开发门槛降低60%

    9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务.云数据仓库.ES.企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全 ...

  4. 企业深入使用微服务后会面临哪些问题?云原生全链路灰度给了新思路

    作者:魁予.十眠 如何落地可灰度.可观测.可回滚的安全生产三板斧能力,满足业务高速发展情况下快速迭代和小心验证的诉求,是企业在微服务化深入过程中必须要面对的问题.在云原生流行的当下,这个问题又有了一些 ...

  5. 四大领域全面发力,腾讯云构筑全链路开发者服务体系

    12 月 15 日,首届"腾讯云+社区开发者大会"在北京召开.在这场主题为"新趋势.新技术.新应用"的开发者盛会上,腾讯云副总裁王龙首次透露,通过整合自身技术和 ...

  6. 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

    一.前言 上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界. 二. DataWorks是什么 DataWorks基于MaxCompute. ...

  7. 百度智能云HDR全链路解决方案业内首发!

    随着硬件设备.处理技术.传输设施等逐渐成熟,大片级精细震撼的画质体验,不去电影院也能看到了.辛巴小狮子的眼神光泽.毛发纹理,通过手机.电视也能清晰可见. 上图左侧是1080P/SDR 视频画面,右侧是 ...

  8. 得物云原生全链路追踪Trace2.0-采集篇

    一.0xcc开篇 2020年3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进入了微服务时代.系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间 ...

  9. Kyligence联合创始人兼CTO李扬:用智能数据云打造全链路数字化转型

    "本文由 Kyligence联合创始人兼CTO李扬 撰写并投递参与由数据猿&上海大数据联盟联合推出的"行业盘点季之数智化转型升级"大型主题策划活动之<202 ...

最新文章

  1. 安装varish作为缓存和代理
  2. Net 下安装、调试的常见问题与错误!!!
  3. 达摩院清华博士研发了一个AI摸鱼神器!有了它,老板都不好意思打扰你
  4. 边缘计算的三种模式:MEC、微云和雾计算
  5. Jsoup获取全国地区数据(省市县镇村)
  6. 007_SpringBoot文件上传
  7. 数字图像处理实验(11):PROJECT 05-02,Noise Reduction Using a Median Filter
  8. 【专升本计算机】甘肃省专升本计算机基础--判断题--汇编(737道带答案)
  9. C#之out和ref区别
  10. db2 语句包括不必要的列表_DB2的一些常用SQL写法(转)
  11. vns可变领域_技师可变工程师!
  12. ai作文批改_好未来:AI智能批改中英文作文为老师“减负”
  13. Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理
  14. 印染面料产品出现纬斜疵病,应该怎么防止?
  15. DenseNet实验
  16. nginx源码阅读 ---- Event模块和配置的初始化
  17. java_web基本概念
  18. 广州连续四年被评为最佳投资城市;快手科技一季度收入同比增长36.6% | 美通企业日报...
  19. Android 禁止键盘弹出 关闭键盘 禁用键盘 禁用输入法 关闭输入法
  20. java-net-php-python-ssm电子班牌系统计算机毕业设计程序

热门文章

  1. JavaScript(七)—— BOM 浏览器对象模型
  2. Tips--解决安装matplotlib无法使用pyplot的问题
  3. SAMSUNG的CMOS 图像传感器技术发展路线
  4. 有限数字生成素数 (10 分)
  5. PTA7、 转换函数使用 (10 分)
  6. solr set java opts_關於 Apache Solr 無法啟動的問題
  7. 什么标签用于在表单中构建复选框_基础表单标签及属性
  8. html语言hr的用法,htmlhr各种样式使用 - 米扑博客
  9. padding三个值含义
  10. [转]EXCEL截取字符串中某几位的函数——LeftMIDRight及Find函数的使用