云平台近几年在飞速发展,有些公司也会把自己的在线业务和离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅的认识对比下两者。

2021年7月又换了一家公司,又用回了原生的大数据组件,之前3年都用的阿里云,最近觉得很不适应,对两者的区别有了更多的感受,再回来总结下。

指标 自建集群 云平台
研发要求
自由度
研发配置 数仓/集群搭建 数仓
学习成本
工种配置 数仓组+平台组+大数据产品组+分析组 数据组
主要技术 hive+hbase+spark+datax+storm+调度系统 MR+类HIVE

两者使用对比:

1、云平台功能完善,主要的数据同步、数据计算、调度任务等需求都能满足

2、底层更加稳定,相较自建集群几乎不会宕机

3、从同步生产库数据->仓库建模处理->算法实现->生产库都能在一个可视化的工作流完成,自建集群可能需要用多个开源软件

4、云平台可视化点击操作较多较容易上手,自建集群可能还要学习一段时间

5、云平台付费就能用,自建集群建设需要时间

6、云平台有问题找客服解决沟通麻烦,自建集群直接问平台的同事,更容易沟通

7、云平台对大数据从业者来说能学到的东西较少,自建集群能学到较多的底层东西

写在2021年8月:

之前写的对比大部分都太粗浅,最近有了比较多的感受,细致性的说下,仅就我司的自建水平来对比:

1、计算性能和稳定性,之前用阿里云虽然只有odps一个引擎,但是真的是优化的好,比着自建的spark个人感受还是快的,比着社区的hive不知道要快多少,且稳定,比如修复分区,分区表加字段等细节性问题;还有个问题是计算的不稳定导致了数仓夜里需要值班,但是做的无非就是点一下重跑

2、调度,我们自建的不能循环依赖,天和小时调度不耦合,调度任务不能补数据,有些感觉是基本功能的在这边长期不能迭代,我觉得是二次开发能力不足,这个是有门槛的

3、文档的丰富程度,自建的文档写的真的是随意,且真的是口耳相传,刚入职各种不适应

4、实时计算平台,开发周期长,长周期不能迭代,没有稳定版本使用

随着公司大数据体系的完善,整体使用从0-1逐渐完善,云平台可能处于0.7分的水平,对比的时期很重要。但是也要看公司的研发能力,有的公司可能几年都到不了0.7分的水平。建议自建集群开发者也关注下云平台,取长补短。

我是站在数仓的角度来说明问题,正所谓屁股决定脑袋,比如云平台花钱和自建比较,在多大规模肯定差距不一样。最近,目前这个公司也在上华为云了,毕竟也是个上市公司。

阿里云dataworks/maxcomputer和自建集群的对比相关推荐

  1. 在阿里云上部署生产级别Kubernetes集群

    阿里云是国内非常受欢迎的基础云平台,随着Kubernetes的普及,越来越多的企业开始筹划在阿里云上部署自己的Kubernetes集群. 本文将结合实战中总结的经验,分析和归纳一套在阿里云上部署生产级 ...

  2. 阿里云CentOS环境之-实战docker集群swarm(十五)

    前言 docker1.12版本之前版本配置 准备工作 开始 拉取swarm 开放2375远程访问端口 创建集群的token 向集群里添加结点 查看集群里有哪些结点 创建管理者容器 使用集群 离开集群 ...

  3. 阿里云建成全国最大数据中心集群 全面应用自研硬核技术

    8月1日,阿里云宣布位于南通.杭州和乌兰察布的三座超级数据中心正式落成,陆续开服,将新增超百万台服务器,辐射京津冀.长三角.粤港澳三大经济带,加速新基建建设. 截至目前,阿里云在全球22个地域部署了上 ...

  4. centos7基于阿里云授时服务器进行本地ntp集群配置

    centos7部署ntp服务 本地集群server端配置 安装软件包 修改配置 重启服务 检查状态 本地其他节点配置 安装软件包 修改配置 启动服务 检查状态 引言: ​ 本地物理服务器集群搭建ntp ...

  5. 阿里云mysql 分布式_MySQL大型分布式集群

    本套课程将通过分布式集群和分库分表两部分内容进行讲解 1.主要解决针对大型网站架构中持久化部分中,大量数据存储以及高并发访问所带来是数据读写问题.分布式是将一个业务拆分为多个子业务,部署在不同的服务器 ...

  6. DevOpsSOP 基于阿里云VPC搭建Storm+Kafka+Zookeeper集群

    集群搭建之 zookeeper + kafka 环境要求 pre-install Centos下安装Java开发环境 JDK1.8 Cenos下安装Supervisor守护 zookeeper clu ...

  7. 阿里云DataWorks数据集成(DataX)架构实践分享

    阿里云DataWorks数据集成(DataX)架构&实践分享 分享嘉宾:罗海伟 阿里云 编辑整理:约理 中国科学院大学 目录 ▌为什么需要数据集成 数据集成的应用场景 数据集成的角色和地位 ▌ ...

  8. 阿里云-ECS云服务器跨地域部署k8s集群

    阿里云-ECS云服务器跨地域部署k8s集群 一 .背景介绍 二.环境准备 2.1 ECS云服务资源清单 2.2 K8s软件列表 三.阿里云ECS服务器网络问题 3.1 问题阐述 3.2 解决方案 四. ...

  9. 深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

    摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能.区 ...

最新文章

  1. 如何在 bash 中使用键值字典
  2. 打印机在计算机里被删掉,不小心把设置里打印机删掉了怎么办
  3. 钟南山院士应邀向欧洲同仁全方位解析新冠肺炎(配中文文字版)
  4. debian linux 版本代号
  5. Intel Realsense D435运行报错 RuntimeError: Camera not connected! dev.hardware_reset()函数需加睡眠sleep()
  6. 卧槽,又一款Markdown组合神器!!!
  7. ps、top 、free查看用户资源信息
  8. java银行利率_Java-银行计算利息
  9. Duplicate entry ‘‘ for key ‘***‘
  10. vim 打开特殊文件—— 目录以及压缩包
  11. 3. 狂神的设计模式笔记-代理模式
  12. office communications server 2007 标准版部署详细步骤及错误分析
  13. 如何在树莓派上进行python编程_树莓派Python编程指南
  14. 讲座记录——科技论文写作及科研方法
  15. java程序员生日祝福语_给程序员的一句话祝福语
  16. 全拼到缩写月份单词python_英文中十二月份的全称和缩写
  17. SQLServer2019 如何导出单张表数据
  18. mysql中ltrim用法_MySQL LTRIM()用法及代码示例
  19. 准备走上共享软件之路,出师不利,两块石头石沉大海,我打算流了她们。
  20. 这个系统能读懂猪的6种情绪

热门文章

  1. 成功解决pydotplus.graphviz.InvocationException: GraphViz‘s executables not found
  2. 亚马逊圣诞灯饰UL588测试报告检测项目介绍
  3. MOVEIT PYTHON应用:编程实现速度和加速度设置
  4. 【Spring】基于IntelliJ IDEA搭建Maven
  5. 浩荡离愁白日斜,吟鞭东指即天涯。落红不是无情物,化作春泥更护花。
  6. 台式计算机启动叫两声,联想台式机开机后2声报警响怎么办
  7. verilog 常见位宽问题集合
  8. 搞定物联网定位:UWB高精度定位技术原理与实现
  9. Linux下使用GPIO模拟I2C IIC驱动(PCF8563)
  10. [kettle]kettle“阻塞数据直到步骤都完成”无效