摘要: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责人关涛进行了专访。

作者:赵钰莹
原文标题 本地 vs 云:大数据厮杀的最终幸存者会是谁?

一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是非常好的实现 IT 资源“削峰”的方案。

不同于现有技术边界的“替换”,如今,这个问题的答案可以再加上一条:技术边界的“扩张”。当企业需要某种能力,比如 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术本身,此时就可能会考虑上云,甚至这已经成为不少企业选择云平台的重要原因。通过选择云平台,企业实现了自己技术边界的扩张,从而为业务边界扩张提供技术上的保障。

过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不同于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?

InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。

云平台 vs 本地大数据服务

在对比云平台和本地大数据服务之前,我们先来探讨一个基本问题:不同量级、不同技术能力的企业是否都适合上云,这也是企业上云之前必须想明白的问题。我们经常听到一句话:未来的云计算会成为像水电煤一样的基础设施,暂且不论这句话是否完全正确,中国目前的上云进程的确在加快,如果要成为必备基础设施,势必需要匹配所有量级、所有技术能力的企业。

对于互联网初创型企业,其特点是业务模式和规模高度不确定,数据量小,计算场景不确定,资金有限且没有自己的数据技术力量。关涛表示,对这类型企业而言,云大数据服务可以帮助降低大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不确定的未来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。

对于中大型互联网企业,其通常拥有自己的集群和数据,业务相对稳定且有 SLA 要求,甚至具备非常成熟的数据团队,这部分企业的技术能力或许足够满足业务需求,上云所能带来的好处就是降低甚至免除运维,保障 SLA 并提升安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。

对于传统客户,这部分企业往往更加谨慎,且原有数据中心较为庞大,整体迁移需要考虑的因素非常多,通常需要一整套解决方案,这部分企业往往也最在意云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。

成本

云计算本身是一个需要重投资的领域,虽然有不少公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如需要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如需要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然无法达到这一程度。

对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优势;其次,业务体量相对较小,整体使用成本较低。但是,不少人认为“当集群规模达到一定程度,云平台的成本会变得非常高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,如果企业自行搭建,还需要考虑其中的人力成本,这部分隐性成本经常被忽略。

从软件层面来看,主流云厂商在技术层面的投入非常大,这不仅仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务经过长时间试运行,达到稳定以后才开放给用户,这是普通公司很难达到的,尤其是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差异性优势才是这类型企业的立足关键,而不是纠结于底层的基础设施。

当然,如果企业具备一定线下集群,上云确实需要一定工作量和迁移成本,这包括网络打通、数据、作业、应用迁移等。线下规模越大,工作量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工作其实是阶段性的,随着云技术的发展,企业可以直接或间接享受技术红利。此外,云厂商提供了不少迁移技术,比如多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。

安全

安全是企业对云计算最早也是最大的顾虑,上云肯定无法完全规避安全风险,但如果和自建机房相比,云平台相当于多了一重保险。如果企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,同样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防护、主动漏洞扫描、权限管理、隐私保护等)上有非常大的投入,安全性比自建要好的多。

云厂商 vs 云上自建大数据服务

对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务还是选择基于云平台自建,这些企业往往具备一定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将所有业务迁移至公有云;专注专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。

从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就好比每一项新技术都经过了长期市场论证一样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。

其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优势已经逐步从“能做”变成“又快又好”。云计算厂商的规模优势能够建立更高的竞争门槛,这是很多企业自建所达不到的。

混合云和多云皆是过程,单一云平台可能是主流

当企业确定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合自己业务发展需求的?是选择混合云、多云还是单一公有云平台?

去年,一向对混合云不感兴趣的 AWS 推出了不少混合云服务,这让不少企业开始推测云计算的未来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,无论是混合云还是多云都存在跨云管理的问题,用户需要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。

现阶段,依照用户需求不同,本地部署、混合云(作为中间形态)与云平台部署三种情况都可能出现。但是,长期来看,随着云平台的逐渐成熟和用户认可,从成本和效率角度出发,单一云平台或许会是主流。

关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺乏选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务造成不可逆的影响等。

关涛认为,如今的云服务分层解耦越来越清晰,各基础服务接口未来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅降低用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供一定程度的异构容灾能力,例如阿里云的 3AZ 方案,可以保证跨数据中心的可靠性,技术上能够满足异构容灾需求;如果用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这需要在多云平台之上,再做一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。当然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业很少同时选择两种数据库方案。

结语

从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,很多大企业选择上云看重的可能并不是 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不仅会用 IaaS 的能力,并且可能会被上层能力吸引。

据此,阿里云大数据服务接下来将集中对如下几方面进行改进:一是作为大数据引擎,随着数据爆发式增长和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,比如在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。

各位网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?

本文转载于InfoQ,原文链接 www.infoq.cn/article/i8B…*yuqxJH

了解阿里巴巴大数据计算服务访问 www.aliyun.com/product/odp…

原文链接:yq.aliyun.com/articles/69…

本地 vs 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛...相关推荐

  1. 本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

    一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑:或者,当企业出现某种弹性计算需 ...

  2. 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享

    2020"东方国信杯"高校大数据开发大赛最终榜第三名思路分享 2020"东方国信杯"高校大数据开发大赛刚刚结束,我所在的队伍"三人运动团"最 ...

  3. 云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋

    ​谈及当下技术领域的热词,必定有云原生.大数据.AIoT,不仅因为这些新兴技术拥有前所未有的创造力,更是因其中每一项技术都代表诸多未知的可能.而当这些技术相互碰撞时,将为软件发展.技术进步.城市升级带 ...

  4. 2021阿里巴巴大数据技术公开课第一季:外部工具连接SaaS模式云数仓MaxCompute实战

    简介:MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速.全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运 ...

  5. “云+大数据”时代 中端存储如何选择

    云计算.大数据,随着这两个技术词汇在越来越多的映入我们眼帘的同时,一方面企业级IT基础架构也在随之在潜移默化的改变着."云+大数据"时代,在很多人看来,首先想到的是,大数据和私有云 ...

  6. 寄云科技获Pre-A轮千万元融资:开启云+大数据企业服务的征程

    对于寄云科技正在做的事儿,寄云科技CEO时培昕认为"没有竞争对手".在他看来,当国内客户还在关注IaaS的时候,寄云科技已经知道SaaS如何运营了:当国内客户还在关注IaaS的时候 ...

  7. 河南地矿“牵手”中原云大数据 共建“地矿云”大数据平台

    8月26日上午,河南省有色金属地质矿产局与河南中原云大数据集团有限公司,就共建河南"地矿云"大数据平台.推进地矿大数据的创新应用达成全方位战略合作.此次双方签约将河南"地 ...

  8. Linux入门最终集! Vue SpringBoot Mybatis-Plus Linux 阿里云!

    Linux入门最终集! Vue & SpringBoot & Mybatis-Plus & Linux & 阿里云! 一.Xshell连接时出现警告 The remot ...

  9. 专访阿里云总裁王文彬:做出“用得爽”的工程产品

    摘要:已拥有近百万不同行业领域用户的阿里云,在产品开发.服务输出与生态系统建设等方面还将继续加速,多点开花. 回顾在2014年已经过去的半年中,阿里云在产品开发.服务输出与生态系统建设层面的诸多动作. ...

最新文章

  1. 补充前几天测试用到的Linux命令
  2. laravel authorize(授权)
  3. mysql汉字占几个字符_mysql和oracle的一个汉字占几个字符
  4. 用100行python代码发现语音识别文本错误词,并将结果和正确词一一对应
  5. 关于相机标定的问题答复网友
  6. 数据库优化:8 种常见的SQL错误用法
  7. html显示线条流动效果,css3实现线条流动效果
  8. 安卓mqtt调试工具_MOTT工具调试阿里云物联网平台
  9. C++_homework_StackSort
  10. c++ mfc程序 屏幕只显示部分内容_Visual C++ MFC 简明教程
  11. Unity3D脚本编程——使用C#语言开发跨平台游戏
  12. Linux 优秀软件资源大全中文版
  13. 面试官:测试计划和测试方案有什么区别?
  14. 一个项目经理的经验总结_小七_新浪博客
  15. vue全家桶指的是哪些?
  16. 桌面快捷方式图标异常怎么办
  17. css实现立体感按钮
  18. 九宫格一条线连起来_9个圆圈用4条线连起来-九个点用四条线连接-数学-霍甲心同学...
  19. afn原理 ios_iOS AFNetworking网络框架详解
  20. 看一眼就会马上收藏的宝藏设计网站

热门文章

  1. 数云融合丨从认知到实战,找准数字化转型路径
  2. mysql默认锁机制是什么_MySQL中锁机制的原理是什么
  3. Disney的小鳄鱼爱洗澡在网页版
  4. 8种野外必需掌握的钻木取火方法!
  5. linux lsm 程序加载钩函数,selinux 学习笔记一(LSM在kernel中的实现)
  6. 散热孔,PCB设计中的重要散热方法,你掌握了吗?
  7. python分组符合条件相加_python实现分组求和与分组累加求和代码
  8. Android Application的作用
  9. mysql获取前一个月的日期和前一年的日期
  10. java char 动态数组_Java程序来填充char数组中的元素