数据仓库上云已经不是什么新鲜概念,这里简单聊一聊在这个过程中需要考虑的问题。

首先,某些话题不是一两句能说清楚,所以,这里我们不聊以下话题:

  • 技术平台的对比。这里我们不做任何对比分析,如不特殊说明均指Azure以及微软相应的产品。
  • 某个产品的好坏。
  • 法务,合规。不同公司有不同的规定。
  • 国家大事。这个我们知道就好,不在这里聊。但是我想强调一点是,即使只搞技术,国家民族大义也是头等大事,不然你会吃亏。

上不上云

To be or not to be, this is a question.

首先上云肯定是有优势的,而且是不只技术层面的优势。

也许有人说上云反而更贵,这也仅仅是计算方法不同导致的而已,毕竟不会所有人都会关心服务器的采购,供应商的沟通,以及续保等问题。

对于什么样的数据上云,不同的公司有不同的规定。对于保守的公司这里不做讨论,不过目前大环境可以看到,这个趋势被越来越多的公司所认可,也都有了相应的项目上云,但还是会对能掌握命门的数据有所保留,而只是把相对能公开的数据上云,比如跟销售市场相关的。

国内 or 国外

首先要知道,国内的Azure很多功能还是缺失的,相应的团队正在加大力度引入更多海外版的功能。所以,在做设计,以及参考微软的文档前,要先确认相应的功能是否已经上线,比如虚拟机自动关闭的功能,在当前这个时间节点2020年9月还没有在国内上线。

另外不同的项目也需要参考相应的规定。比如某些数据是不允许脱离所在国家的。

PAAS or IAAS

这两个方式各有优劣,需要根据自己的情况选择。

PAAS的话什么都是现成的,同时也省去了你做底层维护的困扰,但是如果你需要底层数据的支持进行故障分析或者调优的工作,会受到很多限制,比如服务没有响应,是不是CPU超负荷导致的。

IAAS需要你从虚拟机开始搭建,跟传统不上云的方式没什么区别,好多底层,打补丁之类的维护你需要自己考虑怎么解决(还好微软有现成方案)。但是获取底层数据排查问题的时候会有更多的自由度。

如果你在范畴用IAAS的话类似打补丁的运维工作怎么处理,那么也大可不用担心,Azure平台有现成的功能,配置下就可以,平时多监控着就行了。

另外如果你的数据仓库是基于大数据平台构建的话,那么推荐考虑PAAS平台,毕竟一个集群的搭建和管理所花的成本还是很大的。

数据联通

这也是需要考虑的一个问题,因为你上云了,不见得其它系统也会跟着上云。所以当你需要获取这些系统的数据的时候需要考虑些特殊的方式,而这些方式可能会影响到你对于大量数据的传输。

首先数据库直连就不要考虑了,任何一家公司的网关也不会冒这个风险给你开绿灯。

那么就需要看看所在公司层面是否提供类似的平台,比如文件传输平台,或者是专线。

如果有现成的文件传输平台,并且能够保证传输的安全,那么就可以考虑数据从源系统导出的方式。

如果有了现有专线,那么可能会方便一些。但是否能保证两边数据库直连,也要看各家公司网管的脾气。如果可行的话,那么就需要在公司层面统一规化内网IP段的使用,确保在进行互连的时候不会冲突。

当然,如果你是微软所说的理想情况,所有其它应用都在云端,那么恭喜你。

数据安全

从技术层面(是的,仅仅是技术层面),数据安全需要从两个方面去考虑。首先是数据的存储安全。这个微软的平台基本都支持。其次是数据的传输安全,这个需要根据你用到的不同产品去具体分析,基本上要确保,即使数据仓库的内部通信,也要保证数据的传输不是明文,而是加密的,所以什么HTTPS,SSL之类的能上都上。

网络安全

你的架构在云上,那么他就有可能被黑客骚扰吗?这个是很有可能的,基本上如果你设置日志,那么就可以看到时不时有东西在嗅探你公开出来的端口,尤其是数据库之类的端口。

要解决这个问题,首先,网络层面的设计可以参考各种最佳时间,比如对虚拟网络里子网的划分,管理层,应用层,数据层都分开。数据层不允许任何公网ip的请求,应用层通过内网ip对数据层进行访问。只有管理层才有对应用层以及数据层的远程权限。

当然方法不只这一种,总体的思路基本都是,尽量缩小在公网暴露出来的端口,减少被扫描到的可能性。

数据备份

这个是上不上云你都需要考虑的。

首先如果你不上云,那么你可能需要去配置单独的作业去做备份计划。

如果上云的话,你也可以这么做,但是你还有更多的选择,比如就借助Azure平台的功能,这也是我推荐的。

另外有些对于存储备份的功能,国内部分功能还没上线,比如对于Azure Files的,这个在设计的时候需要留意。不过已经上线的功能已经能满足你的大部分应用。

所以,如果在自己定义备份计划脚本和用平台的备份功能选择的话,我建议用平台级功能。

灾难恢复

这个要看你系统承诺的RTO以及RPO。

跟其它平台以及虚拟化平台一样,Azure平台也提供了不错的功能,你可以通过配置指定你的灾难恢复方式。比如从上海到北京。

对于RTO,虽然很少有平台能承诺一个时间,但主流的云厂商都会把20分钟看成一个重要指标。如果你去测试的话基本上你的资源在这个时间范围内也都能恢复过来。

RPO要具体去分析。对于应用层的服务器,比如报表服务,基本不会有什么压力。主要是数据层的数据仓库。虽说平台级都是实时的数据传输,但是也不能保证被恢复的数据库就是100%成功的,即使这个失败的机率很小,那也是应该考虑的。所以对于数据仓库服务器,建议灾难恢复以及数据库备份都开着。

其它

对于解决方案的判断,需要有自己的判断,不能盲目迷信。比如对平台市场及销售人员,也许你只需要一个大众,在未来一段时间换奥迪都会感觉困难,但是偏偏就会有人跟你说这个世界的车只有宾利或者保时捷。

价格方面也是很多项目关心的,还好国内平台官网上已经提供了比较详细的报价,只要你对相应的知识点都有了解,那么来理解这些价格信息是不会有什么难度的。

账单,这个需要尽量多的关注,避免有些你已经不用的功能还在收费,因为有些资源不是你删除了主资源之后也会跟着删除的。

技术上的支持,平台方的支持也是很不错的,如果你是订阅用户都有免费和收费级别的服务。对于指定问题,跟同内部的技术团队沟通一样,一定要让问题尽量明确,这样才会得到平台方最高效的回复。

数据仓库上云那些事儿相关推荐

  1. 阿里云李飞飞:今年将帮1000家企业“去O”,完成10000套传统数据仓库上云

    阿里云直播回放 头号云话题直播回放 "今年将帮1000家企业'去O',完成10000套传统数据仓库上云."6月9日,阿里云数据库负责人李飞飞在阿里云峰会上表示,经过多年技术演进,传 ...

  2. 阿里云李飞飞:帮1000家企业“去O”,完成10000套传统数据仓库上云

    阿里云直播回放 头号云话题直播回放 "今年将帮1000家企业'去O',完成10000套传统数据仓库上云."6月9日,阿里云数据库负责人李飞飞在阿里云峰会上表示,经过多年技术演进,传 ...

  3. 腾讯的技术牛人们,是如何完成全面上云这件事儿的

    自研上云是怎么一回事? 现在是互联网时代,云服务改变了我们的生活,也改变了整个IT行业.到底什么是云服务呢?小灰在以前的文章当中打过一个比方: 村子里有100户人家,每家都要盖自己的房子.如果每一家都 ...

  4. 企业上云业务系统上云是怎么回事儿?

    近年来各政企事业单位陆陆续续在准备业务系统上云,那么业务系统上云是怎么回事呢?这对各单位又有什么好处呢?上云成本正常来说有多少呢?接下来为您解答. 盘点历史业务系统 大多数传统企业业务数据都保存在本地 ...

  5. 大数据上云存算分离演进思考与实践

    作者:汤祯捷 阿里云智能计算平台团队 存算分离.数据湖.在离线混部,这些名词越来越多的出现在各行各业数字化转型的关键活动中.本文仅从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程 ...

  6. 基于消息队列 RocketMQ 的大型分布式应用上云较佳实践

    作者|绍舒 审核&校对:岁月.佳佳 编辑&排版:雯燕 前言 消息队列是分布式互联网架构的重要基础设施,在以下场景都有着重要的应用: 应用解耦 削峰填谷 异步通知 分布式事务 大数据处理 ...

  7. 基于消息队列 RocketMQ 的大型分布式应用上云最佳实践

    简介:Apache RocketMQ 作为阿里巴巴开源的支撑万亿级数据洪峰的分布式消息中间件,在众多行业广泛应用.在选型过程中,开发者一定会关注开源版与商业版的业务价值对比. 那么,今天就围绕着商业版 ...

  8. 企业上云的数据库演进之路

    简介:近日,阿里云协同阿里云生态伙伴主办的2021年数字化城市创新行在山东济南和辽宁大连召开.阿里云的数字化产品与解决方案帮助中小企业共享机遇,也为两地经济数字化转型开启新的"赛季" ...

  9. 玩吧高速增长的数据上云实践

    简介:首先介绍一下我们的公司,公司全称是北京默契破冰科技有限公司,创建于2015年,是一家娱乐社交平台公司,玩吧是我们公司APP的名字,APP上有很多双人小游戏,像卧底大师,你说我猜,大家可以边玩边聊 ...

  10. 基于消息队列 RocketMQ 的大型分布式应用上云实践

    简介: Apache RocketMQ 作为阿里巴巴开源的支撑万亿级数据洪峰的分布式消息中间件,在众多行业广泛应用.在选型过程中,开发者一定会关注开源版与商业版的业务价值对比. 那么,今天就围绕着商业 ...

最新文章

  1. 如何解决两个相邻的span中间空隙
  2. ab压力测试php脚本,ab压力测试工具-批量压测脚本
  3. HDR与ToneMapping
  4. 超文本标记语言HTML
  5. 测试中常见bug总结
  6. Netty的前期准备:初探NIO中的缓冲区
  7. win10下安装maven
  8. 对linux安装中文字体库
  9. 超高频RFID智慧酒店管理系统解决方案
  10. 动态规划——一维dp数组与二维dp数组
  11. 获取TrueType字体信息
  12. blast2go mysql_blast2go本地化-2017教程
  13. 采用flv.js与dplayer播放器来播放http-flv格式视频
  14. 最简单的搭建及使用本地服务器
  15. 数据库周刊62丨央企2021年数据库成交公告,国产占90%;流数据库HStreamDB开源;MySQL主从双写导致数据丢失;Oracle 19c升级最佳实践;PG日常工作分享;MySQL MGR运维指
  16. c#操作excel方式三:使用Microsoft.Office.Interop.Excel.dll读取Excel文件
  17. 苹果微信换行怎么打_苹果手机微信怎么加密,教你几招快速加密
  18. 阻抗匹配四种处理方式
  19. linux下raid1数据恢复,在linux下做RAID1试验
  20. @media screen and 不起作用原因汇总。(转载)

热门文章

  1. BottomNavigationView--基本使用总结
  2. 基于Python爬虫的电影数据可视化分析
  3. 又一个程序猿的奋斗史——第二章 实习
  4. pe下查看ip和计算机名称,利用U盘pe系统查找原来电脑ip
  5. 手机H5-调用百度地图导航
  6. Mac下载安装vscode
  7. c语言小球碰壁,小球碰壁效果
  8. hdu5773 2016年多校4 nlogn求LIS
  9. php显示某年某月某日,Android获取指定某年某月某日相对应星期,某年某月有几天...
  10. lzg_ad:XPE系统管理工具组件