企业数字化转型过程中,数据价值被显著放大,大数据应用成为不少企业探索的重点。

从技术上看,大数据业务由于数据体量大,且数据量很多时候呈急速膨胀状态;在进行大数据计算分析时,对资源的需求呈现浪涌式特征,又偶有突发性,因此通过上云充分发挥资源按需使用按需付费的优势,成为了不少企业在探索大数据应用时的常见模式。

这其中,企业在综合考量数据安全性、可扩展、可管理和成本效益等因素后,混合云部署的方式就成为了企业的主流选择。

近日,腾讯云存储高级产品经理贺永红在混合云主题论坛上发表演讲,详解了大数据应用上云的新思路。

一、企业自建大数据的难点

企业数据中心自建大数据业务,一般会遇到扩容的问题,随着大数据分析在业务价值挖掘上的作用愈加重要,新增及突发的分析任务越来越多,此时,趋于饱和使用率的硬件资源便会成为瓶颈,从提交预算申领设备到新设备加入分析集群通常需要较长时间(有时会超过一个月),这样会也导致大数据计算结果延期交付。随着时间推移,大数据中存储的数据越来越多,如何降低数据的存储成本,在需要的时候又能快速分析。

二、大数据混合云存储之道

大数据混合云存储将IDC大数据和公有云大数据连接为混合云,通过存算分离(计算与存储分离),实现计算弹性伸缩;通过数据全生命周期自动沉降实现存储低成本。

三、大数据混合云存储中的关键技术

1.存算分离

存算分离,计算与存储分离,计算基于标准HDFS协议访问存储,计算资源和存储资源各自按需扩容;计算资源可以分钟级按需创建及销毁,数据存储在COS(Cloud Object Storage)「https://cloud.tencent.com/product/cos」统一存储层,集中存储、统一管理。

存算分离,让数据存储在云中对象存储COS上,计算集群直接分析COS中的数据,计算资源专注于计算,按需实现弹性伸缩,按需创建及销毁,不用维持冗余设备来保存数据;通过计算与存储分离,实现计算弹性伸缩,按需创建及销毁,可以节约大数据20-30%的成本。

2.高效存储

存储资源COS(Cloud Object Storage)海量、无容量上限、无需扩容、按需供给,高效、平滑接入大数据生态、按需使用付费、通过生命周期策略自动沉降极致降低成本。


COS中存储类型分为标准存储、低频存储和归档存储,通过配置数据全生命周期策略实现自动沉降:经常访问的数据放在标准存储,较少访问的数据放在低频存储,基本不访问的数据放在归档存储,以上三种存储类型,价格不同,例如归档存储刊例价就不到标准存储刊例价的1/3,数据自动沉降后成本节约20-30%。数据沉降归档后,能及时回热,需要用的时候能及时被计算集群访问。

3.统一管理

云上云下的统一管理,一致使用体验;在数据面云上COS与IDC中HDFS统一元数据管理,实现全量数据ETL(抽取、转换、装载)。在技术面,云上和云下均采用大数据开源组件,接入大数据开源生态,保持一致使用体验。

4.数据高效流动

云下与云上的数据流动,这里主要包括两种数据流动。

其一、数据在IDC与云上COS间快速水平流动;用户每天可往云上COS灌入200TB+数据,基于COS海量并发设计,可进一步加粗上传管道,加速数据上云。数据下云,一般是结算结果返回到用户IDC,这部分数据量比较小,是从海量沙子里掏出的金子,不存在技术挑战。

其二、数据在EMR计算与COS存储间快速垂直流动,在EMR进行大数据计算时,需要在瞬间从COS中读取大量数据到EMR中进行计算,关键技术是COS的高性能,来满足数据的快速读写。

四、腾讯云大数据混合云存储实践

腾讯云大数据混合云存储方案,经历腾讯内部业务(微信、QQ、腾讯视频等)长期打磨而沉淀下来。

腾讯云大数据混合云存储,包括三层:混合大数据引擎、任务统一编排、数据开发平台:数据开发平台实现数据价值开发,包括用户画像、广告推荐等;任务统一编排实现大数据任务在IDC及云中全局调度及计算弹性伸缩;混合大数据引擎对IDC及云中大数据进行管理。

某头部游戏直播公司,大数据体量大,很早就成立了近百人的专业大数据团队,以支撑近百P规模的离线、实时流式数据的高效存储计算及数据科学探索。

其大数据架构如图,左边本地IDC,右边腾讯云 EMR ON COS,通过专线打通,数据互通,优先上传分析用到的数据,将数据导入到腾讯云COS中;基于存算分离,通过腾讯云EMR产品创建的Hadoop集群分析已导入到COS中数据。分析任务结束后,销毁EMR集群,不再产生费用,COS数据自动沉降进一步降低成本。

五、结语

腾讯云大数据混合云,能够实现大数据业务平滑上云,并实现对已有IDC硬件资源的合理利用,实现业务弹性伸缩,实现存储资源和计算资源的高效利用。

混合云存储:大数据应用的上云之道相关推荐

  1. 云痕大数据 家长登录_云痕大数据平台的使用对初中英语教与学的作用

    摘 要:云痕大数据学情诊断平台是利用"互联网+"的思维方式和云计算.大数据和人工智能等新一代信息技术,以教育数据的汇聚.分析与共享为核心,成为一款教育领域专业的学情诊断工具.教师可 ...

  2. 云痕大数据 家长登录_1 云痕家长操作手册

    云痕家长操作手册 家长端为微信小程序,请先关注微信公众号"云痕大数据" 1)如何绑定孩子?①:点击"查看学情"②③④:输入手机号.输入验证码,点击登录(每天验证 ...

  3. 金融行业云迁移实践 HyperMotion助力江苏农信银行实施金融专有云创新项目,实现跨地域,多网点,大数据量迁移上云

    项目概述 当前,互联网技术将经济社会带入了"平台经济"的时代.<银行业信息科技"十三五"发展规划监管指导意见>要求,"十三五"期 ...

  4. 云痕大数据 家长登录_云痕家长app

    云痕家长app是一款联系学校老师家长和孩子的学习服务平台软件,家长们可以在这款软件上掌握孩子在学校的学习情况,有什么问题可以直接跟老师进行沟通和交流,此外查询成绩也是云痕家长app的一个重要功能! 云 ...

  5. 白下高新区妇联、科协举办亲子活动,小朋友们走进云创大数据

    为了让白下高新区员工及子女感受到高新区妇联的关怀,从而进一步增强对企业的认同感和归属感,营造和谐幸福的企业文化氛围,也为孩子们的茁长成长撑起一片天,7月31日,高新区妇联.科协联合钟晓敏爱心工作室举办 ...

  6. 与混合云相得益彰,混合云存储大趋势不可阻挡

    业界大咖对话:预见2021年数据存储最新9大趋势 新趋势关键词:混合云 新趋势:与混合云相得益彰,混合云存储大趋势不可阻挡 针对混合云存储的分析,需要从两条路线来展开,一个是来自企业级存储厂商拓展到云 ...

  7. 云创大数据云存储专利荣获“江苏专利奖优秀奖”

    近日,江苏省人民政府发布<省政府关于公布首届江苏专利奖的决定>,经专利权人和发明人申报.专家预审.信用查询.社会公示,评选出项目类专利奖.其中,南京云创大数据科技股份有限公司(简称:云创大 ...

  8. 和合共生,聚势谋远——云创大数据教育渠道大会隆重举行!

    2017年12月8日,由云创大数据主办,Intel与日立协办的教育渠道大会在宁隆重举行,本次大会得到了业界的广泛关注,150余位业界同仁与渠道合作伙伴莅临本次大会,畅聊产品,寻求机遇,共谋发展. 大会 ...

  9. 直播回顾 | 论道原生:云原生大数据建设实践

    近年来,随着数字化进程不断推进,大数据成为企业经营管理的主要手段之一,大数据平台建设的需求与日俱增.但是传统的大数据系统搭建.开放和运维都相对复杂,还存在着弹性不足.资源利用率低等一系列问题,同时海量 ...

最新文章

  1. html frame 菜单切换,官方底部导航如何通过frame0.html的JS控制切换
  2. 利用抽象工厂创建DAO、利用依赖注入去除客户端对工厂的直接依赖、将有关Article的各种Servlet封装到一个Servlet中(通过BaseServlet进行
  3. android 自定义刷新控件,Android开发中MJRefresh自定义刷新动画效果
  4. Ubuntu下面的Keras可视化+权重维度获取-Netron的安装使用
  5. 并联系统的失效率公式推导_供暖系统水力平衡率对室温的影响
  6. 剑指Offer - 面试题9. 用两个栈实现队列
  7. 一滴血、15分钟!钟南山指导研制试剂盒有望快速检测出结果
  8. ios 画带有箭头的线_ios纯色箭头与渐变色箭头的实现
  9. websocket 连接本地端口_Spring Boot 结合 WebSocket 实现在线聊天
  10. 服务器口令怎么修改,畅捷通不能连接到服务器怎么修改口令
  11. 【矩阵论】对称矩阵特征值的性质与直积
  12. 网络加密流量的相关研究
  13. 缩写月份单词python代码_Python替换月份为英文缩写的实现方法
  14. OpenCvSharp (C# OpenCV) OCR实现中英文识别 文字识别(附WinForm完整源码)
  15. 侬用洲的移动通信复习资料
  16. BNNVGG2-VGG Net
  17. Python有趣|数据分析三板斧
  18. iptables下udp穿越结尾篇----iptables与socks5
  19. intelx79服务器芯片组,流言终结者!Intel X79规格全面介绍
  20. Maven导入依赖时jar包出现unknown

热门文章

  1. append和extend区别
  2. BZOJ 1639: [Usaco2007 Mar]Monthly Expense 月度开支( 二分答案 )
  3. C++代码一次读取文本文件全部内容到string对象
  4. TDT2 多语言本文 4.0 版 TDT3 多语言本文 2.0 版
  5. PaddlePaddle线性回归示例
  6. python爬虫课程设计摘要_爬虫课程设计(爬虫代码)
  7. C++基于STL的演讲比赛流程管理系统
  8. 对称二叉树--深度遍历与广度遍历
  9. boost::asio的C/S结构笔记
  10. Linux下Socket客户端服务器通信