云时代的大数据存储-云HBase
纵观数据库发展的几十年,从网状数据库、层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异。在20世纪80年代后,大部分的业务确定了使用RDBMS数据为存储基础。新世纪开始,随着互联网的发展,数据量的增大,慢慢RDBMS数据库撑不住了,就出现了读写分离策略。随着压力增加,Master撑不住了,这时就要分库了,把关联不大的数据分开部署,一些join查询不能用了,需要借助中间层。随着数据量的进一步增加,一个表的记录越来越大,查询就变得很慢,于是又得搞分表,比如按ID取模分成多个表以减少单个表的记录数。经历过这些事的人都知道过程是多么的折腾。在不同的场景下,就出现各自优秀的分布式数据库,比如在文档型存储下的MongoDB,KV类型的Redis,再比如今天讲的列族类型的HBase。
大数据时代数据存储的特点为:基础量大、增长快、计算与存储的实时性要求迫切、支持时效性短、易发散、易产生脏数据,这些HBase自出生起,就满足这些需求。在大数据时代,我们认为HBase是公认的大数据存储。HBase的原型出自Google的BigTable,这个跟大数据的GFS及MapReduce齐名的三篇论文,由此开创了大数据时代。目前在阿里,已经有上万台的HBase集群,在各个场景下有广泛的应用。
为什么要上云,需要了解到HBase本身比较复杂,这涉及到分布式、数据存储、响应延迟,索引等一些分布式、数据库的知识,对于运维好这个复杂系统还是有一定的难度;要有很好的使用姿势,虽然API比较简单,但是各种组合情况下,畅玩好HBase还是需要一定的功力; 上云是趋势,自己去基于ECS建设又不太了解云环境下,怎么正确部署HBase,怎么跟OSS等云上组件配合。
为此,我们提供云HBase加上专家服务 解决以上3个问题
最后,HBase在阿里集团使用了6年之久,已经在HBase的性能、运维等积累了大量的经验,我们希望把这些回馈给客户,例如:我们仅仅单条低字节高频写入情况就比社区版本高出30%+的性能。
目前提供的价值点有,以下几点:
- 高可靠: 数据备份,数据可靠性9个9
- 高可用:Master节点强制HA机制,出现问题后直接切换
- 易运维:一键构建、配置修改、一键扩容、自动备份、数据流入
- 高性能:比如开源性能大幅度提升30%+
- 低成本:后续本地盘、云盘、OSS分级别存储
技术架构
从技术架构层面看,大致如下:
基础资源层:我们底层使用了ECS及本地磁盘的架构,保证在低成本的同时又具备高性能
基础软件层,我们使用了ALi-JDK及ALi-Liunx,这两个都有专门的团队在维护,对云HBase的贡献,比如:改进gc算法减少毛刺,改进linux中断提升性能。
HBase内核层,目前使用是跟阿里集团内部一致的版本,也就是说内部所有的性能优化、功能增强在公有云的客户都可以享受到。这些包括但不限于:提升读写性能、增强稳定性、降低磁盘、网络抖动引起的毛刺等等。 -另外就是运维平台,逐步完善,后续会包括 监控报警、配置管理、健康诊断等等 易于运维的功能。
目前支持两种访问网络类型,第一种是经典网络、第二种是VPC网络。区别就是VPC再加了一层网络隔离。
经典网络:
VPC网络:
使用场景
HBase作为默认的大数据时代的存储,基本解决以下三大类的场景:
平台类,基本存放是平台的产品,就是其它软件的存储,比如 目前很就行的kylin,阿里内部的日志同步工具TT,图组件Titan等。此类存放的往往平台的数据,有时候往往是无业务含义的。作为平台的底层存储使用。
用户行为类,此类主要是面向各个业务系统。这里的用户不仅仅指的人,也包括物,比如物联网。在阿里主要还是人产生的数据,比如:淘宝收藏夹、交易数据、旺旺聊天记录等等。这里使用比较直接,就直接存放HBase,再读取。难度就是需要支持千万级别的并发写访问及读取,需要解决服务质量的问题,比如GC了,就出现大量的毛刺。
报表类的需求,比如报表、大屏等,最出名的就是阿里巴巴的天猫双十一大屏。
基本上:Mysql支持小数据量,查询较为复杂的数据应用;HBase支持大数据,查询较为简单的数据应用。
后续计划
一些功能,比如同步等,产品化,直接从rds及离线系统导入数据到云HBase系统中
完善云HBase功能,不断做精细化
提供HBase on OSS的能力,降低数据存储的成本
提供双集群多写多度的能力,做多区多地域容灾
本文作者:佚名
来源:51CTO
云时代的大数据存储-云HBase相关推荐
- 面向智能电网的电力大数据存储与分析应用
面向智能电网的电力大数据存储与分析应用 崔立真1, 史玉良1, 刘磊1, 赵卓峰2, 毕艳冰3 1. 山东大学计算机科学与技术学院,山东 济南 250101 2. 北方工业大学云计算研究中心,北京 1 ...
- 深入浅出大数据存储架构,如何设计才能满足需求?
"与数据同行"开通了微信群,现已汇聚了4000位小伙伴了,加我为微信好友(微信号:fuyipingmnb)申请入群,让我们共建一个数据社区,<与数据同行>致力于为您提供 ...
- 工业AI时代,大数据云平台未来5年迎最佳发展时机
来源:专知 摘要:继德国工业 4.0 的提出,中国也确立了"中国制造 2025"的目标,工业 4.0 及物联网的概念在中国大地上遍地开花,整个行业也是红红火火. 从工业大数据到智能 ...
- 中存超为-企业级存储获得“云上贵州”大数据商业模式大赛第二名
2016年"云上贵州"创客大赛,号称国家级.国际化赛事.中存超为的企业级存储项目从一万多个项目中脱颖而出,夺得了第二名! 贵州现在力推大数据,有贵阳.贵安两个国家级创新区,三大运营 ...
- 大数据上云存算分离演进思考与实践
作者:汤祯捷 阿里云智能计算平台团队 存算分离.数据湖.在离线混部,这些名词越来越多的出现在各行各业数字化转型的关键活动中.本文仅从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程 ...
- 昨日黄花Hadoop 方兴未艾云原生——传统大数据平台的云原生化改造
本文6539字,阅读时间约20分钟 以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发 ...
- 云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋
谈及当下技术领域的热词,必定有云原生.大数据.AIoT,不仅因为这些新兴技术拥有前所未有的创造力,更是因其中每一项技术都代表诸多未知的可能.而当这些技术相互碰撞时,将为软件发展.技术进步.城市升级带 ...
- 智能大数据专场,百度智能云带来智能大数据产品架构全景图
9月28日,百度智能云2021"云智技术论坛"智能大数据专场在上海成功举办.本次会议以"云智一体,让大数据发挥大价值"为主题,百度副总裁谢广军携百度多位资深技术 ...
- 生活在互联网大数据时代,个人数据存储还有隐私吗?
生活在互联网大数据时代,个人数据存储还有隐私吗? 进入移动互联网的时代,流量和数据快速增长,我们几乎无时无刻不在产生数据,这些数据会被随机的存储在各种APP上.云盘上.手机的内存里或者被缓存清除掉,或 ...
最新文章
- 【Qt】Qt5在ubuntu16.04无法输入中文解决方式
- Decoders对于语义分割的重要性 | CVPR 2019
- C++ Primer 5th笔记(chap 17 标准库特殊设施)指定浮点数记数法
- 【CSDN】设置图片大小
- 鸡肋还是革新——Blazor进WinForm
- 给iOS项目中添加图片,并通过UIImageView引用和显示该UIImage图片
- 4月24日云栖精选夜读 | 阿里云POLARDB如何助力轻松筹打造5亿用户信赖的大病筹款平台?...
- 从html富文本中提取纯文本
- 毕设题目:Matlab身份证识别
- VS201x的项目属性配置
- Android中什么是Dex文件
- TalkingData的使用,iOS数据统计
- linux firefox源码修改主页
- 小心! Java三目运算符
- 大三期末网页设计作业 以旅游景点风景主题介绍网站设计与实现 (广东名胜古迹)
- 斜杠 反斜杠 双斜杠 双反斜杠
- python清华源 断流_V2Ray断流异常
- 【Java----函数(function)】
- 【GreenPlum】使用gprecoverseg报gprecoverseg failed
- MyEclipse10.5+jdk1.8的安装
热门文章
- BackToTop.js 为你的网站添加“回到顶部”按钮
- 大搜索时代下的网络拓扑搜索定位
- 关押罪犯 扩展域并查集
- OC 与 C++ 混编导致 ’string‘ not found
- 知乎究竟走的是什么路线?克隆之路靠谱吗?
- 利用opencv作透明重叠人群密度热度图
- CentOS 7 安装无线驱动
- nginx 安装配置指南
- ActiveReports 报表应用教程 (9)---交互式报表之动态排序
- VMware vSphere 5.1 群集深入解析(二十九)-故障排错