当云计算遇上大数据,怎样在虚拟环境中获取大数据的价值,是企业必须面临的问题。其中最关键的一个部分就是:内存虚拟化。

gemfire:VMware大数据之道

VMware给出了他们的答案:在统一的vSphere云架构之上,提供GemFire实时处置、GreenPlum交互处置及Hadoop批处置三种模式,满足用户的海量、快速及灵活的大数据处置需求,并为开发者、数据剖析师、数据科学家和商务用户提供数据剖析及可视化的数据展示。

与IBM、EMC、富士通、Intel等先后推出Hadoop刊行版差别,Vmware更专注于基础架构层面。在一场2000余人到场的VMware & EMC大数据云高峰论坛上,VMware公司大中华区总裁宋家瑜表示,云的平台才是唯一能解决爆炸性大数据使用的需求,把关键应用移到云平台已经是一个一定趋势。

gemfire: VMware大数据之道

Hadoop由于其低成本和高扩展性的优势,成为各大厂商处置海量数据的法宝,但虚拟基础架构云上的Hadoop,存在可靠性问题。凭据阿帕奇Virtual Hadoop wiki文档给出的结论,可以将Hadoop带到云基础架构上,但物理和虚拟基础设施之间的差异可能危及数据完整性和安全性。

现在,VMware开源项目Serengeti试图改变这个问题。该项目将允许企业在云端和虚拟环境中,在 vSphere 上部署和治理Hadoop。

范承工介绍,Serengeti将Hadoop在虚拟基础架构的部署时间从许多天缩短到10分钟,同时还能够提高硬件的利用率,能够满足多租户的需求,有更好的安全隔离,也有更好的伸缩性。Vmware还介绍,通过 vSphere,Hadoop应用如若节点失败能够自动重启。

VMware试图在统一的vSphere云架构之上,提供GemFire实时处置、GreenPlum交互处置及Hadoop批处置三种模式,满足用户的海量、快速及灵活的大数据处置需求,并为开发者、数据剖析师、数据科学家和商务用户提供数据剖析及可视化的数据展示。

Vmware还做了一个UAP(Universal Analytics Platform)的大数据剖析平台,其中包括Greenplum database、Hadoop和Chorus分享软件,这个平台可以帮助客户同时剖析处置结构化和非结构化的数据。

通过Chorus系统,数据科学家可以自助的创建图形工作区,搜索和获取这些企业当中的数据。接下来创建数据剖析沙箱,也不会影响别人,当他有新的发现之后,又可以把他的发现孝敬给其他的数据科学家进行不停的改良。

云端大数据剖析工具Cetas,该产品来源于Vmware收购的一家提供在Hadoop平台之上的剖析服务的公司,提供实时剖析的能力,可以对市场的变化做出快速反映。Cetas通过公共云提供服务,易于部署,内建高效的剖析算法,且简单易用,极度容易的能够把数据上传到云里面,可以提供一个可视性的图表,对数据进行很好的展示。这也意味着,无需专业的数据科学家和统计科学家就可以进行商业剖析。

在满足快速需求上,Vmware有GemFire和SQLFire,他们都是内存为主导的数据库形式,可以实时地对数据的反映。在灵活上,Vmware提供了Object的GemFire的方式,为关系型数据库提供选择。

身兼两职的GemFire,实际上并非传统的内存数据库,而是横向扩展的疏散式的数据库,可以和现有的数据库共存,把它的优点发挥出来。它有许多平行的算法,可以应对OLTP,OLAP数据剖析等等。

由此看来,Vmware通过并购与研发,提供了包括虚拟服务器层、应用平台层、以及应用之上的数据层的技术。同时,这几种技术也可以一起使用,以满足用户所有的应用需求。因此,说整体的大数据解决方案是恰如其分。

背景介绍:传统的数据库大多接纳ACID(即(Atomicity, Consistency, Isolation, Durability)规则进行设计,随着数据量和业务量的扩大,同时为了保持数据的一致性,在并发过程加入了大量的锁控制,因此传统的基于硬盘存储的数据库徐徐成为了大型系统和复杂操作的IO和扩展性瓶颈所在。

VMware的gemfire正好提供这一条理的内存虚拟化技术,将传统意义的数据库进行了内存级其它虚拟化,创建了电脑集群级其它内存池,大大减少了IO延迟,从而软件开发人员不用在考虑硬盘条理的数据交换,设计上更加灵活自由,给OLAP等应用带了新的飞跃。

现有的gemfire部署方式有三种:P2P,client-server 或者 super-peer,hub-spoke组织的架构。

扩展阅读:

12306接纳Pivotal GemFire分布式解决方案 解决尖峰高流量并发问题

中国铁路客户服务中央网站www.12306.cn是世界规模最大的实时买卖系统之一,媲美Amazon.com,节假日尤其是春节的访问高峰,网站压力巨大。2012年6月选择了Pivotal GemFire分布式内存计算平台(Distributed In-memory computing)改造12306,由铁科院项目小组负责人王明哲主任和资拓宏宇(IISI)信息科技有限公司在铁科院主管朱建生所长领导下提供技术实行。

gemfire: VMware大数据之道

GemFire是Pivotal企业级大数据PaaS平台的一部分。Pivotal公司的企业级大数据PaaS平台主要有三个条理:云基础架构层 Cloud Fabric、大数据基础架构层Data Fabric、应用开发基础架构层Application Fabric。GemFire属于大数据基础架构层,此外,Greenplum数据库也属于这一层;云基础架构层的技术是Cloud Foundry;应用开发基础架构层的技术是Spring Framework和RabbitMQ等。

12306之前接纳Unix小型机架构,接纳GemFire技术改造成Linux/X86服务器集群架构,就意味着一下跨越三代。从小型机到大内存X86服务器集群,不仅让性能提升了一个数量级,而且成本也要低得多。

2012年3月开始,铁路总公司(原铁道部)开始调研、改造12306。2012年6月选择了Pivotal GemFire分布式内存计算平台(Distributed In-memory computing)改造12306,一期先改造12306的主要瓶颈——余票查询系统。9月份完成代码改造,系统上线。2012年国庆,又是网上订票高峰期间,大师可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快。2012年10月份,二期用 GemFire改造订单查询系统(客户查询自己的订单记录)。2013年春节,又是网上订票高峰期间,大师可以显著发现,可以登录12306,虽然还是很难订票,但是查询余票很快,而且查询自己的订票和下订单也很快。

gemfire: VMware大数据之道

中国铁道科学研究院电子计算技术研究所副所长朱建生表示,“通过技术改造解决了困扰我们多时的尖峰高流量并发问题,让全国人民不再由于技术原由而埋怨,我们终于舒了一口气。Pivotal GemFire分布式集群内存数据技术对整个技术改造发挥了关键的作用。同时,感谢Pivotal公司及实际上施方项目团队的努力,在技术开改造过程中确保旧系统顺畅运行、旧系统到新系统平滑迁移,快速实现新系统的上线。”

gemfire: VMware大数据之道

据统计, 在2012年头的春运高峰期间,每日有2000万人访问12306网站,日点击量最高到达14亿。大量同时涌入的网络访问造成12306几近瘫痪。 中国铁道科学院电子计算技术研究所作为12306互联网购票系统的承建单位,急需追求方法解决问题。

凭据系统运行数据记录,技术改造之后,在只接纳10几台X86服务器实现了以前数十台小型机的余票计算和查询能力,单次查询的最长时间从之前的15秒左右下降到0.2秒以下,缩短了75倍以上。2012年春运的极端高流量并发情况下,系统几近瘫痪。而在改造之后,支持每秒上万次的并发查询,高峰期间到达2.6万个查询/秒吞吐量,整个系统效率显著提高。如上图所示。

订单查询系统改造,在改造之前的系统运行模式下,每秒只能支持300-400个查询/秒的吞吐量,高流量的并发查询只能通过度库来实现。改造之后,可以实现高达上万个查询/秒的吞吐量,而且查询速度可以保障在20毫秒左右。

新的技术架构可以按需弹性动态扩展,并量增加时,还可以通过动态增加X86服务器来应对,保持毫秒级的响应时间。

gemfire: VMware大数据之道

12306能够取得这样排山倒海的效果,靠技术上的小修小补是不行能的,必须有全新的思绪,能够给性能提升带来杠杆式的作用。12306发现GemFire分布式内存数据平台就是这样一种技术。

GemFire分布式内存数据平台的技术原理如上图所示:通过云计算平台虚拟化技术,将若干X86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程自己不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据,任何一台机器故障,其它机器上另有备份数据,因此通常不用担忧数据丢失,而且有磁盘数据作为备份。GemFire支持把内存数据持久化到种种传统的关系数据库、Hadoop库和其它文件系统中。

gemfire: VMware大数据之道

大师知道,当前计算架构的瓶颈在存储,处置器的速度根据摩尔定律翻番增长,而磁盘存储的速度增长很缓慢,由此造成巨大高达10万倍的差距。这样就很好理解GemFire为什么能够大幅提高系统性能了。

根据计算与存储的关系,我们可以将计算架构分为四代:

第一代,基于磁盘的单一系统:计算过程中需要从磁盘读取数据。小型机、大型机是其中的佼佼者,将单一系统的性能做到极致。

第二代,基于磁盘的分布式集群系统:计算过程中需要从磁盘读取数据,但通过度布系统将数据疏散到差别的服务器磁盘上,提高整个系统的处置能力。现在许多大型互联网和电子商务公司接纳基于X86服务器的分布式集群系统,依赖海量的X86服务器部署解决高流量并发的问题。

第三代,基于内存的单一系统:将整个数据库放在内存中,计算过程不需要从磁盘读取数据。整个系统的性能取决于单一系统的性能。传统的内存数据库就是这样的系统,对于企业级的应用可以很好地解决访问速度的问题,但面临海量数据或是海量并发访问的扩展性问题就无能为力。

第四代,基于内存的分布式集群系统:GemFire就是这样的系统,并行计算是其关键技术之一,因而可以通过增加服务器部署规模,在内存计算的基础上,线性扩展性能

转载于:https://blog.51cto.com/tayjq/1651579

gemfire:VMware大数据之道相关推荐

  1. 《大数据的“道”“术”“释”》----读书摘录+思考

    大家不要忘记以道御术,只有明确什么是优秀的数据分析,才能使这些武器发挥出效力!                       -----题记 这本书是看到我老师(大数据营销课)的朋友圈推荐才买的,看了一 ...

  2. 长坡厚雪,联想大数据之道启示了什么?

    数据及数据能力对于一家企业意味着什么? 管理学大师拉姆·查兰认为:数智化时代,企业要想持续发展,必须能够察觉内外部的变化,建立内部流动性以不断适应变化:必须关注每一个客户,依赖团队来打造动态核心竞争力 ...

  3. 大数据虚拟化零起点-4基础运维第三步-部署vCenter Server Virtual Appliance 5.1

    在大数据虚拟化零起点基础运维第二步中,我们完成了vSphere5.1的安装.接下来,我们可以开始第三步--部署vCenterServer Virtual Appliance 5.1. 在开始部署之前, ...

  4. 大数据虚拟化零起点-5基础运维第四步-部署vSphere Big Data Extensions 1.0 vApp

    VMware vSphere Big Data Extensions(简称BDE)beta版本于2013年6月正式发布,同年9月22日作为vSphere 5.5的新功能正式上市.作为VMware推出的 ...

  5. 大数据基础知识(上)

    大数据基础知识:技巧与概念 什么是大数据 数量多 流转快 种类多 大数据需要具备全部三个特征吗? 如何使用大数据 了解消费者大数据 了解企业大数据 了解科学研究大数据 大数据与数据科学 大数据与小数据 ...

  6. 大数据在金融领域的应用案例解析

    大数据在金融领域的应用:融资租赁业与大数据的深度结合 融资租赁作为发展实体经济的助推器,在经济新常态下机遇和挑战并存.融资租赁企业需要紧紧把握"服务实体经济本源"这一政策红利,充分 ...

  7. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  8. 金融大数据与商业价值创新

    经过20多年的发展,中国金融业到了一个新的发展阶段,在取得成绩的同时,也将面临更加错综复杂的风险和挑战,全球经济一体化在逐步推进,全球经济在缓慢的复苏中,新的金融监管也进入付诸实施阶段,国内金融脱媒和 ...

  9. 大数据面试题及答案 100道 (2021最新版)

    大数据面试题及答案[最新版]大数据高级面试题大全(2021版),发现网上很多大数据面试题都没有答案,所以花了很长时间搜集,本套大数据面试题大全 最近由于要准备面试就开始提早看些面试.笔试题.以下是自己 ...

最新文章

  1. python压缩和解压缩
  2. 一个类型思考了 8 年,依旧是最好的! | 每日趣闻
  3. MySQL数据库安装Version5.7
  4. Gridview导出到EXCEL
  5. android system读写权限设置,当然需要root访问权限才能写入Android的system目录
  6. WordPress ProfilePress插件多个严重漏洞
  7. Magento 2.0 Alipay Cross-Border Mobile Payment Extension - Magento 2.0 支付宝跨境支付手机版...
  8. 用U盘安装一个Linux系统
  9. PAT 1045 快速排序(25)(STL-set+思路+测试点分析)
  10. SharePoint Designer 2010中的外部内容类型-SQL Server
  11. CentOS 6.6 HAProxy安装配置指南
  12. 使用F021_API_F2837xD_FPU32.lib 库函数遇到的问题 warning #10068-D: no matching section
  13. Android Studio 华为手机真机调试
  14. 从数据库导出数据到EXCEL换行的问题解决方法(即数据库字段太长自动换行)
  15. 在自建机房给网站做ICP备案
  16. 陈艾盐:春燕百集访谈节目第二十一集
  17. Nacos服务注册流程(一)
  18. Java 如何控制项目进度?
  19. Conflux v2.2.0 网络 Hardfork 升级公告
  20. 嵌入式系统设计 (考试题+答案)

热门文章

  1. elasticsearch基础1——索引、文档
  2. oracle的表的数据管理2 -- 基本查询
  3. 计算机图形学习—— 直线段的扫描转换算法
  4. 信息学奥赛一本通(C++版)第一部分 C++语言 第五章 数组
  5. Corel Knockout 2.0使用教程
  6. 微信小程序 请求函数 同步封装方法
  7. Streambox Ripper的问题
  8. c# windows服务程序
  9. set IDENTITY_INSERT on 和 off 的设置
  10. 清橙 A1210. 光棱坦克