Yahoo! 的数据仓库: 世界上最大最忙
微软对 Yahoo! 的收购持久战可能让很多人都新闻疲劳了。但今天看到的这个关于 Yahoo! 的技术新闻还是值得看一下的:Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest 。Yahoo! 的 VP Waqar Hasan 在文中披露 Yahoo!的数据仓库当前容量为 2PB。用于分析每月5亿的用户访问行为,每天处理 240 亿次的事件,号称世界上单个最大、最忙的数据库。
尽管有的数据仓库容量要比雅虎的大。但那些 DB 或是存储非关系性数据,或是存储的压缩后的原始数据,不能进行即时分析,雅虎之前的也有数百 T 这样的数据。眼下 Yahoo!数据仓库存储的是结构化、可分析的数据。预计下一年可能膨胀到数十 PB 。eBay 号称数据总量有 6PB , 不过根据一些消息来看,单个最大的 DB 只有 1.4 PB。
Yahoo! 在 2005 年买了一家叫 Mahat Technologies 的初创公司(就是 Waqar Hasan 操刀的),这家公司以 PostgreSQL 数据库为基础,开发了一个新型 DB,其特点是 基于列 的而不是 基于行 的模式。不难理解,这样数据写入的速度会慢下来,但是读取的速度会快很多【去年的侠客行上,雷鸣在演讲的时候讲过他在百度的时候做的一个优化的例子。和这个思想非常相似,所以当时我说对我"有启发"】。Yahoo! 买了之后,对该产品进行了持续性的改进(内部代号: ELCARO ?) ,比如压缩,并行处理能力加强、优化查询等等特性的添加改进。而针对使用者的接口仍是 PostgreSQL 。这应该也算 PostgreSQL 在顶级企业又一个成功案例。
这么大的数据库并没有采用传统的 SMP 架构构建,而是采用普通 PC 作集群(用了不到 1000 台) 。很明显这是 Share Nothing 而不是 Share Storage 的 DB 集群。通过上述独特的设计方式,能够对此海量数据进行有效的分析,这是个不小的技术革新,也是与 Google Map Reduce 完全不同的计算模式。
让人感慨的是 关于世界上的超大数据库 一文中罗列的数据,现在看起来已经并不惊人了。以前总说信息爆炸,这个时代刚刚来临。
Yahoo! 的数据仓库: 世界上最大最忙相关推荐
- Yahoo数据仓库架构简介
1. Yahoo数据仓库的整体架构 Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程:Oracle集群只是一个查询环境 ...
- linux相关的东东,来自dbanotes
原贴:http://www.dbanotes.net/MT/mt-search.cgi Search this site Matching entries matching "linux&q ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 "昔我十年前,与君始相识." 一瞬间Hadoop也到了要 ...
- 1.Hadoop简介——为什么要使用Hadoop?什么是Hadoop?Hadoop有什么作用?
1. 1TB大文件操作的思考(理解) 文件大小单位:B,KB,MB,GB,TB,PB,EB,ZB,YB- 1B=1Byte=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB 1 ...
- 大数据概念和Hadoop基本介绍
开始学习大数据,一步一个脚印,好好坚持下去! 大数据概述 1.大数据特征 第一个,volume(量),大数据第一个基础是它的数据量要大: 第二个,velocity(速度),大数据一个很重要的它必须是实 ...
- 深度好文丨读完此文,就知道Hadoop了!
"昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统 ...
- 大数据各组件理论性总结---spark和hadoop(将持续更新)
Hadoop和spark的起源 Hadoop起源 1998年9月4日,Google公司在美国硅谷成立.正如大家所知,它是一家做搜索引擎起家的公司 无独有偶,一位名叫Doug Cutting的美国工程师 ...
- 关于hadoop的前世与今生
"昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统 ...
- 十年了,Hadoop的前世今生
"昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的I ...
最新文章
- Codeforces Gym 100342J Problem J. Triatrip 求三元环的数量 bitset
- 眼下最流行的五大CSS框架_你都知道么?
- 数据库存在即更新的高并发处理 - 转
- nHibernate Mapping By Code - Introduction
- ZZULIOJ 1114: 逆序
- LNG:首个基于图的对抗样本检测方法
- 7-2 组织星期信息 (10 分)
- 集合框架和泛型练习题(含代码)
- 超级计算机卫星云图,台风路径实时发布系统20号台风云图 台风艾莎尼高清卫星云图实时追踪...
- office :word ppt excel 取消加载 有道翻译,有道云笔记插件
- java 微信公众号消息推送 微信发送消息
- 2022年信息系统监理师考试大纲
- JDK1.8帮助文档 chm格式中英文
- 解读机械图样——局部视图
- 给定一个成绩a,使用switch结构求出a的等级。A:90-100,B:80-89,C:70-79,D:60-69,E:0~59
- D3.js v5.0 旭日图
- SUA--Win7的有趣功能
- 华为音频编辑服务,实时分离人声、伴奏和乐器声
- Python 练习实例100例—4
- 服务器桌面图标显示在哪里打开,电脑桌面图标消失了怎么解决_网站服务器运行维护,电脑,图标...
热门文章
- [云炬创业基础笔记]第十章企业的利润计划测试2
- 【阿佳说】打造抖音个人IP实现利润翻倍
- python最基本的规则是什么_Python基础介绍(一)
- 3DSlicer27:OpenIGTLinkIF
- Visual Studio集成Qt环境搭建_详解与测试
- Delphi三层开发小技巧:TClientDataSet的Delta妙用
- asp.net session 介绍一三种Session存储方式
- go语言中fallthrough与break的使用
- CString::Format
- RPC和Restful深入理解