微软对 Yahoo! 的收购持久战可能让很多人都新闻疲劳了。但今天看到的这个关于 Yahoo! 的技术新闻还是值得看一下的:Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest 。Yahoo! 的 VP Waqar Hasan 在文中披露 Yahoo!的数据仓库当前容量为 2PB。用于分析每月5亿的用户访问行为,每天处理 240 亿次的事件,号称世界上单个最大、最忙的数据库。

尽管有的数据仓库容量要比雅虎的大。但那些 DB 或是存储非关系性数据,或是存储的压缩后的原始数据,不能进行即时分析,雅虎之前的也有数百 T 这样的数据。眼下 Yahoo!数据仓库存储的是结构化、可分析的数据。预计下一年可能膨胀到数十 PB 。eBay 号称数据总量有 6PB , 不过根据一些消息来看,单个最大的 DB 只有 1.4 PB。

Yahoo! 在 2005 年买了一家叫 Mahat Technologies 的初创公司(就是 Waqar Hasan 操刀的),这家公司以 PostgreSQL 数据库为基础,开发了一个新型 DB,其特点是 基于列 的而不是 基于行 的模式。不难理解,这样数据写入的速度会慢下来,但是读取的速度会快很多【去年的侠客行上,雷鸣在演讲的时候讲过他在百度的时候做的一个优化的例子。和这个思想非常相似,所以当时我说对我"有启发"】。Yahoo! 买了之后,对该产品进行了持续性的改进(内部代号: ELCARO ?) ,比如压缩,并行处理能力加强、优化查询等等特性的添加改进。而针对使用者的接口仍是 PostgreSQL 。这应该也算 PostgreSQL 在顶级企业又一个成功案例。

这么大的数据库并没有采用传统的 SMP 架构构建,而是采用普通 PC 作集群(用了不到 1000 台) 。很明显这是 Share Nothing 而不是 Share Storage 的 DB 集群。通过上述独特的设计方式,能够对此海量数据进行有效的分析,这是个不小的技术革新,也是与 Google Map Reduce 完全不同的计算模式。

让人感慨的是 关于世界上的超大数据库 一文中罗列的数据,现在看起来已经并不惊人了。以前总说信息爆炸,这个时代刚刚来临。

Yahoo! 的数据仓库: 世界上最大最忙相关推荐

  1. Yahoo数据仓库架构简介

    1. Yahoo数据仓库的整体架构 Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程:Oracle集群只是一个查询环境 ...

  2. linux相关的东东,来自dbanotes

    原贴:http://www.dbanotes.net/MT/mt-search.cgi Search this site Matching entries matching "linux&q ...

  3. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 "昔我十年前,与君始相识." 一瞬间Hadoop也到了要 ...

  4. 1.Hadoop简介——为什么要使用Hadoop?什么是Hadoop?Hadoop有什么作用?

    1. 1TB大文件操作的思考(理解) 文件大小单位:B,KB,MB,GB,TB,PB,EB,ZB,YB- 1B=1Byte=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB 1 ...

  5. 大数据概念和Hadoop基本介绍

    开始学习大数据,一步一个脚印,好好坚持下去! 大数据概述 1.大数据特征 第一个,volume(量),大数据第一个基础是它的数据量要大: 第二个,velocity(速度),大数据一个很重要的它必须是实 ...

  6. 深度好文丨读完此文,就知道Hadoop了!

    "昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统 ...

  7. 大数据各组件理论性总结---spark和hadoop(将持续更新)

    Hadoop和spark的起源 Hadoop起源 1998年9月4日,Google公司在美国硅谷成立.正如大家所知,它是一家做搜索引擎起家的公司 无独有偶,一位名叫Doug Cutting的美国工程师 ...

  8. 关于hadoop的前世与今生

    "昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统 ...

  9. 十年了,Hadoop的前世今生

     "昔我十年前,与君始相识." 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的I ...

最新文章

  1. Codeforces Gym 100342J Problem J. Triatrip 求三元环的数量 bitset
  2. 眼下最流行的五大CSS框架_你都知道么?
  3. 数据库存在即更新的高并发处理 - 转
  4. nHibernate Mapping By Code - Introduction
  5. ZZULIOJ 1114: 逆序
  6. LNG:首个基于图的对抗样本检测方法
  7. 7-2 组织星期信息 (10 分)
  8. 集合框架和泛型练习题(含代码)
  9. 超级计算机卫星云图,台风路径实时发布系统20号台风云图 台风艾莎尼高清卫星云图实时追踪...
  10. office :word ppt excel 取消加载 有道翻译,有道云笔记插件
  11. java 微信公众号消息推送 微信发送消息
  12. 2022年信息系统监理师考试大纲
  13. JDK1.8帮助文档 chm格式中英文
  14. 解读机械图样——局部视图
  15. 给定一个成绩a,使用switch结构求出a的等级。A:90-100,B:80-89,C:70-79,D:60-69,E:0~59
  16. D3.js v5.0 旭日图
  17. SUA--Win7的有趣功能
  18. 华为音频编辑服务,实时分离人声、伴奏和乐器声
  19. Python 练习实例100例—4
  20. 服务器桌面图标显示在哪里打开,电脑桌面图标消失了怎么解决_网站服务器运行维护,电脑,图标...

热门文章

  1. [云炬创业基础笔记]第十章企业的利润计划测试2
  2. 【阿佳说】打造抖音个人IP实现利润翻倍
  3. python最基本的规则是什么_Python基础介绍(一)
  4. 3DSlicer27:OpenIGTLinkIF
  5. Visual Studio集成Qt环境搭建_详解与测试
  6. Delphi三层开发小技巧:TClientDataSet的Delta妙用
  7. asp.net session 介绍一三种Session存储方式
  8. go语言中fallthrough与break的使用
  9. CString::Format
  10. RPC和Restful深入理解