Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。

在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。


体系结构 :

后端数据存储 :

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

AIRBNB的数据基础结构 :

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

数据管道结构图 :

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:


Pinterest商业数据分析结构图 :

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

信息流接收 :

存储 :

批处理计算 :

加速计算 :

总览 :


Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:


Keen IO 信息处理结构图 :

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

感谢团结一致的数据工程界,不断发明新的数据技术、开源,并分享他们的知识。如果没有这么多工程队伍的基础工作,没有与我们天天一起合作的人,我们的团队也不可能有今天。欢迎各方的意见和反馈。

特别感谢文章中提到的的作者和建筑师:Netflix的Steven Wu,Facebook Presto、AirbnbEng和Pinterest的工程师Martin Traverso,以及Crashlytics Answers的Ed Solovey。

文章来自:36Kr

文章链接:http://36kr.com/p/5073792.html

翻译来自:虫洞翻翻   译者ID:王炜   编辑:郝鹏程

看完本文有收获?请转发分享给更多人


欢迎关注“互联网架构师”,我们分享最有价值的互联网技术干货文章,助力您成为有思想的全栈架构师,我们只聊互联网、只聊架构,不聊其他!打造最有价值的架构师圈子和社区。

本公众号覆盖中国主要首席架构师、高级架构师、CTO、技术总监、技术负责人等人 群。分享最有价值的架构思想和内容。打造中国互联网圈最有价值的架构师圈子。

  • 长按下方的二维码可以快速关注我们

  • 如想加群讨论学习,请点击右下角的“加群学习”菜单入群

Facebook、亚马逊等巨头是如何建造自己的数据库的?相关推荐

  1. 经济学人:谷歌、亚马逊等巨头有数据技术优势,会接管麦肯锡、波士顿咨询手中业务

    人力资源的教育 其实人力资源(HR)部门这个名字起得很差.除了劳累过度的员工.笨重的技术和成堆的员工手册之外,这个部门没什么别的资源了. 受到各种干扰的招聘人员必须要对远超出岗位需求的申请人进行排序. ...

  2. 星巴克、苹果、谷歌、亚马逊等巨头,为何同时做这件事?

    综合整理|<中国企业家>记者 周夫荣 编辑|马吉英 摘要:除了星巴克之外,苹果.谷歌.亚马逊等高科技公司也早已在可持续能源领域悄然布局.除了经济原因和社会责任,这些公司或许有更深远的考量. ...

  3. 风景这边独好的AI大年,百度亚马逊等巨头第一季度成绩单怎么样?

    苹果春季新品发布会邀请函 来源:遇见人工智能 该来的还是来了,但是那又如何? 这句话是送给苹果的.本以为这个季度不会再有新品发布的苹果,却用一张主打"同学们,来次课外活动吧"的神奇 ...

  4. 亚马逊成人用品巨头日本Aivrobta品牌要在今年进军中国市场了

    大家好,我是爱自嗨大浪哥.今天我讲一下日本Aivrobta飞机-杯品牌.我第一次接触Aivrobta是在大连上大一的时候,2008年底左右. 怎么接触到?大家都知道大连的日本风非常浓郁,特别是ACG文 ...

  5. 第五十二期:甲骨文遭遇“中年危机”:继阿里后,再被亚马逊永久抛弃

    42岁的甲骨文迎来"中年危机".10月15日,亚马逊AWS技术布道者Jeff Barr在AWS官网宣布亚马逊消费者业务永久弃用甲骨文(Oracle)数据库. 作者:温暖来源:镁客网 ...

  6. 亚马逊不仅将弃用 Oracle,还要抢 Java 饭碗!

    冤家易结不易解,电商巨头亚马逊势要和软件大亨 Oracle 一扛到底了. 上个月,我们无意中发现,在 Oracle 最新发布的 Java 11 中,用户使用协议发生了变化,新版 Oracle JDK ...

  7. 傲娇亚马逊AWS与特色中国的四年大博弈

    经过四年的艰辛历程,2016年9月7日,亚马逊旗下云计算服务平台(Amazon Web Services,下称AWS)宣布正式在中国商用.这家最早向世界提供云计算服务的公司,将它的全球第十个数据中心选 ...

  8. 惹事之后,亚马逊AI助手Alexa将增新功能,真的能比自己更懂你?

    作者|震霆            出品|遇见人工智能        公众号|GOwithAI 亚马逊的语音助手Alexa总是给用户带来"惊喜". 比如前段时间突然发出怪笑,把用户吓 ...

  9. 复盘亚马逊从优秀到卓越的24年

    来源:方证证券 4月18日,据报道,亚马逊公司计划在今年7月中旬关闭其在中国的本土电商业务,将业务重点转移至更有盈利空间的海外购和云服务上. 对此,亚马逊方面4月18日回应澎湃新闻记者称," ...

  10. 解析亚马逊退出中国市场后,沉默下注印度市场的品牌策略

    • 引言 • 一代电商"枭雄"亚马逊是否能够吸取其在中国市场的惨痛教训,重新制定本土化市场战略,选择重兵押注"宝藏之地"印度市场的亚马逊是否还会重蹈中国市场的覆 ...

最新文章

  1. J2EE基础之JSP
  2. scala入门基础2
  3. Rabbitmq后台运行命令
  4. python3 赋值与内存空间
  5. 抽象工厂模式(JAVA反射)
  6. 条码软件调用ERP系统
  7. java数据库编程——元数据(metadata)+web 与企业应用中的连接管理
  8. 关于在vue中结合数组方法的this的指向问题
  9. Java语言中的常用包、访问控制
  10. vue 中获取select 的option的value 直接click?
  11. LINUX查找所有文件,按照时间排序
  12. 小甲鱼python官网-小甲鱼零基础入门学习Python
  13. php cas 票据认证失败,解决CAS客户端验证ST票据时发生的TicketValidationException问题...
  14. 更改 Normal 模板 (Normal.dotm)
  15. Sobel 边缘检测 matlab代码实现
  16. 【信号处理】语音时域频域频谱图分析含Matlab源码
  17. 带有风的诗词_2017含有风的诗句大全
  18. AI量化交易=交易接口+L2行情数据接口+A股策略
  19. RS码在AWGN信道和2PSK调制下的误码率曲线图(修改自lin_yulin,亲测可用)
  20. matlab 相机焦距,世界坐标、相机坐标、图像坐标、像素坐标的原理、关系,并用matlab仿真...

热门文章

  1. 阿里云高性能时序数据库 TSDB 启动公测,为物联网而生的数据库!
  2. 今年的移动Pwn2own破解大赛:iPhone+安卓=50万美元
  3. 关于NavigationView中不能直接findviewById的解决办法
  4. LeetCode - Two Sum
  5. 【canvas】blackboard 黑板
  6. 第六章 培养感恩的习惯
  7. 关于自定义任务(Tasks)的心得(转载)
  8. 雅虎宣布支持谷歌OpenSocial标准
  9. Acrobat Pro DC 教程,如何删除PDF中的隐私信息?
  10. 苹果Mac知识大纲管理神器:OmniOutLiner