《系统日报》持续关注分布式系统、AI System,数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。

如果你有好文章推荐,或者有其他任何想法,欢迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

来源:https://guiguzaozhidao.fireside.fm/s6e06

摘要:早高峰的地铁上在朋友圈看到播客“What’s Next | 科技早知道[2]” 客座主播 Howie 对 Databricks 华人联合创始人辛湜(Reynold Xin[3])的采访,到公司了仍然没有听完,但收获良多,感兴趣的同学可以听一下。

Spark 作为一个成功的开源项目,在很多公司都早有落地;但是其背后的商业公司 Databricks,在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后,Databricks 作为对标更加炙手可热。为什么一个做开源基础软件的商业公司能够如此成功?他们做对了什么,又对中国当下类似定位的公司有什么启发?主播人虽然普通话口音有点奇怪,但是问的问题都非常有深度和引导性,让本次播客呈现了一场高质量的对话探讨。

下面凭记忆摘录一些:

Databricks 成立契机?

UC Berkeley 实验室同学参加 Netflix Challenge,为了实现多机处理数据造了一个数据处理框架。虽然由于晚交了 20min 没有拿到 100w 大奖,但是却孵化出了 Spark。辛湜是 2010 年到的 Berkeley 开始参与这个项目。

Databricks 如此成功是因为做对了什么?

从开始就坚持三个原则:All in Cloud、不做数据仓库、不做定制化和 Support。

All in Cloud 和不做定制化和 Support:使得基础软件能够规模化,最大化公司人员的单位产出。感觉有点像用 ToC 的方式去做 ToB 的产品,但也唯有如此,才能发挥软件架构价值,撑起想象力。

不做数据仓库:有其他一些大厂、云厂商本身也有平台优势,避开太卷的赛道。

为什么在公司诞生之初就能 ALL in Cloud?

是因为投资人吗?并不,大部分还是因为创始团队的 Berkeley 背景,有很强的 foresee 视野,对云时代的到来很坚定,还在 09 年发表过专门论文:Above the Clouds: A Berkeley View of Cloud Computing[4],有上万篇引用,并且火到出圈。

在发展过程中对上述信条有没有过怀疑?

有过,还算比较幸运,因为都知道云是未来,但不知道这个未来是多久后来。比如 Cloudera 在 08-09 年成立时,从名字就可以看出想开启云时代,但生不逢时,后来还是改变了策略。

也有过很多其他道路的诱惑,比如有个 1000w 美元的大单子,只要求提供 support 。而刚开始时,Databricks 产品的营收甚至不如做 Spark 峰会的卖票钱。

刚开始,新入职的员工和融资时,All in Cloud 都会受到挑战,但是到 2018~2019 年左右就开始形成了共识,没人挑战了。

相对云厂商自身产品有什么优势?

云厂商有很多业务分散精力,小公司能够更专注,对 Spark 技术积累更多、所面临的场景理解更深。

Databricks 有没有业务暴增的转折点?

没有严格意义上的大客户的转折点,但有和 Azure 的合作值得一说。

15 年的时候 Amazon host Spark 已经有几个亿的营收了。Databricks 在 17 年和 Azure 的合作,做了叫做 Azure Databricks 的一款产品,大卖,成为了 Azure 的标杆服务。Azure 与 Databricks 互相成就,共同做大。

为什么决定做湖仓一体?

计算自然延伸到存储,开始做数据湖(面向数据科学家、深度学习场景)。为了消除用户组织内部的数据壁垒,自然想能不能打通数据湖和数据仓库(面向 BI )?于是提出湖仓一体(Lakehouse)。

此外,辛湜还分享了通过“引荐”的招人制度,以及创业公司中一些问题。播客是个好媒介,可以利用碎片时间,一边听一边思考。

参考资料

[1] 任何想法都欢迎来提 issue: https://github.com/DistSysCorp/ArticleListWeekly/issues

[2] What’s Next | 科技早知道: https://guiguzaozhidao.fireside.fm/

[3] Reynold Xin 领英: https://www.linkedin.com/in/rxin/

[4] Above the Clouds: A Berkeley View of Cloud Computing: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf

往期文章:

CockroachDB 和 TiDB 中 SQL 的分布式执行

DDIA 读书分享 第三章(上):LSM-Tree 和 B-Tree

聊聊选择 offer 的几个维度

系统日报-20220421(Databricks 缘何成功?)相关推荐

  1. 大厂转身,小米数字化采购缘何成功?| 爱分析调研

    调研 | 张扬  谭莹 撰写 | 谭莹 时间的齿轮从未停止,转眼间,互联网时代也已缓缓迈入下半程,宏观环境剧变.流量红利消失-曾经的"赋能者"本身也正在面临越来越残酷的行业竞争,内 ...

  2. Jira项目导入,被导入项目与目的系统数据类型不一致导入不成功的解决方案

    Jira项目导入流程:(成功导入的前提:项目键值必须一致.项目用户账号必须一致.导入项目使用的工作流及自定义字段的属性.内容必须与系统中一致) 导出备份文件,包括数据和附件,数据地址:C:\Progr ...

  3. 普通用户可以申请华为鸿蒙系统吗,鸿蒙OS系统普通用户有申请成功的吗?

    [分享交流] 鸿蒙OS系统普通用户有申请成功的吗? 211016 电梯直达 听风看月 天下无双 发表于 2020-12-17 07:28:05 来自:HUAWEI Mate 30 Pro 5G 最新回 ...

  4. 外媒如何看鸿蒙系统实测,鸿蒙系统是否真的很难成功,为何外媒总是在不断的“贬低”它?...

    说起来自谷歌的安卓系统,以及来自苹果的iOS系统,相信大家并不陌生.然而与其说并不陌生,倒不如说对它俩再熟悉不过了.自打智能手机问世以来,它俩在业界就一直充当着很重要的角.除了iOS系统只适用于苹果产 ...

  5. 计算机打印机共享失败,两台win7系统共享打印机提示不成功的解决方法

    打印机是办公室人员经常会用到的打印机设备,而通常为了方便多台电脑共同使用同一台打印机,都会将打印机设置共享,但是在共享打印机的时候可能会碰到一些错误,比如有用户反映说两台win7系统电脑在共享打印机的 ...

  6. win10系统上装win11系统解决方案,亲测成功

    win10系统上装win11系统解决方案,亲测成功 1.需求背景 最近想体验下win11系统了,所以要在win10系统上装win11系统. 解决方案 首先要准备好一个win11的系统启动U盘文件,然后 ...

  7. JSP 登陆系统 登陆界面/处理界面/成功界面/失败界面/注销界面(无数据库版) 包含源文件分享

    陆系统设计 1.程序要求: 完成用户登陆功能. 用户名及密码保存在程序之中完成验证,通过则表示用户为合法用户,跳转到登陆成功页,否则表示用户名或密码不正确,跳转到登陆失败页. 2.输出页面: 2.1. ...

  8. linux 迁移 系统教程,记一次成功的 linux 系统迁移

    需求 手头多余了一块闲置的 SSD,可以把用了4年的笔记本的机械硬盘替换升级.笔记本装的是 Linux 系统,选择手动迁移分区. 成功之路 原始磁盘是 MBR 的 UEFI 引导,根目录是 ext4 ...

  9. oppo手机鸿蒙系统怎么安装,鸿蒙要成功很简单:小米、OPPO、vivo都用上鸿蒙就行...

    原标题:鸿蒙要成功很简单:小米.OPPO.vivo都用上鸿蒙就行 华为在前两天召开了一年一度的开发者大会,这一次的大会上,华为将鸿蒙1.0升级到了2.0.同时华为方面也公布了最新关于鸿蒙的计划,华为消 ...

最新文章

  1. php简单文章,php编写简单的文章发布程序
  2. [CSAcademy]Virus on a Tree
  3. shell 基本使用
  4. 别再打字聊bug了,GitHub支持“视频留言”!手机也可以的那种
  5. 系列文章--jQuery教程
  6. 三种方法删除有序表中s和t直接的元素(包含s和t)
  7. 运营商市场经营方向及趋势
  8. LMSn没有运行在RT (real time) 模式Oracle 19c RAC?
  9. 标定小觅相机MYNT-EYE-S2110使用kalibr标定
  10. 微信手机开发 ios android 您没有APP支付权限
  11. win7下MyEclipse装Nutch1.7
  12. web项目上云_披荆斩棘向云端 — 职能业务上云踩坑实战
  13. python macd底背离_MACD的“底背离”狠不狠?回测告诉你结果
  14. 笔记:在本实验pix2pix比AAE差在哪
  15. 虚拟机安装systemc
  16. NYOJ-845无主之地1
  17. C语言程序设计(第三版)
  18. “超越巴菲特计划“之股市小知识常用的术语笔记
  19. 云计算对电子商务行业的影响
  20. Linux(Ubuntu14.04)虚拟机镜像的制作过程

热门文章

  1. deepin/ubuntu 网易云解锁 UnblockNeteaseMusic
  2. 兔子问题与斐波那契数列
  3. 美团云苏宁云倒下了,他们却顺利突围
  4. 对不同角色用户设置不同的系统首页
  5. Android studio离线安装教程
  6. 【Excel神技】之 快速填充
  7. win8 android 跑分,Windows 10和win8.1性能跑分测试结果曝光
  8. 论文笔记——Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
  9. 调制解调器 已删除 不可使用的设备
  10. 已有一个排好序的数组,由键盘输入一个数,要求按原来的排序规律将其插入到数组中.