| 作者:行人

| 编辑:邵佳怡

| 设计:王福政

引言:听到 What'S Next | 科技早知道 播客《S6E06|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义》,颇受启发,本文作为一个笔记其中一些内容以及个人的一些思考,对文中内容感兴趣的朋友建议听一下这期节目。

导读:

1、DataBricks早期的3个决定

2、开源软件如何与AWS竞争?

3、数据的未来:湖仓一体

1、DataBricks早期的三个决定

DataBricks是UC Berkeley 人工智能实验室的博士生及教授 于2013年成立的大数据公司,公司雏形诞生于 Apache Spark,通过开源 SaaS 模式服务企业客户,最早提出湖仓一体,并且是唯一提供湖仓一体的云服务公司,提供了一个开放和统一的平台支持大数据和人工智能,同时满足数据仓库和数据湖的应用场景。2021 年 8 月完成 16 亿美元的 H 轮融资,估值 380 亿美元。现在回头看,在公司成立的早期,团队做出的三个决定影响深远。

1# 云服务

团队坚信云计算是未来的方向,其联合创始人Ion Stoica 和 Matei Zaharia 是《A Berkeley View of Cloud Computing》的作者,这篇论文在云计算发展中影响深远,被引用上万次。在公司早期的阶段,不是所有人都深刻理解坚持云服务的理念,每年仍然会被新加入的员工挑战,融资时也会被投资人挑战,同时也不被客户接受。所幸内部坚持云服务,投资人有耐心,客户在2018年后也开始大规模上云。

2# 不做技术支持服务

技术支持服务依赖人员扩张以支持更多客户,不具备大规模扩张的能力,而且利润率也较低,商业模式不如云服务。2015年时,Spark在客户中已经很有名气,很多客户找到团队希望能提供咨询和支持服务,有客户愿意出1000万美元,但会分散团队的注意力,不利于长期发展,我们还是放弃了这块业务;2018年,很多客户已经看到云服务的未来,表示未来会迁移上云,但不确定什么时候会迁移;而到2019年,很多客户已经行动起来,开始迁移上云,云服务已经成为业界的共识。

3# 数据科学(Data Sicence)

参加Netflix的人工智能竞赛时,发现大规模数据集无法在一台服务器上完成模型训练,因此做了Spark项目;公司以Spark为基础,选择数据科学作为业务方向,为数据工程师提供工具,而没有选择竞争更激烈的数据仓库赛道。数据科学作为细分市场是由Facebook、Netflix等公司提出,当时大多数公司还没有相应的职位,没有激烈的竞争,Spark很快被企业接受;而数据仓库则面临老牌的Teradata公司,以及AWS的RedShift的竞争。

虽然DataBricks看好云服务的未来,但也不清楚这个“未来”多久能到来,2年、5年、还是10年,不得不说这个也有运气成分;而另外一家公司成立于2008年的Cloudera就没有那么幸运,从名字就可以看出公司也坚信云服务是未来,但其大多数营收都是来自支持服务,2008-2018长达10年的运营中公司首先要解决活下来的问题,支持服务虽然不能大富大贵,也让公司活到了云服务的黎明,最后被KKR和CD&R 以53亿美元私有化。

2、开源软件如何与AWS竞争?

到2015年Spark在业界就非常有名,很多公司已经在内部落地Spark项目,由于完全基于开源项目运营,公司并没有赚到钱,在DataBricks还在通过开会卖T恤为生时,AWS的EMR大数据平台托管的Spark服务每年应能够获得几个亿美元的营收,开源软件该如何应对AWS的竞争呢?

1# 低成本

客户并不会因为你的原厂服务就选择你,如果服务一样,有什么理由不选择更便宜的AWS服务呢?我们发现多客户在项目开放初期会使用我们的服务,与社区紧密互动获得支持,但当大规模部署时仍然会选择便宜得多的AWS 托管服务。由于AWS很少贡献核心代码,其大多数情况下仅仅是为开源项目提供一个控制台,开发成本很低,因此其服务的价格要便宜得多。

2# 人才密度

由于AWS并不需要对开源项目深入研发,很难招聘到业界最优秀的工程师,可能也不需要非常优秀的工程师,这样导致其在单个项目上人力和资金的投入往往是不如创业公司的。在跟进核心问题改造方面会遇到较大的障碍,这就给商业开源公司提供了打造差异化壁垒的机会。

3# 差异化竞争

我们开始重点考虑商业平台的差异化服务,基于开源的API接口,提供差异化的商业服务,如性能、扩展性、安全等。差异化并不是意味着提供一些非开源功能,必须在用户的核心路径上解决用户的问题,如果差异化的功能不是关键问题,用户可能不需要;如果差异化的功能很简单,AWS很可能会复制;这样都达不到差异化的作用。DataBricks凭借其对Spark及数据科学领域的深刻洞察,为商业化平台提供了强大的差异化能力,这也得益于其早期对开源项目的完全依赖。

4# 销售策略

采取自下而上和自上而下相结合的销售策略。在运营开源项目时,我们没有销售团队,完全通过开发人员社区传播,当我们意识到数据科学家在每个公司都属于少数群体,不可能扩张到很多人时,开始组建销售团队直接与CXO对接,解决其面临的痛点,目前已经相当规模的销售团队专门服务大客户。

5# 多云策略

AWS云服务商只能提供自身云平台的托管服务,而DataBricks则可以同时在多个云服务商中提供服务,目前已经支持主要的三个云服务商AWS、Azure、GCP等;而且与Azure的合作提供Azure DataBricks产品,让Azure云平台从不具备大数据处理能力一跃成为领先的大数据处理平台,对云提供商其他服务的销售也有明显的带动,实现双赢。

DataBricks通打造差异化竞争优势与AWS进行竞争,虽然我们主要产品都是基于开源软件,但我们80%的精力都投入在商业服务上,DataBricks云平台每天运行的虚拟机数量超过1200万台,大规模、可扩展、高可靠的数据平台已经成为我们的竞争壁垒。

此外,MongoDB则选择在2018年修改开源许可证,禁止云服务商托管开源服务,虽然AWS立即启动了DocumentDB以兼容MongoDB,但随着MongoDB的产品持续迭代,已经更新到5.0版本,而DocumentDB则只能停留在兼容的3.6和4.0版本,长期来看客户仍然会站在MongoDB,截止2021年底全球客户数已达33000个。2021年初,Elastic也选择修改开源许可证协议,禁止云服务商托管开源服务,相信经过2-3年的产品迭代及创新,也将达到现在MongoDB现在的阶段。

AWS最大的问题是资源太多,需要关注的产品更多,平均下来每个产品的资源就显得非常有限,但对于大公司下决心要搞好的战略级产品,创业公司要其正面竞争几乎没有机会。

目前,云提供商通过其Marketplace为独立SaaS服务商提供了销售市场,这对双方来说是双赢的结果,2021年Marketplace的市场规模大概40亿美元,Tackle.io预测2025年市场规模将达到500亿美元。

也难怪MongoDB的CEO说,“我们与AWS的关系从没有像现在这么牢固”。

3、数据的未来:湖仓一体

DataBricks从数据处理切入,2018年发现数据处理80%的问题发生在存储领域,而这些是由云厂商提供的,因此他们决定开启Delta Layer项目,为数据湖提供统一的存储层解决方案。

现在常见的数据解决方案是数据湖存储所有数据,再将商业化相关的数据抽取到数据仓库供商业分析师使用,通过权限管理限制不同团队的数据访问权限。

这种多层架构的关键问题是数据的分裂,不同决策人员可能看到不同的数据版本,这种不一致性可能导致得出不同的决策,从而影响到数据的权威性。

早在2019年DataBricks就提出LakeHouse的概念,即湖仓一体,使用统一数据平台解决BI + AI的问题,目前DataBricks 比较擅长AI 并积极补齐BI的短板,而Snowflake 擅长BI 正补齐AI的能力,从这个角度看,未来DataBricks 和 Snowflake 可能是主要竞争对手。

此外,不少数据公司押注SQL,对他们来说“SQL is everything”,而DataBricks认为“SQL is not everything”,虽然SQL受众广泛,几乎没有用户教育成本,但SQL本身不是为技术人员设计的,在解决复杂数据问题时容易遇到瓶颈,Python等高级语言对技术人员更友好。有些团队为开发者提供高级语言,然后底层执行时再翻译成SQL,这种方案遇到问题就很难定位。

本文是商业化系列文章,对相关话题感兴趣的同学可以关注后续更新。

相关阅读 | Related Reading

“源”来是你-Vol.37 | 知名开源企业StreamNative 招募开源社区运营和开源布道师!

Open the World:第七届中国开源年会(COSCon'22)正式启动~

企业实践开源的动机

开源社简介

开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、开源项目” 为使命的开源社区联合体。开源社积极与支持开源的社区、企业以及政府相关单位紧密合作,以 “立足中国、贡献全球” 为愿景,旨在共创健康可持续发展的开源生态,推动中国开源社区成为全球开源体系的积极参与及贡献者。

2017 年,开源社转型为完全由个人成员组成,参照 ASF 等国际顶级开源基金会的治理模式运作。近八年来,链接了数万名开源人,集聚了上千名社区成员及志愿者、海内外数百位讲师,合作了近百家赞助、媒体、社区伙伴。

DataBricks从开源到商业化踩过的坑相关推荐

  1. 配置目标跟踪开源项目traj_gen_vis踩过的坑

    项目地址 https://github.com/icsl-Jeon/traj_gen_vis 安装依赖需注意的问题 traj_gen (with qpoases) 需安装ros分支的代码(这个作者并没 ...

  2. 搜索软件Elastic上市:市值近50亿美元 是开源项目商业化范本

    雷帝网 雷建平 10月6日报道 美国数据搜索软件初创公司Elasticsearch周五在纽交所上市,发行价为36美元.Elastic上市首日最高股价为74.2美元,最高涨幅达到106%. Elasti ...

  3. gitee开源程序kkFileView踩坑及解决方案

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.依赖选择 二.环境部署安装 2.1解压 2.2启动程序 2.3踩坑--------office.home配置有误 ...

  4. 开发路上踩过的坑要一个个填起来————持续更新······(7月30日)

    欢迎转载,请注明出处! https://gii16.github.io/learnmore/2016/07/29/problem.html 踩过的坑及解决方案记录在此篇博文中! 个人理解,如有偏颇,欢 ...

  5. C/C++ 踩过的坑和防御式编程

    相信你或多或少地用过或者了解过 C/C++,尽管今天越来越少地人直接使用它,但今天软件世界大多数软件都构筑于它,包括编译器和操作系统.因此掌握一些 C/C++ 技能的重要性不言而喻. 这场 Chat ...

  6. ubuntu下vscode调试开发踩过的坑

    最近刚过安装了中文版的ubuntu18.04.1,安装完之后想在ubuntu上安装vscode做c/c++的开发调试,踩了不少坑,在此记录一下,希望大家在这条路上不要再踩同样的坑. 1.安装vscod ...

  7. 科大讯飞踩过的“坑”,还有多少AI企业要踩?

    立志不坚,终不济事.--朱熹  中国软件网每日精选文集 科大讯飞的裁员潮 一直从春节前蔓延到了春节后, 爆发裁员潮的原因 究竟是自身能力不足还是市场环境造就? 那些科大讯飞踩过的"坑&quo ...

  8. 记录自己首次在eclipse中配置tomcat并运行jsp踩过的坑

    记录自己首次在eclipse中运行jsp踩过的坑 我使用的版本 1.jdk下载 java环境配置 2.Tomcat 服务器的安装与配置 3.下载eclipse并配置tomcat 3.1第一次下载ecl ...

  9. 记录戴尔t640切换集/独显及安装驱动时踩过的坑

    记录戴尔t640切换集/独显及安装驱动时踩过的坑 写在前面 Nvidia驱动安装篇 服务器改配置篇 写在前面 先大体说一下机器:我用的是一台dell的t640塔式服务器,ubuntu16.04,用来做 ...

最新文章

  1. World Final 2012
  2. php 过滤危险字符,php过滤特殊危险字符的总结
  3. VMware 在ubuntu-18.04.2安装搜狗输入法
  4. WSS2.0 SP2升级到WSS3.0步骤
  5. Java web中不同浏览器间导出Excel文件名称乱码问题解决方案
  6. webpack跨域问题记录
  7. struts国际化java_Struts2 的国际化实现方式示例
  8. 如何修改一个类的私有成员?
  9. web前端设计与开发作品:旅游酒店网站设计——中国风的温泉酒店预订网站全套html模板(13页) HTML+CSS+JavaScript
  10. 【Fortran】CUDA+PGI Fortran安装教程
  11. fir.im分发平台 二维码合并
  12. VS2015 无法打开包括文件string.h等
  13. java通过Jsoup爬取下载抖音无水印视频(下载单个抖音视频)
  14. Java多线程 - 解析线程的5种/6种状态
  15. 使用Diskgenius将U盘分区,分为启动盘和文件存储两大功能详解
  16. H桥电机驱动电路用电荷泵电路
  17. linux开启wifi热点命令,deepin Linux 开启wifi热点
  18. C++ WA, 超时,爆栈错误总结
  19. Nginx搭建视频点播和视频直播服务器
  20. ios苹果开发者账号申请流程(公司类型)

热门文章

  1. 低蓝光认证:TUV莱茵与TUV南德 有啥区别?
  2. 收费变免费,是商业模式的颠覆式创新
  3. 了解和深入行业/APP分类
  4. php sec-websocket-accept,javascript – Websocket握手Sec-WebSocket-Accept标...
  5. 巧用SEO技术,速提自然流量
  6. 21. OP-TEE中TA与CA执行流程-------libteec介绍
  7. centos yum 安装jdk
  8. Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Understanding Rasa Deployments Premade Rasa Containers
  9. 尚不成熟的单个摄像头触屏方案
  10. 车联网安全知识点总结