【导读】12 月 5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑协办的中国大数据技术大会(BDTC 2019)在北京长城饭店隆重举行。100+ 顶尖技术专家、1000+ 大数据从业者齐聚于此,以“大数据驱动智能+”为主题,聚焦智能时代大数据技术的发展曲线,围绕大数据与社会各行业相结合的最新实践,进行了深度解读和讨论。

马如悦,当前为百度杰出架构师,主要负责百度内外部大数据处理相关产品的规划和研发,其领导研发的Doris分析数据库在2018年成为Apache开源孵化项目。在领导分析数据库方向之前一直是百度分布式计算方向的技术负责人,也是百度Hadoop团队的创始人。

Doris是Apache的孵化项目,作为MPP架构的关系型分析数据库,其性能表现卓越。此外Doris高度兼容MySQL协议,支持在线表结构变更且不依赖任何外部存储;扩展能力强,单集群可水平扩展至200台以上;多副本数据、元数据高可用,同时支持 Kafka流式导入,未来希望吸引更多外部贡献者加入做出有效改进。

以下内容为演讲实录:

Doris作为Apache的孵化项目,有很多体量比较大的企业在使用,例如搜狐 、一点资讯、美团、小米、京东等。Doris产品在百度的最初研发大概在十年之前,当前内部偏数据仓库的业务基本都运行在其上,作为MPP架构的关系型分析数据库,起初在设计时主要追求便捷与问题解决,支持PB级别。由于传统数据仓库主要是商业智能的方向,并没有对高并发、高可用做很多优化,而是集中在多维分析与报表查询等功能,而Doris可以确保7×24小时服务,通过滚动升级不中断线上服务,Doris在2017年在Github上开源 ,并于2018年进入Apache孵化器。

具体说到Doris的特色,性能卓越是不可忽视的一方面。了解一种数据库的卓越性能,我们需要看其场景,离开场景泛泛谈数据库性能,是不科学的。Doris每个单后端可以做到在高并发情况下做到每秒钟8000+次的查询性能,100台节点的集群基本可以达到几万到十几万QPS的性能,这个性能基本可以满足类似百度统计这种,支撑全网几十万网站与APP的查询要求。此外,Doris高度兼容MySQL协议,支持在线表结构变更;只设FE、BE两个进程,方便部署,其中FE 负责元数据存储、查询解析和规划,BE 负责数据存储、执行查询算子。

基于此,我们都知道类似Kylin这类系统在线变更极其不便,仅仅是增加删除列可能都需要重新做表,影响在线服务,并且依赖很多Hadoop组件,使得部署使用非常复杂。但Doris高度集成并没有过多依赖外部存储,快速安装并可做到主节点高可用,就算是切换也可做到无感知并操作简单。此外,Doris扩展性强,架构优雅,其单集群可水平扩展至200台以上,支持Kafka流式导入集群,通过ODBC、JDBC链接前端可视化工具或开发应用等,表现出高可用、多副本等优势特性,Doris作为大企业开源的软件,是在实践中千锤百炼累计出来的,对解决实际问题的效果很好。

在京东,他们主要采用Doris来解决京东广告平台的报表查询,需要满足每日千万级查询、每日百亿级增量、毫秒级查询延迟以及每日百亿报表查询/多维分析/日志分析等数据指标。Doris在618大促期间表现突出。此外在美团数据仓库迁移的过程中,原本是基于Apache Kylin的数据建模,由于 Kylin的Cube预构建会造成较多的数据重复,保持数据时效性还需要每天需要对大量历史数据进行重计算;但现在主要基于Doris进行数据建模,按天同步维度表和事实表,ad-hoc query查询即可。

未来关于Doris,我们希望吸引更多的外部贡献者加入到社区来,一起对Doris作出改进 。Doris下一步的主要研发规划,包括存储和计算分离。我们发现目前有很多的历史数据存在于存储节点之上,未来希望可以存储在云上的对象存储中,将Doris改进为云原生数据库。毕竟在云上部署弹性的计算资源,一旦计算与存储分离,成本也会相应得到降低;引入新的存储格式,提升存储效率,包括索引、新的实时更新存储引擎等,以便提升效率;此外还会在查询优化方面下功夫,例如研发新的查询优化框架,支持CBO。

目前云上也有很多企业级用户,每天都在使用Doris的商业版本。大家可以持续关注Doris社区。

(*本文为AI科技大本营翻译文章,转载请微信联系 1092722531)

精彩推荐

2020年,由 CSDN 主办的「Python开发者日」活动(Python Day)正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作,联手顶尖企业、行业与技术专家,通过精彩的技术干货内容、有趣多元化的活动等诸多体验,共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来,我们和中国万千开发者一起分享技术、践行技术,铸就中国原创技术力量。

【Python Day——北京站】现已正式启动,「新春早鸟票」火热开抢!2020年,我们还将在全国多个城市举办巡回活动,敬请期待!

活动咨询,可扫描下方二维码加入官方交流群~

CSDN「Python Day」咨询群 ????

来~一起聊聊Python

如果群满100人,无法自动进入,可添加会议小助手微信:婷婷,151 0101 4297(电话同微信)


推荐阅读

  • 伯克利新无监督强化学习方法:减少混沌所产生的突现行为

  • 机器推理文本+视觉,跨模态预训练新进展

  • 中国搜索 20 年:易守难攻、刚需不减!

  • 悲痛!临近年关,一位 IT 创业者自杀,曾卖房给员工发工资

  • 年终没有奖

  • 以太坊 2.0 前途光明!

  • 你点的每个“在看”,我都认真当成了AI

搜狐、美团、小米都在用的Apache Doris有什么好? | BDTC 2019相关推荐

  1. 报名 | 搜狐×清华:第三届内容识别算法大赛,比武招新两不误!

    2019年4月8日,第三届搜狐校园算法大赛正式开赛,同期面向参赛选手开放竞赛结果提交.本次比赛联合了清华大学等机构共同组织,面向全球范围内的全日制学生. [组织方]搜狐.清华大学 [奖金]¥75000 ...

  2. webclinet downstring 搜狐 为什么是个?号

    c# 搜狐 腾讯 都是这样...新浪可以 我试了一下,继检查,是搜狐的内容经过了GZIP压缩,报以才出现你这样的问题.具体解决方法如下: System.Net.WebClient wc = new S ...

  3. 近期活动盘点:第一届“数据故事计划”、 第三届搜狐校园算法大赛

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第一届 "数据故事计划" "大数据故事计划"旨在收集各类有关大数据的故事,然后进行比赛及相关的宣传 ...

  4. 20191025搜狐播放器安装之后的配置

    20191025搜狐播放器安装之后的配置 2019/10/25 14:56 我还在使用WIN7+SP1,但是最新版本的搜狐播放器上传不好用(貌似在WIN7下面有BUG) 我在搜狐的客户要到了旧版本的播 ...

  5. Apache Doris 向量化版本在小米A/B实验场景的调优实践

    作者 | 魏祚.赵立伟.曾敏锐.汤佳树 长期以来,Apache Doris在小米集团都有着广泛的应用.随着小米互联网业务的快速发展,用户对Apache Doris的查询性能提出了更高的要求,Doris ...

  6. 查询性能显著提升,Apache Doris 向量化版本在小米 A/B 实验场景的调优实践

    导读: 长期以来,Apache Doris在小米集团都有着广泛的应用.随着小米互联网业务的快速发展,用户对Apache Doris的查询性能提出了更高的要求,Doris 向量化版本在小米内部上线已经迫 ...

  7. 干货 | Apache Doris在小米集团的运维实践

    本期技术干货,我们邀请到了小米OLAP引擎研发工程师魏祚.小米存储计算引擎SRE工程师孟子楠,和大家从运维的角度分享Apache Doris在小米集团的应用实践. 一.背景 为了提高小米增长分析平台的 ...

  8. 20天拿到美团快手小米搜狐跟谁学offer

    最近看了看外面的机会,特此汇总下,希望对读者有帮助. 战况 贝壳:一轮技术面,自挂东南枝. 脉脉:两轮技术面,自挂东南枝. 跟谁学:三轮技术面 + 一轮 HR 面. 搜狐:三轮技术面 + 一轮 HR ...

  9. Android面经:百度腾讯滴滴美团头条网易搜狐华为链家小米拼多多

    素材选自:无名huster 去年秋招面试了一些公司,现在把面经和面试体验发一下,大佬们共同学习. 由于水平比较差,所以才获得几个offer(小公司不算):百度,美团,小米,华为,链家,百度外卖(后期获 ...

最新文章

  1. 小脚本,统计一个目录下满足特定条件文件的代码行数
  2. 反向代理服务器的工作原理
  3. Error in plot.new(): figure margins too large
  4. Android --- 刚刚进入 Activity 页面的时候无法打开对话框,报错 Unable to add window -- token null is not valid; is your
  5. 伦斯勒理工大学计算机专业好申请吗,2020年伦斯勒理工学院申请难度
  6. 设置目录_[LaTeX 尝试] titletoc - 为算法目录、定理目录等设置子目录
  7. 利用文字技术帮助选购商品,慧眼“识”物的人都这样做……
  8. pytorch gather_GCN的简单实现(pytorch)
  9. Debian从光盘apt-get
  10. Springboot项目优化和Jvm调优和启停脚本
  11. 本地yum源安装teamviewer
  12. c语言简易计算器大作业报告,简易计算器 (C语言)作业
  13. 全球语种谱系图,看看机器翻译需要跨越的大山
  14. Android重新分区parted,使用parted划分GPT分区
  15. 笔记本处理器排名_上半年最受欢迎处理器TOP10榜单:AMD终进榜,9代酷睿无缘前10...
  16. Go语言(Golang)的Web框架比较:gin VS echo
  17. 几何光学学习笔记(17)- 4.6光学材料
  18. 1、Django项目设计与搭配开发环境
  19. 操作系统之进程管理相关总结
  20. 利用Python快速绘制海报级别地图

热门文章

  1. Attach Volume 操作(Part II) - 每天5分钟玩转 OpenStack(54)
  2. css中的垂直居中方法
  3. express中的bin/www文件详解
  4. 【.Net MF网络开发板研究-04】Socket编程之服务端
  5. VC++ 6.0的小花招
  6. MSI文件制作全过程
  7. 慕课网基于ElasticSearch的找房网实战开发企业级房屋搜索网项目学习心得(一)
  8. springboot 学习笔记(三)
  9. 二维数组练习--矩阵的加法和乘法
  10. 倍增LCA NOIP2013 货车运输