本文内容来自由msup主办的第七届TOP100summit大会。分享者王哲涵,时任京东离线平台研发团队负责人。2015年加入京东,于大数据平台研发部工作, 负责京东大数据平台的架构与研发工作。

导读

时下大数据技术趋于成熟与稳定的今天, hadoop相关服务也不再高高在上, 已是作为如同数据库般的作为基础软件设施提供计算与存储服务, 京东大数据平台从无到有, 从量到质, 从微创到革新经历五年的时间, 集群规模一步步由数百到数万规模的演化过程, 此次分享主要涵盖面对业务多元化发展, 京东大数据平台持续进化过程中遇到的问题与我们的解决方案。

如果按规模划分,京东大数据平台演进的几个重要节点分别是单集群规模达到1200台、3000台、5000台再到2018年的8000台。在这个过程,京东大数据团队优化了Yarn的调度性能,集群稳定性,计算资源分配并逐步完成存储和计算分离等工作。

在平台搭建上,中小企业在不具备专业研发团队的情况下,选择云提供商和开源社区的可能性更大,短期来看这会节省大量成本。但是,当集群增长到一定规模,使用云平台的成本就会相应升高。京东的离线大数据平台全部在本地实现,使用了不少开源组件也加入了新技术,但京东更加倾向于自我实现而非拿来主义。

所谓拿来主义,更多时候是指借用开源产品和社区的力量,但京东在代码修改上下了很大功夫,毕竟一些很小的改动可能为京东节省大量成本。对于组件选用,京东同样选择了Flink,Spark、Storm、Yarn、HDFS和HBase等常用组件,但是京东在代码层面进行了很多改动。以Yarn为例,Yarn在集群规模达到某个范围后,其性能是有问题的,京东对该问题进行了修复并持续弥补了其与K8S的差距。

虽然自研往往更容易达到想要的结果,但这一点并不适用于所有体量的公司。对于中小企业而言,一段代码优化带来的成本节省或许比消耗的人力成本更高,同时,中小企业也很难聚拢一批可修改源码级别的研发工程师,而这些在大公司眼中又不是问题了。毕竟,大公司聚集了中国绝大部分的优质研发人才,其一点小改动都可能带来巨大的性能提升或成本降低。

对于易用性、性能和成本之间的平衡,稳定性是首要考量目标,其次是性能。关于稳定性方面,京东到底做了些什么呢?

大纲

  • 京东大数据平台的演化历程及方向

  • 存在的问题

  • 实践1.1-2.3

  • 解决方法和实践小结

  • 未来展望

部分PPT








完整版PPT请关注过往记忆大数据公众号,回复关键词「京东大数据」获得。

猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

回复 all 获取本公众号所有资料

0、回复 电子书 获取 本站所有可下载的电子书

1、Elasticsearch如何做到亿级数据查询毫秒级返回?

2、京东HBase平台进化与演进

3、深入理解 Spark Delta Lake 的诞生及其工作原理

4、Apache Kafka 2.3 发布,新特性讲解

5、Hadoop 气数已尽?

6、一条 SQL 在 Apache Spark 之旅(下)

7、Kafka 是如何保证数据可靠性和一致性

8、Kylin 在小米大数据中的应用

9、Uber 大数据平台的演进(2014~2019)

10、图文了解 Kafka 的副本复制机制

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)12、Flink中文文档:http://flink.iteblog.com13、Carbondata 中文文档:http://carbondata.iteblog.com

“在看”一下,神清气爽

京东大数据平台进化之路相关推荐

  1. 京东EB级全域大数据平台的演进与治理历程

    讲师介绍 包勇军,目前在京东任职数据基础平台部.广告质量部.推荐研发部负责人,同时担任京东集团技术委员会委员.京东零售数据算法委员会会长.负责大数据平台基础架构的建设和产品开发.AI算法平台建设.AI ...

  2. 京东用了哪些大数据平台产品体系?

    对于京东大数据平台来说,数据产品并不是一个新鲜事物,2011年自建数据仓库上线的同时,第一款数据产品调度平台也一同上线并正式投入使用. 调度平台 订单交易,仓储物流等众多京东系统都会产生数据,仅日志内 ...

  3. 京东JDK在大数据平台的探索与研究

    本文旨在概述京东在JDK方向上的尝试与探索,以及京东JDK项目背景,基本特性以及未来的工作方向.对于JDK特性的技术讨论,实现细节及效果,将在后续系列文章中深入讨论. 背景 HDFS简介   HDFS ...

  4. 实战分享:从京东618数据井喷看大数据平台峰值处理制胜关键

    一.大数据综述 随着DT(数据技术)时代的到来,人们能比以往更容易地获取更丰富的数据.数据作为一种新的能源形式,正在源源不断地发挥其巨大的价值,帮助我们激发更多的技术驱动力,提供更优质的服务. 在京东 ...

  5. 京东大数据,为什么这么牛?

    高可用和高性能 采用自研 Yarn Federation 技术实现资源按需无限扩展 京东大数据平台的离线计算基于 Hadoop 分布式技术构建.随着集群规模的迅速扩张,基于Yarn 的资源管理已出现性 ...

  6. 直播:京东大数据的应用!

    前言:由CSDN主办的SDCC 2017之大数据技术实战线上峰会将在CSDN学院举行.作为SD系列技术峰会的一部分,本次线上峰会秉承干货实料(案例)的内容原则,将邀请圈内顶尖的布道师.技术专家和技术引 ...

  7. 对话翁志:京东大数据如何让技术真正落地

    1. 2013年是翁志职业生涯的重要节点. 在那之前,翁志自1996年离开中国.赴国外留学,直到2003年底回国,主要从事数据库方面工作,包括数据基础架构等.较为成功的案例是网络通信数据架构,在90年 ...

  8. 世界顶级机器学习科学家黄恒加入京东,出任京东大数据首席科学家

    雷锋网消息,京东集团今日宣布,美国匹兹堡大学John A. Jurenko 杰出冠名讲席教授黄恒博士加入京东. 雷锋网(公众号:雷锋网)注:黄恒教授 黄恒教授是机器学习.人工智能.大数据.计算机视觉等 ...

  9. Java job interview:项目架构研发京东大数据价值最大化的应用实践

    "大数据"的经典定义是可以归纳为4个V:海量的数据规模(volume).快速的数据流转和动态的数据体系(velocity).多样的数据类型(variety)和巨大的数据价值(val ...

最新文章

  1. 厦门大学宋宁宇:统计学专业到蚂蚁风控岗!
  2. 复合梯形公式与复合辛普森公式matlab_【IBE】关于电缆桥架的安装,一定要知道的两个公式!...
  3. mysql5.7 修改密码
  4. 反射获取成员方法并使用【应用】
  5. UVA - 1587 Box
  6. vs及番茄助手快捷键使用介绍
  7. 【视觉项目】【day5】8.25号实验记录(修完BUG,28张测试图,13个样本,四张测试图误判,这比之前效果好很多了)
  8. poj2975——Caesar密码
  9. CVE-2021-34527: Windows Print Spooler 蠕虫级远程代码执行漏洞
  10. redis-shake简介
  11. mysql+索引+rebuild_(solr系列:五) solr定时实时重建索引和增量更新
  12. 苹果Mac鼠标光标丢失如何找回?
  13. Spring实战系列
  14. 线性表文档之静态链表
  15. C# 打开word文件
  16. asp与php的区别
  17. 美国和欧洲5G最新进展—全球5G发展洞察2022(下)
  18. sql server 排序规则
  19. 最快的扫雷记录,初级只需要0.49秒,一眨眼就结束的操作!
  20. 最近面试SAR ADC总是被问到DAC 单位电容的取法

热门文章

  1. c#打印星星图案。打印的行数n由键盘输入,下面例图中 n=5
  2. 从2T-12.8T 一颗芯片全搞定
  3. 证件照换底色·网页图片设计·第一次项目技术总结
  4. 《CSS菜鸟教程》学习
  5. WIN10 VS2019 编译Cyrus SASL
  6. ASDFZ 3633 -- 排兵布阵
  7. mac仿win快捷键方案
  8. 【已解决】如何设置、更换LaTeX Beamer的字体?以及调整正文所使用的字体(如从Times New Roman改变为Arial)、定义字体大小等操作
  9. 【Pandas】计算相关性系数corr()
  10. Shell脚本-NF、FS(OFS)、RS(ORS)、NR(FNR)