本文内容来自由msup主办的第七届TOP100summit大会。分享者王哲涵,时任京东离线平台研发团队负责人。2015年加入京东,于大数据平台研发部工作, 负责京东大数据平台的架构与研发工作。

导读

时下大数据技术趋于成熟与稳定的今天, hadoop相关服务也不再高高在上, 已是作为如同数据库般的作为基础软件设施提供计算与存储服务, 京东大数据平台从无到有, 从量到质, 从微创到革新经历五年的时间, 集群规模一步步由数百到数万规模的演化过程, 此次分享主要涵盖面对业务多元化发展, 京东大数据平台持续进化过程中遇到的问题与我们的解决方案。

如果按规模划分,京东大数据平台演进的几个重要节点分别是单集群规模达到1200台、3000台、5000台再到2018年的8000台。在这个过程,京东大数据团队优化了Yarn的调度性能,集群稳定性,计算资源分配并逐步完成存储和计算分离等工作。

在平台搭建上,中小企业在不具备专业研发团队的情况下,选择云提供商和开源社区的可能性更大,短期来看这会节省大量成本。但是,当集群增长到一定规模,使用云平台的成本就会相应升高。京东的离线大数据平台全部在本地实现,使用了不少开源组件也加入了新技术,但京东更加倾向于自我实现而非拿来主义。

所谓拿来主义,更多时候是指借用开源产品和社区的力量,但京东在代码修改上下了很大功夫,毕竟一些很小的改动可能为京东节省大量成本。对于组件选用,京东同样选择了Flink,Spark、Storm、Yarn、HDFS和HBase等常用组件,但是京东在代码层面进行了很多改动。以Yarn为例,Yarn在集群规模达到某个范围后,其性能是有问题的,京东对该问题进行了修复并持续弥补了其与K8S的差距。

虽然自研往往更容易达到想要的结果,但这一点并不适用于所有体量的公司。对于中小企业而言,一段代码优化带来的成本节省或许比消耗的人力成本更高,同时,中小企业也很难聚拢一批可修改源码级别的研发工程师,而这些在大公司眼中又不是问题了。毕竟,大公司聚集了中国绝大部分的优质研发人才,其一点小改动都可能带来巨大的性能提升或成本降低。

对于易用性、性能和成本之间的平衡,稳定性是首要考量目标,其次是性能。关于稳定性方面,京东到底做了些什么呢?

大纲

  • 京东大数据平台的演化历程及方向
  • 存在的问题
  • 实践1.1-2.3
  • 解决方法和实践小结
  • 未来展望

部分PPT

完整版PPT请关注壹佰案例公众号,回复关键词「大数据平台」获得。

视频

点击“此处”,即可查看视频。本视频来自京东离线平台研发团队负责人王哲涵在2018TOP100summit的演讲。

大数据平台常用组件_京东大数据平台进化之路相关推荐

  1. 大数据平台常用组件_这款大数据智能服务平台火了!全自动化配置30+款开源大数据组件...

    在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高.用户黏性低.变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷.但由于大数据解决方案所涉及的组件错综复杂.技术 ...

  2. 大数据生态圈常用组件(二):概括介绍、功能特性、适用场景

    三更灯火五更鸡,正是男儿读书时. 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助. 分类 名称 简介 功能特点 使用场景 大数据存储 HDFS HDFS是一个分布式的文件系统, ...

  3. 刘彦伟_京东实时数据平台技术实践

    2019独角兽企业重金招聘Python工程师标准>>> 刘彦伟_京东实时数据平台技术实践 随着大数据在业务中不断深入的应用以及业务的高速增长,传统""T+1&qu ...

  4. 关于大数据技术的演讲_百度大数据技术开放平台再度亮相

    众所周知,百度凭借在大数据领域多年的深厚技术积累,一直冲在产业智能化的最前线.在去年的百度AI开发者大会上,百度大数据发布了全新的大数据产品技术栈,覆盖了数据工程.数据科学.数据产品和行业解决方案,并 ...

  5. web大屏展示用到的组件_从零开始设计数据大屏—基于Vue

    为什么要做数据大屏? 现如今的大数据逐渐发挥出了它的力量,并无形的改变着我们的生活.但大数据在不是从事技术开发的人来说没有很明显的感受,很多人对大数据的概念只是停留在每年网易云音乐对个人听歌的汇总上. ...

  6. 大数据 客户标签体系_基于大数据的用户标签体系建设思路和应用

    如何设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值? 在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略 ...

  7. 大数据 客户标签体系_基于大数据的用户标签体系建设思路

    如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战.通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案. 但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签? ...

  8. python运用在大数据中精准生活_在大数据中“精准”生活 阅读答案

    在大数据中"精准"生活 阅读答案 在大数据中"精准"生活 ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管 ...

  9. python运用在大数据中精准生活_在大数据中“精准”生活阅读答案

    ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管理已成为平常之事,信息像水电一样通过网络供应汩汩传输,计算机上有形数据转化为无形的财富,深入并造福 ...

  10. python运用在大数据中精准生活_在大数据中精准生活阅读理解答案

    在大数据中精准生活阅读理解答案 ①万物皆互联,无处不计算.因为互联网.手机.无线传感器的普及,实时监测.远程协作.SOHO工作.数据管理已成为平常之事,信息像水电一样通过网络供应汩汩传输,计算机上有形 ...

最新文章

  1. 开发者必备的15 个Web开发工具
  2. 做机器人,必过的一道坎!
  3. python 命名空间报错_python命名空间与作用域
  4. web安全这个行业的前景怎么样?
  5. Enolsoft PDF Converter with OCR激活版
  6. web前端顶岗实习总结报告_假期web前端实习报告
  7. 火山视频抖音版批量下载,一个脚本就够了,手把手教你批量下载抖音火山高清视频。
  8. 生活大爆炸第二季 那些精妙的台词翻译
  9. oracle sparc t5-2报价,SPARC T5-2服务器
  10. Keep your fork synced
  11. 年龄、工龄、计算(精确到天)
  12. 前端学习之浏览器从输入URL到页面加载的全过程
  13. deepin efi 启动u盘_用Deepin Linux ISO镜像启动或U盘引导只显示一个光标的解决
  14. 常用算法设计技术总结
  15. Window类似Alfred的搜索软件——Wox
  16. OpenCL优化应用项目
  17. 软件测试如何入门学习?自学软件测试入门经验分享
  18. mui实现二维码扫描
  19. toefl阅读写作口语评分解读
  20. 消防应急照明和疏散指示系统在某医药厂房项目的应用

热门文章

  1. MSSQL存储过程调用 C#DLL
  2. MySQL索引实现、MySQL索引原理、索引下推、索引覆盖、索引失效
  3. java Monitor对象监视器、对象头、mark word
  4. nmea怎么转wgs84坐标c语言源码,NMEA-0813数据格式说明
  5. java中同步关键字_Java中的同步关键字
  6. JDK6中synchronized优化之自旋锁、锁擦除、锁粗化
  7. RabbitMQ的消息确认、消息持久化
  8. 一次 HashSet 所引起的并发问题 1
  9. git添加远程库遇到的问题
  10. 框架之---Flask