戳蓝字“CSDN云计算”关注我们哦!

CSDN云计算授权转载自阿里系统软件技术

作者:临石

打开一篇篇 IT 技术文章,你总能够看到“大规模”、“海量请求”这些字眼。如今,这些功能强大的互联网应用,都运行在大规模数据中心上。然而,对于大规模数据中心,你又了解多少呢?

实际上,除了阅读一些科技文章之外,得到关于数据中心的信息非常难得。数据中心每个机器的运行情况如何?这些机器上运行着什么样的应用?这些应用有什么特点?对于这些问题,除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

什么是 Alibaba Cluster Data?

那么,实施了一系列优化手段之后的计算机集群究竟是什么样子?混部的情况究竟如何?

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

这个数据可以做什么?

刚刚发布的 Alibaba Cluster Data V2018 包含 6 个文件,压缩后大小近 50GB(压缩前 270+GB),里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据,你可以:

  • 了解当代先进数据中心的服务器以及任务运行特点;

  • 试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文;

  • 利用这份数据学习如何进行数据分析,揭示更多我们自己都未曾发现的规律。

上面这几点,没有接触过类似数据的朋友,可能对于这份数据的用处并没有直观的印象,下面我举几个简单的例子:

  • 电商业务在白天和晚上面临的压力不同,我们如何在业务存在波峰波谷的情况下提高整体资源利用率?

  • 你知道我们最长的 DAG 有多少依赖吗?

  • 一个典型的容器存在时间是多久?

  • 一个计算型任务的典型存在时间是多少?一个 Task 的多个 Instance 理论上彼此很相似,但是它们运行的时间都一样吗?

实际上,学者们甚至可以用这些数据作出更加精彩地分析。2017年,我们开放的第一波数据(Alibaba Cluster Data V2017),已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待,未来你也能与我们共同分享你用这份数据产生的成果!

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!)

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

Cluster Data V2018 更出色

DAG 信息加入:我们加入了离线任务的 DAG 任务信息,据了解,这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG?离线计算任务,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务,都是以有向无环图(Directed Acyclic Graph,DAG)的形式进行编排的,其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

规模更大:上一版数据包含了约 1300 台机器在约 24 小时的内容数据,而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。

数据获取方式:

https://github.com/alibaba/clusterdata/blob/v2018/cluster-trace-v2018/trace_2018.md

1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

2.征稿:

投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。

推荐阅读

  • 程序员怒了!阿里 Antd 圣诞彩蛋害我被离职了!

  • 云计算到底是怎么玩的?

  • 面向对象编程,再见!

  • AI女性界的“扛把子”,凭一己之力迫使NIPS改名

  • 00后也会「玩」区块链,你对「朝阳」行业焦虑啥 ?| 圣诞特辑

  • 20k~65k, 2018年最后一波热门技术岗位, 立刻投简历, 跳槽才是加薪的捷径

  • 可替代Android的6大开源移动操作系统

  • 程序员求助:被领导强行要求写Bug该怎么办?网友的回答让我笑翻

点击“阅读原文”,打开 CSDN App 阅读更贴心!

喜欢就点击“好看”吧!

资源 | Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心...相关推荐

  1. Alibaba Cluster Data 开放下载:270GB 数据揭秘你不知道的阿里巴巴数据中心

    打开一篇篇 IT 技术文章,你总能够看到"大规模"."海量请求"这些字眼.如今,这些功能强大的互联网应用,都运行在大规模数据中心上,然而,对于大规模数据中心,你 ...

  2. Alibaba Cluster Data 开源:270GB 数据揭秘你不知道的阿里巴巴数据中心

    打开一篇篇 IT 技术文章,你总能够看到"大规模"."海量请求"这些字眼.如今,这些功能强大的互联网应用,都运行在大规模数据中心上,然而,对于大规模数据中心,你 ...

  3. 阿里巴巴集群跟踪数据 Cluster Data V2017翻译文档

    原文链接:https://github.com/alibaba/clusterdata/blob/v2018/cluster-trace-v2017/trace_201708.md 以下阿里巴巴201 ...

  4. KubeCon 2020 演讲集锦|《阿里巴巴云原生技术与实践 13 讲》开放下载

    2020 年 7 月 30 日至 8 月 1 日,由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 Cloud Native + Open S ...

  5. 附指南原文下载-《GB/T 39725-2020 信息安全技术 健康医疗数据安全指南》解读(一)

    本文由指南内容的精简总结和笔者个人理解编写而成,指南原文链接在文末. 不同数据使用场景的下的安全保护措施因篇幅问题单独编写一章,链接在文末. 目录 一.背景 二.数据分类分级 1.数据分类 2.数据分 ...

  6. 华为正式发布方舟编译器,相关源码已开放下载;微软开源量子开发工具包 QDK;GitHub回应突然断供:也很无可奈何的样子……...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

  7. Vivado 2020.1 开放下载,中文资料随贴奉送

    Vivado 2020.1 开放下载了!! 以下都是重点! 新 功能 Vivado 2020.1 新增以下功能: 能够将完整的图像或选定的产品作为 Web 安装程序的一部分 增强的地址映射,用于实时错 ...

  8. 原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

    很多人在学习大数据的时候比较迷茫,不知从何学起,也不能够比较系统.全面的了解大数据框架.为此,过往记忆花了一个周末的时间把 Awesome Big Data (https://github.com/o ...

  9. 2014年C++大会的嘉宾演讲稿开放下载

    2014年C++大会的嘉宾演讲稿,主办方已开放下载 关于C++未来十年的描述 An Overview of C++11 and C++14 - Leor Zolman Async sequences ...

最新文章

  1. 关于IOS中的self关键字
  2. linux mipi驱动分析_嵌入式技术在血液分析仪中的应用方案
  3. Struts2的工作原理
  4. 有kotlin中的Android项目编译出现 Unresolved reference: R
  5. 使用二维码识别技术的好处_人脸识别技术什么场景都能使用吗?
  6. JavaScript 对象和包装类
  7. Spring EclipseLink NoSQL - 使用MongoDB和Oracle NoSQL DB构建
  8. GCC 加工程序的过程
  9. linux+systemc+编译,[转载]linux下systemC的安装编译仿真
  10. 安全出口指示灯警报、如何解除呢
  11. jQuery学习(九)—常用的包裹方法
  12. 自学python编程笔记本推荐-python自学教程 | 3万字为你详解每个重要知识点
  13. mysql如何给一个数据库所有表都增加一个字段?
  14. mysql 触发器详情
  15. Arduino Uno ADS1115 数模转换
  16. 分水岭算法java,OpenCV 学习笔记 04 深度估计与分割——GrabCut算法与分水岭算法...
  17. 教授专栏17 | 许佳龙:银行查找网安漏洞 提高公众风险意识
  18. NCHW vs. NHWC
  19. 2021年智能晾衣机销售增长96%,好易点的增长引擎是什么?
  20. CToolBar的使用总结1

热门文章

  1. php极光推送教程,laravel框架使用极光推送消息操作示例
  2. postgresql 遍历字符串数组_每日一道编程题(348):1005.K次取反后最大化的数组和...
  3. 基于corundumstudio建立websocket长连接
  4. Python GUI Programming (Tkinter)
  5. linux下gcc编译使用opencv的源文件时报错的处理:undefined reference to symbol '_ZNSsD1Ev@@GLIBCXX_3.4'
  6. 面向中后台复杂场景的低代码实践思路
  7. 数字农业WMS库存操作重构及思考
  8. Java编程技巧之样板代码
  9. Serverless在游戏运营行业进行数据采集分析的最佳实践
  10. 为了实现在线库的复杂查询,你还在双写吗?