2019独角兽企业重金招聘Python工程师标准>>>

相比传统商业交换机,白盒交换机具有更好的开放性和灵活性,解决了运维管理方面的诸多痛点,随着SONiC的不断完善和白盒交换机市场的成熟,京东基于SONiC研发了自己的白盒交换机,更加适合京东数据中心的应用场景,为整体基础设施提供更好的服务和支持。

白盒交换机的出现

自从软件定义网络(SDN)出现以后,市场对白盒交换机的需求越来越大,特别是超大规模云服务提供商的出现,其自建云数据中心将需要大量的白盒交换机。白盒交换是SDN的副产品,它是将物理网络交换机硬件和网络操作系统(NOS)进行解耦的结果。

白盒交换机主要可分为支持OpenFlow协议的OpenFlow白盒交换机和裸白盒交换机。其中,OpenFlow白盒交换硬件开放程度并不高,其网络操作系统往往也被厂商绑定,相对比较封闭,该类交换机通过支持主流的OpenFlow协议如OpenFlow1.3版本,连接控制器实现SDN网络的转发与控制分离。OpenFlow交换机只负责根据OpenFlow流表进行匹配转发,本身没有控制功能,所以也可以被称为白盒。

目前,白盒交换机产业打造出了一个相对完整的生态圈。通过通用的硬件设备,消除对特定厂商的依赖,降低成本。通过开放的软件,增强网络的灵活性与敏捷性。

自研交换机探索与实践——JDNOS

SONiC(Software for Open Networking in the Cloud),是由微软主导的一款开源交换机操作系统。该系统由多个容器化组件组成,这样一种创新方案使得增加新的组件和功能变得非常方便。

SONiC引入了Redis数据库,存储配置数据及运行状态,提高了数据的可视化,大大降低了定位解决问题的难度。进程故障的时候,交换芯片继续保持转发,进程恢复后从数据库重新获取状态继续运行,不但可以保障系统的稳定运行,还可以实现单进程升级功能。

SONiC定义了SAI(Switch Abstraction Interface),这是一套独立于硬件平台的交换机芯片控制抽象接口。SAI的存在使得SONiC可以支持多个厂商的芯片,只需关注上层网络应用,不需要考虑各芯片SDK的差异性。

京东云基于SONiC架构,开发了适用于京东数据中心场景的交换机操作系统JDNOS。

配置平台优化

在网络中运行的交换机,通常是设备商提供的,专有且闭源。由于不同商业交换机的命令行和配置方式都不相同,监控接口标准不统一等因素,给网络运维带来了很大的复杂性,而且不便于管理。

针对以上问题,JDNOS自研统一配置平台定义了统一的配置模型,实现了配置管理的统一化和标准化,大大提升了运维效率。

ARP协议

针对TOR的应用场景,尤其是去堆叠方案,JDNOS改进了原SONiC的ARP实现,增加了ARP探测,可以做到秒级的ARP探活。SONiC中上层软件ARP表项是从kernel中获取,JDNOS的方案中,上层ARP表项状态是单独维护的,并反过来控制kernel中的ARP状态。对链路异常,MAC老化等事件,可以做到ARP快速探测,转发快速收敛。

上线策略

JDNOS的上线采用了异构去堆叠方案(具体方案可参考《异构去堆叠 | 一种完美提升网络高可用SLA的方案》)

  • 交换机完全独立,支持异构,完全解耦

  • 降低上线风险,增强可靠性

  • 推动自研交换机快速上线

硬件组件接口标准化

JDNOS需要适配多家ODM/OEM硬件厂商的白盒交换机。针对每家厂商硬件各组件驱动实现方式的差异性,JDNOS定义了统一的sysfs接口,监控并控制各硬件组件。针对数据中心对光模块的高规格监控需求,JDNOS定义了详细的光模块信息接口,如电源、电压、温度、功率以及各项阈值等,以及风扇、电源、各传感器温度等相关接口,实时监控其状态,出现异常的情况下能及时告警,并上报监控系统。

自主研发监控内容

JDNOS支持Telemetry,由于Telemetry可以实现主动推送任何需要监控的系统运行状态到监控服务器,因此代替了原有的SNMP、日志等的方式,实现监控的统一化,同时也带来了更高的效率。JDNOS将更多的监控内容写入数据库,供telemetry实时采集并推送,给监控提供更精细的诊断探测。

未来我们即将上线自动化部署服务,更好提升效率;支持warm reboot,软件升级不中断业务;继续丰富完善监控内容,支持网络可视化;对LEAF交换机的研发部署;对特定场景的功能支持,例如RDMA,EVPN,SR等;对于京东,自研交换机属于起步阶段,我们也在不断尝试和探索,积累储备,为技术的标准化和降低运维成本做出自己的贡献,努力做出更好的产品, 通过技术驱动和创新,为业务带来更大的价值。

转载于:https://my.oschina.net/u/4090830/blog/3052663

京东网络开放之路——自研交换机探索与实践相关推荐

  1. 京东网络开放之路——数据中心光互联技术的思考与实践

    "数据中心是云计算的核心支持平台,云计算的发展对数据中心网络架构提出了严峻的挑战,传统电互连网络架构难以在带宽.设备开销.能耗.管理复杂度等方面同时满足云应用的要求,因此以低能耗.低开销.高 ...

  2. 京东金融客户端用户触达方式的探索与实践

    一.关于用户触达 用户触达:可以简单理解为通过某种方式将消息传递给用户的行为:触达的特定消息从功能上可分展示.引导落地两层.用户触达作为一种产品运营方式,已经融入我们日常生产活动的方方面面.在移动互联 ...

  3. 面向未来网络世界,新华三集团的探索与实践

    作者|康翔 编辑|阿冒   设计|沐由 不出意料.IDC最新发布的市场报告显示,紫光股份旗下新华三集团在2021年第一季度以38.0%的占有率,再一次夺得中国以太网交换机市场份额第一名."圈 ...

  4. 技术沙龙 | 0.2秒计算680亿条路径,揭秘京东CV/NLP在智慧零售领域的探索与实践

    人工智能发展至今,已经成为新一轮科技革命的核心动力.过去的 AI 技术驱动重在算法模型的比拼,如今则更依赖场景化的技术实践与应用落地. 京东作为全球最大零售商之一,涵盖线上.线下实体.虚拟等多元化交易 ...

  5. 爱奇艺App架构升级之路——64位适配探索与实践

    背  景 随着手机硬件的不断发展,近两年的新式手机已经全部采用了64位CPU,64位真的比32位快吗?实际上32位和64位的差异主要体现在内存寻址上,32位最高只支撑4GB内存,而64位则能够最高支撑 ...

  6. OceanBase首次阐述战略:继续坚持自研开放之路 开源300万行核心代码

    简介:在数据库OceanBase3.0峰会上,蚂蚁集团自主研发的分布式数据库OceanBase首次从技术.商业和生态三个维度对未来发展战略进行了系统性阐述.同时,OceanBase宣布正式开源,并成立 ...

  7. 京东到家开放平台消息系统-进阶之路

    京东到家开放平台,是一个面向商家以及第三方开发者-开放服务.持续赋能O2O业务的到家服务集成平台.是商家数据与到家数据打通的桥梁,开放平台.商家.到家三者之间的关系如图所示. 既然是数据通讯的桥梁,必 ...

  8. 计算机引领未来的趋势,引领未来网络发展之路,新华三提出确定性网络的第三种技术路径...

    6月18日,第五届未来网络发展大会迎来第二天的技术盛会.作为网络领域的技术创新者与探索者,紫光股份旗下新华三集团副总裁.技术战略部总裁刘新民应邀出席"未来网络技术发展与变革"主题论 ...

  9. 走向网络开放 戴尔易安信未来的网络愿景

    近日,戴尔易安信举行了开放网络产品沟通会,主题分享未来的网络愿景和战略,并正式发布了全新的S4200-ON交换机,对外扩展了开放网络计划,以帮助用户管理数字化转型对网络所提出的越来越高的要求.S420 ...

最新文章

  1. 信不信这29 个阿里开源项目里肯定有你用过的?
  2. 每日源码分析-Lodash(uniq.js)
  3. 使用xshell远程连接Linux
  4. linux中opt是啥文件夹,Linux下各文件夹的含义及解释
  5. python机械编程_机器学习编程作业3——多类分类(Python版)
  6. python apscheduler执行_python apscheduler 每两小时执行一次
  7. PC端支付宝支付接口的调用(沙箱环境测试最全文档)
  8. 报告一下近期读书情况
  9. sqoop导入数据常见问题解决方法
  10. linux socket版本 can,linux socket can程序cantool
  11. 金蝶k3远程组件配置连接服务器,金蝶K3服务器配置工具
  12. 当路由器外网IP变更时,执行操作
  13. Python爬虫爬取哈利波特小说,并用数据可视化分析出场人物
  14. 佳能打印机手机显示未连接服务器,佳能打印机出现服务器设置密码
  15. UnExpected Error, Quitting
  16. 2-1个人小程序注册
  17. OkGo上传文件、图片的用法
  18. 什么是dB?为什么要用dB?dB家族成员有哪些?
  19. 打造最美HTML5 3D机房 —— 第二季重磅回归
  20. css情景动画,css3中的动画属性animation应用场景及编写代码教程

热门文章

  1. 多语言互通:谷歌发布实体检索模型,涵盖超百种语言和千万个实体
  2. 跨镜追踪“智”眼识人技术策略研究及实现
  3. 「长图」使用AI前需要评估的
  4. 数据产品经理:如何做需求管控?
  5. 机器学习中的分类距离
  6. 一套图 搞懂“时间复杂度”
  7. 人工智能应用需要高可信性(180806)
  8. Tensorflow— saver_save
  9. 卡特兰数(Catalan number)
  10. 深度学习在工业推荐如何work?Netflix这篇论文「深度学习推荐系统Netflix案例分析」阐述DL在RS的优劣与经验教训...