基于芯片研发平台构建运维体系

说起芯片研发平台的运维,一定要从EDA(电子设计自动化)研发环境的信息化建设说起。一块电脑主板的研发,到整台服务器的研发,都涉及到EDA研发环境的运维,是一个复杂的信息化运维体系的构建,今天在这里抛砖引玉,我们就一起来聊聊。

笔者最早接触EDA研发环境,大约是在2006年左右,当时,国内智能手机行业兴起,智能手机的研发,相较于个人电脑、服务器来说,主板体积更小,集成度更高,研发的难度也更高一些。而在近几年,由于AI行业的快速发展,AI芯片的研发,正是风起云涌,下面我们就谈谈AI芯片研发环境的运维体系建设。

规划一个平台,首先要从业务角度去考量。这里先大概介绍下芯片研发的过程和可能用到的工具,便于大家有个初步的理解。
我们这里以应用Synopsys公司的VCS(verilog compiled simulator)工具展开介绍。以下是VCS产品的官方介绍:

VCS主要处理两个方面的任务:

  • 编译:根据用户的输入文件,编译产生可执行文件(默认为二进制文件simv),产生的文件用于仿真任务。
  • 仿真:检查波形结果。

VCS本身只支持单机形式安装部署,但是,一般情况下,需要大量并行计算资源支持的,所以,为了提供更多的并行计算能力来加速运算,我们通常会应用任务编排调度系统搭建集群平台。

IBM在商业化的任务编排调度系统的研发实力是最强的,IBM LSF也是最为推荐的平台之一。之前有开源版本的openlava,后来由于版权原因,项目已经取消。建议企业根据平台的规模和应用IBM LSF后的产出能力做性价比评估来决定是否应用这样的平台,笔者还是很推荐的,因为,芯片研发效率就是芯片产品的核心竞争力,之所以我们选择Synopsys这样的研发工具也是同样的道理。

规划了应用层,我们还要考虑数据层、网络层、安全层,下面逐个展开介绍:
数据存储有两种方式可选:

  • 分布式存储系统:多存储主机构建的高IO的存储系统,如:Ceph、Gluster、HDFS
  • 集中存储系统:FCSAN 或者 IBSAN(基于infiniband网络构建),比较推荐后者,国内存储系统代表如:华为oceanstor系列。

芯片研发的核心数据,主要是保存仿真后的波形数据文件,数据量并不大;大量的数据是在仿真过程中生成的10M以下的小文件,这些文件均为临时性文件,仿真后需要进行清理,不需要永久性保存。

当然,为了保证数据安全,同样要规划数据备份系统,对不同版本的仿真结果文件备份存储。需要根据数据量和实际情况自行选择,这里不再展开介绍。

网络方面,除了数据存储建议使用Infiniband网络外,业务通信网络推荐10Gbps网络即可。业务通信主要是保证网络高可用性,性能方面没有过多要求。当然,需要为物理服务器的带外管理规划远端管理网络。

安全方面,除了在网络和系统层面进行加固外,谈一下在接入研发系统层面的加固。
笔者建议,通过虚拟化桌面的形式,接入到研发系统。这样可以在研发系统外,增加管控接入系统的安全策略,大大提升安全性。当然,在规划安全时,一定要考虑到研发人员的便捷性,只有灵活度、性能得到认可的情形下,去谈安全性的好坏,才是最有意义的,以防出现研发团队工作积极性降低、或者降低研发效率的事情出现。

除了以上介绍的几个方面,在运维工作上,还要考虑基础运维和研发辅助平台的建设。
基础运维方面,比如:

  • 监控系统:

    • 对物理主机状态、性能的监控管理
    • 对各个服务的监控管理
    • 对网络和数据状态的监控管理
  • ITSM管理系统:如otrs

    • 对集群内各个配置项状态管理
    • 工单管理、问题管理、用户需求管理等
    • 知识库管理
    • 批量部署管理系统:便于集群系统的部署和故障下线处理
    • Ansible、Puppet、Saltstack等的应用
  • 研发辅助平台方面,比如:

    • 研发沟通平台:研发环境内的即时沟通、邮件等
    • 研发文档、知识库管理
    • 研发代码仓库管理
    • 研发Code Review、项目管理等

以上,大概分享了芯片研发平台的运维体系建设,当然,其它方面如运维团队建设等,没有分享,笔者认为,体系建设是个复杂、最佳实践落地的过程,不同企业、不同团队、不同情况,效果也是千差万别。因此,以上仅从核心的几个关键点来抛砖引玉,期待与各位运维人进行深入交流。

微信公众号:白话运维 ![白话运维公众号](https://img-blog.csdnimg.cn/2020071614205814.jpg#pic_center)

基于芯片研发平台构建运维体系相关推荐

  1. 基于 Bitbucket Pipeline + Amazon S3 的自动化运维体系

    1 前言介绍 随着自动化运维水平的提高,一个基础的运维人员维护成百上千台节点已经不是太难的事情,当然,这需要依靠于稳定.高效的自动化运维体系.本篇文章即是阐述如何利用 bitbucket pipeli ...

  2. 云计算示范项目_瑞松科技基于工业互联网的设备运维及工艺管理云平台成功入选2020年工业互联网试点示范项目...

    2020年12月28日,工业和信息化部发布2020年工业互联网试点示范项目名单公示,瑞松科技申报项目<基于工业互联网的设备运维及工艺管理云平台>成功入选试点示范项目平台集成创新应用方向,再 ...

  3. 如何从零构建你的自动化运维体系?——从制度到技术

    前记:所谓干一行爱一行,人生处处是<围城>这是人性,但在改变那一刻之前,自应全心全意研究本行,全心投入,不计回报,用心在当下,写到体系就像是前面所有博客的一个帽子,现在把他总结整理出来,希 ...

  4. 自动化运维-----项目实战: 基于Ansible的云平台自动化运维系统

    文章目录 项目实战: 基于Ansible的云平台自动化运维系统 一.项目介绍 1.项目介绍 2.项目背景 二.项目环境搭建 1.项目目录的配置 2.远程服务器虚拟环境的配置 3.MySQL数据库配置 ...

  5. 阿里巴巴超大规模 Kubernetes 基础设施运维体系

    作者:仔仁.墨封.光南 序言 ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施.ASI 基于阿里云公共云容器服务 ACK之上,支撑集 ...

  6. 从零搭建一个自动化运维体系

    作者简介: 胥峰,著有畅销书<Linux运维最佳实践>.译著<DevOps:软件架构师行动指南>,资深运维专家,有 11 年运维经验,在业界颇具威望和影响力.2006 年毕业于 ...

  7. 什么是 SRE?一文详解 SRE 运维体系

    可观测性系统 在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面: 指标监控:即各种指标监控,比 ...

  8. 阿里云化身“智能云管”,助力中国联通首次实现大规模平台自主运维

    中国联通阿里飞天平台运维团队首次实现大规模平台自主运维,阿里云 TAM 团队化身"智能云管",携手中国联通开启运维合作新模式. 近日,中国联通阿里飞天平台运维团队(以下简称&quo ...

  9. Soul运维总监尤首智:企业如何从0到1建设云上运维体系

    图:任意门运维负责人尤首智 编者按:2021年12月10日,在阿里云云上架构与运维峰会上,任意门(Soul)运维总监尤首智发表了主题为"Soul云上运维架构创新实践"的演讲,和大家 ...

最新文章

  1. 微信小程序浮动按钮_操作按钮悬浮固定在微信小程序底部的实现代码
  2. 深入理解Java虚拟机(一):Java内存模型
  3. Docker 镜像使用(拉取、查看、使用、删除)
  4. google+stackoverflow_解决stackOverflow打开慢的问题
  5. android 阅读器上下滑动_科研党利器——文石13.3寸墨水屏阅读器BOOX Max3
  6. 如何打造基于 markdown 的论文工作流程(一)
  7. 排队论模型(五): 有限源排队模型、服务率或到达率依赖状态的排队模型
  8. 域——windows服务器域详解
  9. http://www.feedsky.com/help_publishwidget.html
  10. 什么是生成器 — 一篇文章让你看懂
  11. 局域网或外网Nexus私服下载安装仓库使用整理(Linux环境)这一篇足够
  12. HTML中的表格及样式的设置
  13. 【论文简述】Multiview Stereo with Cascaded Epipolar RAFT(ECCV 2022)
  14. CodeForces 1300C Anu Has a Function
  15. 第9章 项目成本管理
  16. 【阿里云日志】查询指南
  17. 家具店面管理系统好处有哪些
  18. Spring 围炉夜话
  19. 【量化交易】股票价格前复权与后复权的区别以及注意事项
  20. html5导航栏悬浮置顶,jQuery+CSS3实现仿花瓣网固定顶部位置带悬浮效果的导航菜单...

热门文章

  1. xv6: a simple, Unix-like teaching operating system|Chapter 1 Operating system interfaces
  2. Java面试常见问题总结
  3. vue项目启动到一半卡住不动
  4. 2021年N1叉车司机考试报名及N1叉车司机免费试题
  5. java 事件驱动原理_浅谈事件驱动机制
  6. 恭贺CDGA认证学员91%顺利通过5月21日DAMA考试!
  7. 缓冲区溢出攻击与防范
  8. 一个简易的弹球小游戏
  9. 【C++ 将十六进制数转换为二进制数】
  10. 时空趋势理论 --- 超越时空的均线技术(转载 )