随着Filecoin存储体量的不断增加,“运维”的重要性在这个行业里也愈发凸显。如何将每个环节的各种因素变得可控:一方面需要对硬件环境进行预检措施,以高效应对突发事件;另一方面也需要通过规范的业务部署,确保集群的稳定性,协调集群间的调动和需求。

对于运维交付中硬件预检的问题之前已经跟大家分享过,今天小冰主要通过具体的实例来给大家讲解运维交付中业务部署的相关内容:

一、首先,根据项目规划进行逻辑集群的划分,这部分包含我们逻辑集群划分的最佳实践。

二、其次,进入正式的业务部署,我们将依托自主研发的自动化部署工具,详细的讲解业务部署步骤以及部署中的注意事项。

三、最后,在业务部署完成后,分享我们业务验证的逻辑和方法。

交付计划

在我们进行业务规划之前,首先需要知道我们需要交付多少算力,多少存储,运行时长等信息。然后根据算力和存储量来进行交付规划。要做好规划有几个关键词需要注意:扇区大小、封装时间、日封装量。

说到规划,需要先了解各个程序的功能,见下面的名词解释:

※名词解释

·链

Chain:负责对外算力证明及高度同步。

·算力

Manage:算力调度程序,控制一组算力服务器的运行的进程数。

P1 P2:算力服务器,提供封装数据的算力支持和结果输出。

·证明

WindowPost:Wind证明,半小时一次,主力创收程序。

WinningPost:Winn证明,随机执行,创收程序。

·存储

Worker:存储中间件,一组或多组存储集群的中间件程序,负责保存扇区文件。

Storage:存储集群,负责扇区文件的保存,通常是一组存储集群,一般由10~20台存储服务器组成。

※规划流程图

※流程说明

1. 首先我们需要确定日封装量,这是我们规划的基础。

2. 根据IDC的资源情况(算力机、管理机、存储)决定在哪个IDC部署。

3. 根据日封装量确定算力机的数量。

4. 确定算力机的数量后,开始规划链服务器。

5. 规划管理机(Manage)的数量。

6. WinningPost和WindowPost各一台。

7. 根据1月内的封装量确定WindowPost要不要做1主1备还是共用现有备机。

8. 规划存储使用,Worker一般在初次部署的时候,都只会规划1台Worker:

→ 优先选择存储余量大的存储。

→ 优先选择写入挂载次数少的存储。

业务部署

在介绍业务部署之前,必须要先说一下我们用到的工具,一次部署上百台服务器没有工具辅助是不可以能的;在部署之前还需要进行一系列的例行检查和准备。然后才真正开始我们的部署流程,下面从会用到的工具开始逐一介绍:

※工具简介

堡垒机:方便我们对资产进行管理,远程连接和命令分发还有权限控制,是运维工作中必不可少的工具。如果需要了解更多,请自行百度,这里不再详细讲解。

Ansible:Linux下的自动化工具,批量任务执行的不二之选,极大的减少运维人员的工作量。它实现了批量系统配置、批量程序部署、批量运行命令等功能。如果需要了解更多,请自行百度,这里不再详细讲解。

※部署前的准备及检查

·准备项

获取涉及部署所有服务器的IP地址。

编写Ansible的Playbook文档,以便批量初始化和部署应用 。

·检查项

网络情况:所有相关的服务器是否能连接并执行命令。

操作系统版本:程序都是在Ubuntu上编译的,运行环境必须是在Ubuntu上运行才能保证最佳稳定性。

硬件基本配置:会不会有掉盘掉显卡或者CPU没有开启超线程等异常情况。

存储是否能正常访问。

※部署流程

·部署细节

链程序-Chain

部署完成以后一定要记得导入钱包。

算力-Manage

封装的扇区分为32G和64G,在配置的时候需要特别注意。

PreCommit(P1 P2)

同一个Manage集群下的显卡型号是否一致。

证明程序-WinningPost和WindowPost

存储目录是否正常挂载。

存储-Worker

启动前检查存储的挂载情况,需要挂载后在启动脚本中修改相关配置,再启动程序脚本,需要根据集群规模和Worker服务器的网络带宽来确定运行几个进程。

部署质量验证

※链程序运行情况

1. 检查链高度是否能正常同步。

2. 检查是否能正常生成api和token。

3. 检查日志,看是否报错。

4. 检查Keepalived和Proxy是否工作正常。

5. 检查钱包是否导入。

※算力运行情况

1. 检查是否有关联账户。

2. 检查日志是否有异常报错。

3. 当第一轮扇区任务到Commit2阶段时,查看日志是否有报错。

4. 查看算力机是否有任务失败。

5. 检查PreCommit2和Commit2是否上链。

※证明程序运行情况

1. 查看是否关联账户。

2. 检查存储的挂载情况。

3. 查看Winn和Wind日志是否有异常。

4. 在有扇区完成后,进行Wind预做,查看是否能正常证明算力。

5. 有效算力达到40T后,查看Winn是否有包块和包块后是否上链。

※存储运行情况

1. 检查Worker日志是否有报错信息。

2. 查看存储目录是否有扇区文件。

3. 传输带宽是否正常。

结尾

Filecoin复杂的证明系统和经济模型要求集群需要7*24小时不间断运转,一旦集群出现故障将会面临着算力丢失或罚没的风险。雅典娜云池规范化的运维流程可以理清业务脉络,通过优化升级提高集群的效率和稳定性,保证Filecoin网络的稳定和长久。此外,雅典娜云池的运维工程师们根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行,通过工具化、流程化的作业方式,充分发挥Filecoin硬件设备的性能。

服务器硬件和算力,硬件科普Filecoin运维交付之业务部署相关推荐

  1. 手机淘宝:亿级用户APP的快速运维交付实践

    作者简介: 倪生华 淘宝网  资深技术专家 花名玄黎,12年加入淘宝无线事业部,经历了手淘从几十万日活到现在亿级日活的过程,一直负责手淘端研发运维等工程效率相关的工作,团队负责开发的支撑体系,很好的解 ...

  2. 自动化运维工具SaltStack详细部署

    2019独角兽企业重金招聘Python工程师标准>>> 自动化运维工具SaltStack详细部署 2014-12-28 17:30:34 标签:saltstack 原创作品,允许转载 ...

  3. 自动化运维工具Ansible详细部署 - 人生理想在于坚持不懈 - 51CTO技术博客

    自动化运维工具Ansible详细部署 - 人生理想在于坚持不懈 - 51CTO技术博客 自动化运维工具Ansible详细部署 - 人生理想在于坚持不懈 - 51CTO技术博客 自动化运维工具Ansib ...

  4. Ansible自动化运维工具介绍与部署

    ansible自动化运维工具介绍与部署 文章目录 一.什么是自动化运维? 二.常用的自动化运维工具 2.1 Ansible 2.2 SaltStack 2.3 Puppet 2.4 三种自动化工具特点 ...

  5. 我们做了一款无网远程运维的智能硬件,坐等运维工程师“翻牌”

    运维工程师在远程维护时会碰到这样的突发情况:网络崩溃,主机不能联网,无法远程控制主机来排查故障,除了亲临现场别无选择.日常维护中,也经常出现主机上无法安装远程软件,软件与系统不能兼容等,导致无法进行远 ...

  6. linux硬件性能,Linux运维知识:Linux下的硬件性能测试工具汇总

    本文主要向大家介绍了Linux运维知识的Linux下的硬件性能测试工具汇总,通过具体的内容向大家展现,希望对的大家学习Linux运维知识有所帮助. 在购买计算机之后,我们都希望能充分了解它们的硬件性能 ...

  7. 从零开始的Nginx [ 8 ] --- nginx 的性能优化:ab接口压力测试工具,tomcat企业运维,WEB站点部署,项目上线

    文章目录 nginx 性能优化 1.当前系统结构瓶颈 2.了解业务模式 3.性能与安全 4.系统与nginx性能优化 1.文件句柄 2.设置方式 3.系统全局性修该和用户局部性修改 4.进程局部性修改 ...

  8. 大数据虚拟化零起点-4基础运维第三步-部署vCenter Server Virtual Appliance 5.1

    在大数据虚拟化零起点基础运维第二步中,我们完成了vSphere5.1的安装.接下来,我们可以开始第三步--部署vCenterServer Virtual Appliance 5.1. 在开始部署之前, ...

  9. 自动化运维工具Ansible详细部署

    一.基础介绍 ================================================================================= 1.简介 ansibl ...

最新文章

  1. 根据经纬度批量计算多个点到多个点之间的距离
  2. Matlab中设置图形窗口的大小、字体、axis等
  3. App推广中如何寻找200个以上渠道
  4. html可以有多个main吗,main和div
  5. ResourceLoader 获取资源
  6. List-存储原理(quicklist)
  7. go连接mysql集群_什么是MySQL集群-Go语言中文社区
  8. android自动让输入框上划,Android界面技巧:当输入法调出时,如何让界面自动上移,使输入法不会遮挡到主界面(Activity)...
  9. 移动端使用页尾文字使用绝对定位遇到input框会飘起来的处理方案
  10. MacOS 升级后出现 xcrun: error: invalid active developer path, missing xcrun
  11. 中央音乐学院计算机研究生,2020北京中央音乐学院硕士研究生招生复试电子音乐作曲、电子音乐技术理论等考生须知...
  12. 大数据分析常用的方法有哪些
  13. (四) Docker 常用帮助命令
  14. IAR for ARM系列教程(一)_新建软件工程详细过程
  15. Drool的学习资料
  16. Php把ts转为mp4,ts格式转换mp4 - 狸窝
  17. 软考计算机英语词汇,软考计算机专业英语常用词汇(首字母I-O)
  18. android棒棒糖,Android L正式定名Lollipop(棒棒糖)
  19. 软件分享之博文收藏记录
  20. 网易云课堂Java应用基础:入门篇

热门文章

  1. ElasticSearch客户端注解使用介绍
  2. 第五章:配置使用FastJson返回Json视图
  3. 网络安全初创公司SafeBreach获1500万美元A轮融资
  4. AlfaLaval公司采用低速通风技术冷却数据中心
  5. Hibernate问题浅析
  6. Jenkins部署Web项目到远程tomcat
  7. django时间问题和时区设置
  8. python内置函数多少个_每个数据科学家都应该知道的10个Python内置函数
  9. HTML和CSS面试问题总结,html和css面试总结
  10. android 字符串特殊字符转义