文章目录

  • 管理员指南
    • 管理员角色及权限
    • 常用管理软件
    • 维护项目总览
    • 首次维保项目
    • 每日和每周定期维护项目
  • 例行维护
    • 工具巡检
    • 人工巡检
    • 收集存储系统信息
  • 日常管理
    • 日常管理项目总览
    • 上下电存储设备
    • 管理存储系统访问权限
    • 管理告警通知
    • 监控存储系统性能
    • 管理存储系统基本信息
    • 管理License文件
    • 存储系统空间回收
    • 获取系统版本信息
    • 对接存储设备与第三方网管
    • 存储系统与应用服务器间的对接变更配置
  • 常用的运维工具
    • OcenStor ToolKit
    • eService

管理员指南

管理员角色及权限

  • 为了防止错误的操作影响到业务系统的稳定性及业务数据的安全性,系统通过级别和角色来控制用户的操作权限和范围。
  • 超级管理员:对存储设备有完全的控制权限,可以创建各级别的用户。
  • 管理员:对存储设备具有一定的控制权限,但不能进行用户管理、升级系统、修改系统时间、设备下电和重启设备等操作。
  • 只读用户:对存储设备只有访问权限。登录存储设备后,只读用户只能进行查询操作。

常用管理软件

  • 用户可通过DeviceManager和CLI管理界面对存储系统进行查询、设置、管理及维护。Toolkit和eService等可服务性管理工具能有效提升运维效率。运维管理软件能协助管理员对存储系统进行管理和监控。管理存储系统的常用软件如表所示。
  • DeviceManager是一款华为存储单设备管理软件,可以轻松便捷地配置、管理和维护存储设备。
  • CLI(Command Line Interface)提供命令行的方式对存储系统进行管理和维护,配置命令通过键盘输入,由程序编译执行。执行结果以文本或图形的方式回显在CLI操作界面。
  • Toolkit是所有IT工具统一的桌面端管理平台,包含了对IT设备进行部署、维护、升级等操作所需的各类工具,主要用于存储系统的日常维护。
  • eService是一款具备告警上报、文件上传和远程接入功能的专业服务工具。安装eService后,通过配置告警策略,eService可自动将与其相连接的存储设备告警上报到华为服务支持中心,华为维护人员根据告警严重程度和告警处理难度迅速制定处理措施,有效提高告警处理效率,节省客户时间和人力。

维护项目总览

首次维保项目

  • 通过维护项目及周期列表,系统管理员能够确认设备环境、设备状态的情况,如出现异常状态可及时进行处理和维护,确保存储系统持续健康运行。
  • 说明: 如未安装Toolkit或eService工具,请登录华为企业业务官网(http://enterprise.huawei.com),搜索并下载“OceanStor Toolkit”或“eService”软件包及操作指导文档,根据操作指导文档完成工具安装。

每日和每周定期维护项目

例行维护

工具巡检

  • 可以通过运维工具巡检设备的当前状态,实时掌握设备和网络的运行状况,了解设备和网络的运行趋势,提高维护人员对突发事件的处理效率。
  • 巡检存储设备:可以通过Toolkit或DeviceManager对存储设备进行巡检。
  • 巡检交换机:可以通过SmartKit工具巡检交换机,或者通过串口登录CLI用命令检查交换机的健康状态和运行状态。
  • 使用Toolkit进行巡检:当存储系统已安装“OceanStor Toolkit”巡检工具时,您可以通过巡检工具制定相应的巡检策略并对设备进行巡检,以便实时地了解设备的运行状态。
  • 使用DeviceManager进行巡检:通过检查告警列表中告警的详细信息和修复建议,可以帮助您修复存储系统的告警,保证设备和业务的正常运行。
  • 使用SmartKit巡检交换机:光纤交换机用于控制框间互连。您可以使用SmartKit工具检查交换机,了解交换机当前的运行状态。SmartKit工具下载请单击http://support.huawei.com/carrier/navi#col=software。
  • 使用CLI巡检交换机:当未安装巡检工具时,您可以通过CLI检查交换机的健康状态和运行状态。

人工巡检

  • 查看并处理告警:通过检查告警列表中告警的详细信息和修复建议,可以帮助您修复存储系统的告警,保证设备和业务的正常运行。
  • 检查存储系统运行环境:存储系统的运行环境满足业务需求是存储系统能够长期稳定运行的必要条件。
  • 检查指示灯:指示灯能够实时反映对应硬件设备的工作状态,通过检查指示灯可以帮助您迅速准确地判断各个硬件设备是否处于正常工作状态。
  • 检查设备运行状态:通过在存储系统侧以及DeviceManager管理界面上检查存储系统的运行状态,可以及时发现故障,保证存储系统正常运行。
  • 检查业务运行状态:通过在DeviceManager管理界面上检查业务运行状态,可以及时发现故障,避免业务中断造成数据丢失。

收集存储系统信息

  • 需要收集的信息项目主要包括基本信息、故障信息、存储设备信息、组网以及应用服务器信息。
  • 利用DeviceManager可以收集设备系统数据、告警和事件信息等。
  • 利用CLI可以备份或导入设备配置数据。
  • 利用Toolkit可以收集设备系统数据、档案信息、主机信息等。

日常管理

日常管理项目总览

  • 上下电存储设备:存储设备的上下电包括存储系统的上下电和接口模块的上下电。正确的上下电操作能防止因操作不当而导致设备损坏。
  • 管理存储系统访问权限:存储系统为确保存储设备和业务数据的安全,提供了安全策略调整、访问IP地址管控及用户管理三个维度的操作。
  • 管理告警通知:存储系统提供了远程发送告警通知的功能,本章介绍管理远程告警通知的方法,确保管理员及时接收和处理设备告警。
  • 监控存储系统性能:通过监控和查看性能监控数据了解系统的性能状态,并采用相关调优配置提高系统性能。
  • 管理存储系统基本信息:可以根据业务需求修改设备名称和系统时间等基本信息。
  • 管理License文件:License文件是使用各种增值特性的权限凭证,在设备的日常管理中,需要关注License文件是否可用,以避免License文件不可用导致无法使用增值特性功能。
  • 存储系统空间回收:当存储系统的全部或部分业务无需再运行,或者扩容的容量实际未使用时,可以对这部分空间进行回收,并利用这些空间运行新的业务,提高存储空间利用率。
  • 获取系统版本信息:用户可以通过DeviceManaer和CLI查询并了解当前存储系统的版本信息,以便在维护过程中能根据系统版本准确判断配套软件版本。同时,还可以通过CLI查询存储系统历史版本信息。
  • 对接存储设备与第三方网管:华为存储设备支持SNMP、SMI-S等协议接口,基于此用户可以通过第三方网管对存储设备进行管理。
  • 存储系统与应用服务器间的对接变更配置:存储系统与应用服务器间的对接部件变更后,需要在存储系统侧和应用服务器侧更改相关配置从而让应用服务器通过新的对接通道使用存储系统的存储空间。本章主要介绍更换HBA卡后的配置操作。

上下电存储设备

  • 重新启动存储系统,会导致存储系统上的业务中断,请谨慎操作。
  • 当机房发生火灾、烟雾、浸水等现象时,为保证您的人身安全或设备不受损坏,您需要对存储系统进行紧急下电。紧急下电存储系统,请按照用户机房安全用电准则进行断电。
  • 下电接口模块的前提条件为:该接口模块涉及的所有业务已经停止。

管理存储系统访问权限

  • 存储系统为确保存储设备和业务数据的安全,提供了安全策略调整、访问IP地址管控及用户管理三个维度的操作。
  • 配置安全策略:通过设置用户名策略和密码策略可以控制新创建帐号的用户名、密码的复杂度,设置登录策略可以锁定系统认定安全异常的帐号。
  • 配置可访问的IP地址:启用IP地址的安全性限制后,只有列表中的IP地址或地址段可以访问DeviceManager。只有超级管理员才能执行配置可访问的IP地址的操作。
  • 管理用户和访问权限:为了防止错误的操作影响到业务系统的稳定性及业务数据的安全性,存储系统定义了三种级别的用户,并对不同级别用户的操作权限进行了限制。

管理告警通知

  • 管理邮件通知:在日常运维过程中,业务的变化可能需要您及时变更备份SMTP服务器和接受告警通知邮箱地址。
  • 管理短信通知:在DeviceManager管理界面上可以根据需要设置告警通过短信发送到指定的手机上,使用户及时获知并处理存储系统出现的故障。
  • 管理Syslog通知:用户可以根据实际情况调整接收Syslog通知的服务器地址、接收通知的级别及类型。
  • 管理Trap告警通知:用户可以根据实际情况调整接收Trap告警通知的地址,存储设备的告警信息将被发送到服务器所指定的网管系统或存储设备。
  • 管理告警转储设置:设置告警转储功能后,当告警信息的容量达到系统设定的阈值时,将自动转储到指定的FTP服务器或SFTP服务器上。
  • 管理告警屏蔽:设置告警屏蔽后,您可以通过启用/禁用告警屏蔽来管理设备的告警信息不上报/上报至网管系统。

监控存储系统性能

  • 性能监控概述:性能是存储系统综合能力的体现。在业务运行阶段,通过对存储系统进行实时的性能监控、性能趋势分析等,使用户能够充分了解存储系统的性能表现。当出现性能问题时,可以根据性能监控数据进行分析定位。
  • 规划监控项:在不同业务场景下,用户需要关注并监控的性能指标。
  • 日常性能监控:在华为OceanStor V3存储上,可以通过存储系统管理软件DeviceManager和性能监控工具SystemReporter对存储系统进行日常性能监控,使用户充分了解存储系统的运行状态。
  • 性能问题定位:系统的性能是由系统中出现短板的环节决定的。在进行性能优化及问题定位时,首先需要明确系统当前所承载的业务场景,以及用户对性能的需求。其次以系统I/O路径为线索,确定性能问题所在模块。最后针对性能问题进行定位及调优处理。
  • 衡量存储系统性能的主要指标包括:
    • IOPS:I/O per second,即每秒钟可以处理的I/O个数,用来衡量存储系统的I/O处理能力。在数据库OLTP(Online Transaction Processing)业务、SPC-1认证等应用场景,通常以IOPS衡量系统的性能。
    • 带宽:每秒钟可以处理的数据量,常以MB/s或GB/s为单位,用于衡量存储系统的吞吐量。在数据库OLAP(Online Analytical Processing)业务、媒资业务、视频监控业务等应用场景,通常以带宽衡量系统性能。
    • 时延:发起I/O请求到I/O处理完成的时间间隔,常以毫秒(ms)为单位。常用指标包括平均响应时间和最大响应时间。例如,数据库OLTP业务一般时延要求10ms以下;VDI(Virtual Desktop Infrastructure)场景一般时延要求30ms以下;视频点播和视频监控的时延要求随码率的不同而不同。
  • 对于华为OceanStor V3存储系统,DeviceManager管理软件无需单独安装,用户通过维护终端的浏览器登录即可使用,通过DeviceManager用户可以查看存储系统实时性能监控数据、告警和功耗信息。相较于DeviceManager,SystemReporter需要安装后才能使用,但SystemReporter提供了更全面、更详细的性能监控和性能分析的信息。

管理存储系统基本信息

  • 设置系统时间:当存储系统的时间出现偏差时,需要修改存储系统时间,以便在出现告警时能根据告警日志准确地定位出设备告警产生的时间。通过该操作,可以同步客户端时间到设备、设置NTP自动同步或手动修改设备时间。

    • NTP(Network Time Protocol)是一种同步计算机系统时间的协议,它可以将计算机的系统时间同步到世界协调时UTC(Universal Time Coordinated)。支持NTP协议的服务器称为NTP服务器。
    • 通过同步客户端时间,可以将存储系统时间调整为和客户端时间一致。
    • 通过设置NTP自动同步,可以将NTP服务器作为外部时间源,定期、自动地同步到设备。
  • 修改设备名称和位置信息:通过该操作,可以设置设备的名称和设备所在地理位置。

管理License文件

  • 浏览已激活License信息:在使用增值业务前,需要查看已激活License文件以确保该功能的License文件可用。
  • 备份已激活的License文件:当设备激活的License文件出现问题后,可以重新导入备份的License文件进行使用。

存储系统空间回收

  • 回收存储系统空间:当存储系统的全部或部分业务无需再运行,或者扩容的容量实际未使用时,可以对这部分空间进行回收,并利用这些空间运行新的业务,提高存储空间利用率。
  • 空间回收分为全部回收和部分回收两种。
  • 实施空间回收前,需要完成主机和存储设备运行状态检查、磁盘信息备份等准备工作,确保空间回收过程能顺利实施。
  • 空间回收应急回退:在空间回收过程中如果遇到回退异常或故障,可以进行应急回退。
    空间回收应急回退涉及全部回收和部分回收两种场景。
  • 单盘数据销毁:当不再需要某个硬盘上的数据时,可以对该硬盘进行单盘数据销毁。
  • 执行该操作后,被删除的数据将无法进行恢复,以保证数据的安全性。只有对未加入硬盘域的加密硬盘才能执行数据销毁操作。

获取系统版本信息

  • 获取系统当前版本信息:用户可以通过DeviceManager查询并了解存储系统当前版本信息。
  • 获取系统历史版本信息:用户可以通过CLI查询并了解存储系统的历史版本信息。

对接存储设备与第三方网管

  • 华为存储设备支持SNMP、SMI-S等协议接口,基于此用户可以通过第三方网管对存储设备进行管理。
  • SMI-S:通过将SMI-S provider安装到第三方的Windows/Linux服务器上,用户可以通过SMI-S provider对华为存储系统进行管理。
  • SNMP:第三方网管可以通过SNMP协议查看存储设备的信息,如LUN、端口和存储池等信息。
  • vCenter:OceanStor VMware vCenter Plug-in(简称vCenter插件)是一款基于vSphereWeb Services SDK (Software Development Kit)开发的存储管理插件,用以实现通过vSphere客户端对华为存储设备进行管理。
  • System Center:Storage Microsoft System Center Plug-in是华为技术有限公司基于微软SCOM(System Center Operations Manager)开发的一款插件,用于导入SCOM后对华为存储设备进行监控。
  • REST:RESTful API是OceanStor DeviceManager提供的基于REST(Representational StateTransfer)标准的开放接口。第三方开发者能使用RESTful API授权访问OceanStorDeviceManager开放的资源,例如:告警查询、性能监控、资源分配等。
  • 更多信息:请登录华为企业业务网http://enterprise.huawei.com,搜索并下载配套的最新文档

存储系统与应用服务器间的对接变更配置

  • 存储系统与应用服务器间的对接部件变更后,需要在存储系统侧和应用服务器侧更改相关配置从而让应用服务器通过新的对接通道使用存储系统的存储空间。
  • 当更换主机的HBA卡后,在存储系统侧和主机侧进行相关的配置,使得更换后的HBA卡能正常使用。配置更换后的HBA卡前,需要完成主机多路径和磁盘信息备份、存储设备运行状态检查等准备工作,确保空间配置过程能顺利实施。
  • 更换HBA卡后,如果在主机侧或存储侧的配置操作过程中遇到异常或故障,可以进行应急回退

常用的运维工具

OcenStor ToolKit

  • OceanStor Toolkit是由华为技术有限公司开发的可服务性工具,它是所有IT工具统一的桌面端管理平台,其内置的工具Store能够实现工具的快速下载、安装或升级,并能够自动检查已安装的工具是否需要升级。
  • Toolkit中包含了对IT设备进行部署、维护、升级等操作所需的各类工具,能够帮助服务工程师、维护工程师在上述过程中对设备进行精准操作,降低操作难度、提升工作效率。
  • 存储产品的运维工具Toolkit,一站式管理各种运维场景使用的工具,提升对产品的部署、日常维护、升级等各种服务作业的效率和降低操作难度。
  • 由于维护作业存在操作权限和专业技能要求,工具设置有权限管控,具体工具权限请咨询技术支持工程师。
  • 您可以通过http://e.huawei.com搜索获取OcenStor ToolKit工具相关的产品文档。

eService

  • 传统的服务支持方式为全人工本地服务,在故障发现环节,技术服务人员面临着问题发现不及时、信息传递不到位的挑战。当设备出现故障时,eService提供的告警上报功能可以将故障信息全部及时传输到华为技术支持中心,缩短了故障发现和处理的时间,满足了企业当前的迫切需求。
  • eService部署在客户提供的服务器上,用于接收设备告警信息并发送至华为技术支持中心,同时支持上传设备的日志和巡检报告等文件到华为技术支持中心。
  • 您可以通过http://e.huawei.com搜索获取eService工具相关的产品文档。

数据中心存储日常运维【13】相关推荐

  1. 数据中心实现高效运维的秘诀

    随着2017年中国"量子卫星""量子计算机"等重大科研技术的突破,2018年云计算进入2.0的飞速发展时代,智慧城市信息化建设.应用数据量的井喷,使数据中心基础 ...

  2. 数据中心管理与运维的问题与对策

    公众号回复:干货,领取价值58元/套IT管理体系文档 公众号回复:ITIL教材,领取最新ITIL4中文教材 更多专业文档请访问 www.itilzj.com 01 数据中心管理与运维存在的问题 近几年 ...

  3. IDC数据中心T5机房运维网络架构师谈论服务器机房运维

    IDC数据中心T5机房运维网络架构师谈论服务器机房运维 行业服务器机房建设运维该如何定夺? 随着互联网浪潮一波又一波的推进,整个市场格局被改写. 这块巨大的面包吸引了越来越多的传统线下行业加入其中. ...

  4. DELL SCv3020存储日常运维

    DELL SCv3020日常运维 LUN 卷扩容 在日常运维中,例中需要给Volume LUN扩容的操作如下,例如当前的volume 名称为 test ,当前是3GB 需要扩容到4GB 操作步骤如下: ...

  5. 数据中心的敏捷运维之路

    随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心.这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备.防火墙.负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并 ...

  6. 机房运维很枯燥?来看看中国银行数据中心基础设施可视化运维管理

    谁说高大上的机房不能炫!设备环境团队联合运营平台研发.网络.系统三.系统二等团队,历经一年的时间.7轮次需求细化讨论.11次版本更新,精雕细琢.倾尽洪荒之力打造了中国银行数据中心基础设施可视化平台!这 ...

  7. 平安数据中心高可用运维白皮书

    资料免费送(点击链接下载) 史上最全,数据中心机房标准及规范汇总(下载) 数据中心运维管理 | 资料汇总(2017.7.2版本) 加入运维管理VIP群(点击链接查看) <数据中心运维管理> ...

  8. 数据中心如何提高运维效率?数据中心综合能效管理解决方案——安科瑞 严新亚

    1.概述 安科瑞电气紧跟数据中心发展形式,推出AcrelEMS-IDC数据中心综合能效管理解决方案,包含有电力监控.动环监控.消防监控.能耗统计分析.智能照明控制以及新能源监测几个子系统.集成了变配电 ...

  9. 数据中心UPS供电系统运维常见的人为故障类型

    华纳云想告诉大家的是数据中心供电系统的可靠性是至关重要的.可想而知,无论IT设备多么精密.系统的功能多么优越.可靠性多么高,一旦停电,再好的系统也无法运转.所以对运行中设备维护保养的重要性不可忽视,可 ...

最新文章

  1. html5设置文字不能复制,网页文字不能复制?巧解网页文字不能复制
  2. 三十五、数据仓库的设计和应用
  3. 编写python程序_如何进行Python程序的编写
  4. 如何编译 dotnet/aspnetcore 源代码
  5. mysql already closed._java.sql.SQLException: Already closed.
  6. 第十三题:子类要调用继承自父类的方法,必须使用super关键字。
  7. 【LeetCode - 32】最长有效括号
  8. 文件夹错误 分配句柄_重启数据库遇到错误ORA27154,ORA27300,ORA27301,ORA27302
  9. C++socket编程(九):9.1 UDP实战Syslog服务器
  10. 6426C Lab2 部署和配置证书服务
  11. i.e., e.g., etc.
  12. zabbix计算型监控项函数last_面试官:如何用zabbix实现监控linux服务器进程使用率...
  13. MacOS Big Sur 11.4 (20F71) OC 0.7.0 / Cl 5135 / PE 三分区原版黑苹果镜像
  14. 寻找成功人生的方向-在新东方听讲座的感悟
  15. 使用npm和命令行强制删除文件
  16. 奉劝各位学弟学妹们,该打造你的技术影响力了!
  17. (五)作业Job和实例Instance | 普罗米修斯(Prometheus)
  18. OBS Classic经典版已经不再支持
  19. python动物专家系统_动物识别专家系统 实验报告
  20. 无限分类左右值实现算法

热门文章

  1. 出国旅游入乡随俗 看看各国怎么付小费
  2. 第三十二篇、基于Arduino uno,获取光敏电阻传感器的原始值和光照强度——结果导向
  3. #实验吧整理#拐弯抹角小结
  4. 一直CRUD,简历该怎么写亮点
  5. 学院培养层次专业班级联动
  6. 面食窗口的API设计之道
  7. 解决ValueError: (‘Unrecognized keyword arguments:‘, dict_keys([‘ragged‘]))
  8. 环球市场买家顾问实习生
  9. springboot-banner
  10. C语言:一维数组题目:小明摘苹果问题: