众所周知,企业的应用系统在线处理大量的数据,随着数据量的不断加大,如果都采用传统的在线存储方式,就需要大容量本地一级硬盘。这样一来一方面投资会相当较大,而且管理起 来也相对较复杂;另一方面由于磁盘中存储的大部分数据访问率并不高,但仍然占据硬盘空间,会导致存取速度下降。在这种情况下,层次化存储管理软件,或称为数据迁移软件,可以在性能和价格间作出最好的平衡。这就是本文要与大家讨论的分级存储管理(HSM)。首先来了解一下分级存储中所涉及的三种存储方式。
    
一、  三种存储方式

所谓分级存储,就是根据数据不同的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在这里就涉及到几种不同性能的存储设备和不同的存储形式了。
    目前常用于数据存储的存储设备主要有磁盘(包括磁盘阵列)、磁带(包括磁带机和磁带库)和光盘(包括一切CD-R、CD-RW、DVD-R、DVD-RW等光盘塔和光盘库设备)。从性能上来说,磁盘当然是最好的,光盘次之,最差的是磁带。而从价格上来说,单位容量成本上升磁盘最贵、光盘次之,磁带最低。这就为我们不同的应用追求最佳性价比提供了条件,因为这些不同的存储媒介可应用于不同的存储方式中。这不同的存储形式包括在线存储(OnStore)、近线存储(NearStore)和离线存储(OffStore)。
    在线存储
    在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线”状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如我们PC机中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为磁盘和磁盘阵列等磁盘设备,价格相对昂贵,但性能最好。
    离线存储
    离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。
    近线存储
    所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。
    在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。

二、  分级存储的必要性和主要优点

今天企业的数据中心非常复杂,数据保护是其关键。但是,并非所有的数据都具有同样的价值,也并非所有的企业都具有同样的需求。的确如此,通常认为企业中的关键和非关键数据量也符合“二八原则”,就是只有20%的关键数据,而80%都是非关键的。系统中60%至80%的数据经常在一个月,甚至一年中都不会被访问。而在经常访问的数据中,重要性差别也十分突出,有的数据与用户的业务联系紧密,可靠性、可用性及性能要求都很高,有的尽管经常使用但是与业务联系不是特别紧密。一般来说,重用数据的概率自数据创建3天之后就会下降50%,当数据创建30天后,重用的概率通常会降至很低,而高达90%的数据超过90天后就不会或很少被读取。为了提供良好的数据保护,IT部门通常都保留巨大的空余空间,用以防止出现容量不足的现象。
    IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件,用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。之所以要采取分组存储,是因为它既能最大限度地满足用户随时访问所有需要经常使用的数据,又可使存储成本最小化。综合起来,可以得出分级存储的优点主要体现在以下两个方面:
    1、  减少总体存储成本
    在传统的在线存储中,所有数据都存储在一线磁盘存储设备上,而由于绝大多数数据的访问率并不高,占住了大量宝贵的磁盘空间,在一定程度上是一种浪费。如果把这些数据转移到存储性能稍低的磁盘(如IDE或SATA接口磁盘)或光盘存储设备上,存储成本可得以大幅降低。
    2、  提高整体系统性能
    由于绝大部分数据转移到下级存储设备上,那需要时刻保持在线的数据就少了,系统资源的占用也就少了许多,整体系统性能自然也就提高了。如果采用了离线存储方式对很少使用的数据保存在像磁带这样的离线存储媒体上时,则不仅可提高系统性能,还可确保数据的安全性。
   
三、  分级存储的管理
    分级存储管理(Hierarchical Storage Management,HSM)就是要将用户拥有的所有存储资源统一管理,提高每种存储设备的利用率,节约了成本。在分级存储中,存储的分级是十分明显的,仅从设备上说,就有磁带机、磁带库、NAS、中低端盘阵、高端存储系统等等。而且在线、近线与离线存储存放的数据价值不同,如何根据用户数据的不同价值合理利用好每种存储资源是一个不小的挑战。
    分级存储管理起源于1978年,首先使用于IBM的大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。其中最关键的技术就是近线存储和数据迁移技术。
    分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。
    HSM应用也具备监测磁盘容量并在关键容量情况下做出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,当达到这个极限后自动向用户发出警告,提示用户或自动进行数据迁移。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。
    由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。

转载于:https://blog.51cto.com/fangtsm/127346

解析分级存储管理(HSM)相关推荐

  1. 浪潮HF系列闪存存储:不仅看性能,更看整体表现

    背景:浪潮HF系列闪存存储是IT融合架构的基础,可支持核心数据库业务应用.服务器和桌面虚拟化架构.消息协同环境,并适应Microsoft.VMware.Citrix.Oracle.SAP.CISCO. ...

  2. NT内核和驱动开发的基础知识-笔记

    这是我在学习NT内核和驱动开发的基础知识时记录的一些笔记,不是连续的教程,欢迎指正错误的地方 ----------------------------------------------------- ...

  3. 操作系统--二级存储结构下篇知识详解

    操作系统--二级存储结构下篇知识详解 三级存储结构 三级存储结构 n Low cost is the defining characteristic of tertiary 低成本是第三产业的决定性特 ...

  4. 存储知识:数据一致性、分级存储、分层存储与信息生命周期管理

    一.概述 数据一致性是指关联数据之间的逻辑关系是否正确和完整.问题可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致.比如一个事务操作,实际发出了五个写操作,当系统把前面三个写操 ...

  5. 基于半衰期的分级存储

    前言 随着大数据时代的到来,数据量的膨胀式发展,对数仓建设提出的新的挑战和要求,为了实现资源的合理化配置和利用,提高资源使用率,通过半衰期的分级存储,应用于数仓建设,可以在一定程度上解决资源配置不合理 ...

  6. 存储调研:GPFS并行文件系统原理解析

    1.GPFS历史背景及发展 GPFS(General Parallel File System)是IBM公司推出的行业领先的并行分布式通用并行集群文件系统,GPFS从1993开始研发,1995年投入商 ...

  7. 2012年信息系统项目管理师下半年上午考试习题与答案解析

    2012年下半年上午考试习题与答案解析 1.某信息系统项目采用原型法开发,以下做法中不正确的是(1) A.前期花足够的时间与客户充分沟通,完全明确需求后再开发实现 B.系统分析.设计和实现工作之间不做 ...

  8. IBM李永辉:从人工智能到大数据的终点

    ZDNet至顶网软件频道消息:人工智能技术在大数据领域发挥的作用日益重要,IT技术人员对IBM Waston的兴趣也与日俱增.近日,IBM科技部的杰出工程师李永辉参加了2014年中国大数据技术大会 , ...

  9. MyCat —— 性能最好的数据库中间件

    课程介绍 1. MyCat简介 1.1 MyCat 引入 如今随着互联网的发展,数据的量级也是成指数式的增长,从GB到TB到PB.对数据的各种操作也是愈 加的困难,传统的关系性数据库已经无法满足快速查 ...

  10. DAS、NAS、SAN三种存储架构

    目前磁盘存储市场上,存储分类(如下表一)根据服务器类型分为:封闭系统的存储和开放系统的存储,封闭系统主要指大型机, AS400 等服务器,开放系统指基于包括 Windows . UNIX . Linu ...

最新文章

  1. LNMP架构详解(2)——Mysql、PHP、Nginx源码编译过程
  2. BugkuCTF web3
  3. javaSE各阶段练习题--初识Java章节
  4. matlab mandrill,MATLAB】MATLAB的自带数据及可生成数据的函数
  5. apache.camel_Apache Camel 2.21发布–新增功能
  6. Keras requires TensorFlow 2.2 or higher怎么办?
  7. 诗与远方:无题(一)
  8. 【亚伦博客】我们勇敢的审查者
  9. SQL 判断表是否存在
  10. 松下plc安装序列号afpsgr7_松下fpwin gr7下载 Control FPWIN GR7(松下plc编程软件) v2.21 中文安装版(附序列号) 下载-脚本之家...
  11. 【渝粤题库】陕西师范大学201041德育论 作业(专升本)
  12. 圆柱体积怎么算立方公式_圆柱体积公式怎么算
  13. 洛谷 P1957 口算练习题 题解 字符串 C/C++
  14. 2021-04-30
  15. Error Domain=AVFoundationErrorDomain Code=-11841 (null) timeRange 和 duration 不一致
  16. ROS机器人021-机器人命令行发送cmd_vel话题及/cmd_vel geometry_msgs/Twist示例
  17. 流浪日记无限金币html,流浪日记无敌版金钱版
  18. 1267 'Illegal mix of collations (latin1_swedish_ci,IMPLICIT) and (utf8_gener
  19. Finding Your Better Half
  20. 【问题解决】ESP32报错:make: xtensa-esp32-elf-gcc: Command not found

热门文章

  1. [js高手之路]设计模式系列课程-委托模式实战微博发布功能
  2. Windows 下 tail 查看日志命令工具
  3. 【云计算】docker registry v2简介
  4. Build Apache Module
  5. D.579 - ClockHands
  6. Oracle10g expdp impdp
  7. C++中static的用法
  8. python大牛是什么水平_yield--Python大牛必须掌握的高端语法
  9. Mybatis的xml映射文件,sql的模糊查询的实现(两种方式)占位符拼接,concat关键字
  10. java 三子棋_java三子棋,高手帮忙