重复数据删除技术能够识别重复的数据,消除冗余,减少需转移或存储的数据的总体容量。在本文中,我将分别对这两种技术加以评论。与块级技术相比,字节级删除技术对数据的检查更加细微,精度更高,但同时需要更加了解备份流,才能完成任务。

块级技术

块级重复数据删除技术将数据流分割成块,检查数据块,并判定之前是否碰到相同的数据块(通常对每个数据块执行散列算法,形成数字签名或独特的标识符)。如果数据块是唯一的,就被写入磁盘,其标识符也存入索引中;否则,仅存入指针,指向存储相同数据块的原始位置。这种方法用小容量的指针替代重复的数据块,而不是将重复数据块再次存储,这样就节省了磁盘存储空间。

块级技术的缺点为:1)利用散列算法计算独一无二的ID,可能产生错误;2)将唯一的ID存入索引中,当索引扩大,需要磁盘I/O时,检查过程就会变慢(除非控制索引大小,在存储器中完成数据比较工作)。

利用散列算法判断重复数据时,散列之间的冲突可能引发错误。MD5、SHA-1等散列算法都是针对检查的数据块,形成唯一的编码。虽然有可能发生散列冲突和数据损坏,但几率较小。

字节级重复数据删除

从字节级别上分析数据流是重复数据删除的另外一种方法。将新数据流和已存储的数据流挨个比较字节,能够实现更高的精度。使用这种技术的重复数据删除产品具有一个共同点:可能之前已见过流入的数据流,因此就会检查其是否与之前接收的数据相符。

采用字节级技术的产品通常能“识别内容”,也就是说,供应商对备份程序的数据流执行了逆向工程,从而了解如何检索文件名、文件种类、日期/时间戳记等信息。在判断重复数据时,这种方法能够减少计算量。警告呢?这种方法通常在后处理阶段发挥作用——备份完成后,判断备份数据是否重复。因此,需要备份整个磁盘的数据,必须具有磁盘缓存,才能执行重复数据删除过程。而且,重复数据删除过程可能仅局限于某个备份组的备份数据流,而不是应用到整个备份组中。

完成了重复数据删除过程后,字节级技术能收回磁盘空间。在收回空间之前,应执行一致性检验,以保证删除重复数据以后,仍能满足原始数据的目标。保留最后一次的完全备份,这样恢复过程就不必依赖重构后的数据,加快恢复过程。

哪种方法效果最佳?

块级和字节级删除技术都能优化存储容量。针对你的备份环境及其需求,核定执行删除过程的时间、位置和方法,然后再决定选择哪种方法。核定内容还包括:参考那些与你的公司具有相似特征和需求的公司。

作者:佚名
来源:51CTO

重复数据删除:块级技术VS.字节级技术相关推荐

  1. 重复数据删除技术概述

    重复数据删除技术概述 一.   重复数据删除的分类 1.       源端重复数据删除和目标端重复数据删除 源端消重在数据源进行,传输的是已经消重后的数据,能够节省网络带宽,但会占用大量源端系统资源. ...

  2. 网络云存储技术Windows server 2012 (项目七 存储服务器重复数据删除的配置与管理)

    网络云存储技术Windows server 2012 (项目七 存储服务器重复数据删除的配置与管理) 目录 前言 一.项目背景 二.项目实训题: 1.在SRV1创建一个10G的逻辑硬盘,开启文件级重复 ...

  3. Hyper-v Server重复数据删除技术

    Hyper-v Server重复数据删除技术 老衲听说windows Server 2012中新增了一项技术叫做重复数据删除,据说这个重复数据删除可以大大的节省磁盘的空间,下面我们来看看什么是重复数据 ...

  4. 重复数据删除(De-duplication)技术研究

    http://godchenmeng.iteye.com/blog/752567 继续推荐刘爱贵同学的重复数据删除dedupe 转载于:https://www.cnblogs.com/cloudsto ...

  5. 深入理解数据压缩与重复数据删除

    原文地址:http://blog.csdn.net/liuaigui/article/details/6324133 [导读] 数据压缩与重复数据删除两种技术有何区别与联系呢?实际中又该如何正确应用呢 ...

  6. 内置虚拟化,自动分层,重复数据删除,固态硬盘,IBM Storwize V7000亮点解析

    最近IBM 新一代中端虚拟存储产品Storwize V7000在业内反响挺大,Storwize V7000是一款被IBM寄予厚望的产品,在发布这款新品之前,IBM特意为其制作了具有强烈神秘感的广告,并 ...

  7. 重复数据删除和压缩处理

    重复数据删除和压缩处 新版本将数据保存在HCP上,它在这里可以得到安全地保护,而不是被发布到BYOD设备中. 用户们可以将文件保存到他们的HCP Anywhere文件夹中,然后那些文件就会自动被同步到 ...

  8. c++删除数组中重复元素_PG13中的功能—B树索引中的重复数据删除

    PostgreSQL 13 Beta 1版本于2020年5月21日发布,PostgreSQL 13 Beta 2版本于2020年6月25日发布.虽然Beta 版本中依旧包含一些错误,但是它总是几乎涵盖 ...

  9. EMC升级Celerra 支持闪存及重复数据删除

       WatchStor独家译文]虽然在上周接受采访时,EMC公司存储部门总裁David A.Donatelli就表示EMC近期将发布大量新品,但直到美国时间上周末,EMC才正式发布了其升级Celer ...

最新文章

  1. 云计算是数据分析的最佳场所吗?
  2. Java.lang.Boolean类
  3. 【SQL】存储过程procedure 触发器trigger
  4. wpspbc按钮是什么意思_AC只是英文单词缩写,在科技领域常见的有三种意思
  5. 以后给孩子起名字不用发愁了,先存着
  6. python书籍推荐1001python书籍推荐_Python之codebook笔记
  7. 杰里之echo 衰减系数调节【篇】
  8. 超清楚!麦克风阵列学习笔记(一)——线性麦克风阵列的时间延迟Beamforming算法(Time-Delay Beamforming of Microphone ULA Array)
  9. C++实现推箱子游戏
  10. 地质勘查土质分类图片_土的工程地质分类及各类土的工程地质性质.pdf
  11. 【牛客网】马三来刷题之回文解码(今日头条2017年客户端实习在线笔试题)
  12. 1等于0.循环9吗?
  13. sdnu 1078
  14. MacOS查找各Python版本的路径
  15. SystemVerilog学习-10-验证量化和覆盖率
  16. 阿里云超级码力第二场记录
  17. HTML页面如何判断是手机访问还是电脑访问
  18. 《数据可视化基础》读后感
  19. php mmseg,中文分词软件 LibMMSeg
  20. 压力集 软件测试,性能测试之压力机

热门文章

  1. Shell语法—— while 条件语句
  2. spring集成RabbitMQ配置文件详解(生产者和消费者)
  3. UGUI事件之Drag拖拽事件
  4. 解决问题的策略-分而治之
  5. IIS 日志文件位置
  6. 漫水填充及Photoshop中魔术棒选择工具的实现
  7. 在Ubuntu上安装RealPlayer的方法
  8. 1-3.监督学习(supervised learning)
  9. Django模板语言中的自定义方法filter过滤器实现web网页的瀑布流
  10. (7)关于margin的一些想法2.0