重复数据删除:块级技术VS.字节级技术
块级技术
块级重复数据删除技术将数据流分割成块,检查数据块,并判定之前是否碰到相同的数据块(通常对每个数据块执行散列算法,形成数字签名或独特的标识符)。如果数据块是唯一的,就被写入磁盘,其标识符也存入索引中;否则,仅存入指针,指向存储相同数据块的原始位置。这种方法用小容量的指针替代重复的数据块,而不是将重复数据块再次存储,这样就节省了磁盘存储空间。
块级技术的缺点为:1)利用散列算法计算独一无二的ID,可能产生错误;2)将唯一的ID存入索引中,当索引扩大,需要磁盘I/O时,检查过程就会变慢(除非控制索引大小,在存储器中完成数据比较工作)。
利用散列算法判断重复数据时,散列之间的冲突可能引发错误。MD5、SHA-1等散列算法都是针对检查的数据块,形成唯一的编码。虽然有可能发生散列冲突和数据损坏,但几率较小。
字节级重复数据删除
从字节级别上分析数据流是重复数据删除的另外一种方法。将新数据流和已存储的数据流挨个比较字节,能够实现更高的精度。使用这种技术的重复数据删除产品具有一个共同点:可能之前已见过流入的数据流,因此就会检查其是否与之前接收的数据相符。
采用字节级技术的产品通常能“识别内容”,也就是说,供应商对备份程序的数据流执行了逆向工程,从而了解如何检索文件名、文件种类、日期/时间戳记等信息。在判断重复数据时,这种方法能够减少计算量。警告呢?这种方法通常在后处理阶段发挥作用——备份完成后,判断备份数据是否重复。因此,需要备份整个磁盘的数据,必须具有磁盘缓存,才能执行重复数据删除过程。而且,重复数据删除过程可能仅局限于某个备份组的备份数据流,而不是应用到整个备份组中。
完成了重复数据删除过程后,字节级技术能收回磁盘空间。在收回空间之前,应执行一致性检验,以保证删除重复数据以后,仍能满足原始数据的目标。保留最后一次的完全备份,这样恢复过程就不必依赖重构后的数据,加快恢复过程。
哪种方法效果最佳?
块级和字节级删除技术都能优化存储容量。针对你的备份环境及其需求,核定执行删除过程的时间、位置和方法,然后再决定选择哪种方法。核定内容还包括:参考那些与你的公司具有相似特征和需求的公司。
重复数据删除:块级技术VS.字节级技术相关推荐
- 重复数据删除技术概述
重复数据删除技术概述 一. 重复数据删除的分类 1. 源端重复数据删除和目标端重复数据删除 源端消重在数据源进行,传输的是已经消重后的数据,能够节省网络带宽,但会占用大量源端系统资源. ...
- 网络云存储技术Windows server 2012 (项目七 存储服务器重复数据删除的配置与管理)
网络云存储技术Windows server 2012 (项目七 存储服务器重复数据删除的配置与管理) 目录 前言 一.项目背景 二.项目实训题: 1.在SRV1创建一个10G的逻辑硬盘,开启文件级重复 ...
- Hyper-v Server重复数据删除技术
Hyper-v Server重复数据删除技术 老衲听说windows Server 2012中新增了一项技术叫做重复数据删除,据说这个重复数据删除可以大大的节省磁盘的空间,下面我们来看看什么是重复数据 ...
- 重复数据删除(De-duplication)技术研究
http://godchenmeng.iteye.com/blog/752567 继续推荐刘爱贵同学的重复数据删除dedupe 转载于:https://www.cnblogs.com/cloudsto ...
- 深入理解数据压缩与重复数据删除
原文地址:http://blog.csdn.net/liuaigui/article/details/6324133 [导读] 数据压缩与重复数据删除两种技术有何区别与联系呢?实际中又该如何正确应用呢 ...
- 内置虚拟化,自动分层,重复数据删除,固态硬盘,IBM Storwize V7000亮点解析
最近IBM 新一代中端虚拟存储产品Storwize V7000在业内反响挺大,Storwize V7000是一款被IBM寄予厚望的产品,在发布这款新品之前,IBM特意为其制作了具有强烈神秘感的广告,并 ...
- 重复数据删除和压缩处理
重复数据删除和压缩处 新版本将数据保存在HCP上,它在这里可以得到安全地保护,而不是被发布到BYOD设备中. 用户们可以将文件保存到他们的HCP Anywhere文件夹中,然后那些文件就会自动被同步到 ...
- c++删除数组中重复元素_PG13中的功能—B树索引中的重复数据删除
PostgreSQL 13 Beta 1版本于2020年5月21日发布,PostgreSQL 13 Beta 2版本于2020年6月25日发布.虽然Beta 版本中依旧包含一些错误,但是它总是几乎涵盖 ...
- EMC升级Celerra 支持闪存及重复数据删除
WatchStor独家译文]虽然在上周接受采访时,EMC公司存储部门总裁David A.Donatelli就表示EMC近期将发布大量新品,但直到美国时间上周末,EMC才正式发布了其升级Celer ...
最新文章
- 云计算是数据分析的最佳场所吗?
- Java.lang.Boolean类
- 【SQL】存储过程procedure 触发器trigger
- wpspbc按钮是什么意思_AC只是英文单词缩写,在科技领域常见的有三种意思
- 以后给孩子起名字不用发愁了,先存着
- python书籍推荐1001python书籍推荐_Python之codebook笔记
- 杰里之echo 衰减系数调节【篇】
- 超清楚!麦克风阵列学习笔记(一)——线性麦克风阵列的时间延迟Beamforming算法(Time-Delay Beamforming of Microphone ULA Array)
- C++实现推箱子游戏
- 地质勘查土质分类图片_土的工程地质分类及各类土的工程地质性质.pdf
- 【牛客网】马三来刷题之回文解码(今日头条2017年客户端实习在线笔试题)
- 1等于0.循环9吗?
- sdnu 1078
- MacOS查找各Python版本的路径
- SystemVerilog学习-10-验证量化和覆盖率
- 阿里云超级码力第二场记录
- HTML页面如何判断是手机访问还是电脑访问
- 《数据可视化基础》读后感
- php mmseg,中文分词软件 LibMMSeg
- 压力集 软件测试,性能测试之压力机