1.关于重复数据删除

重复数据删除技术是一种数据缩减技术,旨在减少存储系统中使用的存储容量,通常用于基于磁盘的备份系统。重复数据删除技术的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。

重复数据删除技术除了在存储方面的优势之外还有很多地方可以应用,比如它还可以显著降低通过网络复制数据所需的带宽,从而为远程复制提供类似优势。因此,可为磁盘备份提供切实可行的基于 WAN 的灾难恢复 (DR) 保护,并降低对移动介质的需求。

每个 IT 机构所需的最基本的灾难恢复 (DR) 保护确保了备份数据安全,使其免遭现场丢失或损坏。设备和应用程序都可以更换,但数字资产通常是不可替代的。不管特定存储或备份系统的弹性或冗余有多强,或者拥有多少层冗余,当所有数据副本都位于单一位置和单一硬件系统时,它们非常容易受到针对特定位置的损坏,包括自然灾害、火灾、盗窃以及恶意或意外的设备损坏等。

重复数据删除技术为 IT 部门提供了一种全新的 DR 选择,使通过 WAN 进行站点间复制成为另一种切实可行的方法,不仅使 DR 更易实施,而且可以降低运营费用,减少移动介质的使用。

2.数据复制的模式

有以下两种得到广泛认可的复制模式:同步复制和异步复制。同步复制通常又称为映射,可通过在每个 I/O 周期在两个存储系统之间传输数据块,来始终保持两个主活动数据集处于同一状态。同步复制通常可为复制数据提供非常快的故障转移(如果主数据集受到损坏)功能,并且往往会涉及两个独立的存储系统,而且这两个系统通常位于不同位置。因为只有在本地和远程写入完成后,同步复制系统才会向主机发送 I/O 完成状态信号,因此,同步复制系统统常需要高速链接,这会降低性能,而且复杂难管。因此,该技术通常适用于必须始终保持可用性的事务导向型应用中所使用的重要数据。

异步复制同样可应用于主数据映射。在这种操作模式下,第二个数据集将动态地作为主数据集的副本加以保留,但第二个数据集可以滞后主数据集一定时间。只允许延迟一个或两个 I/O 周期(以确保映射始终为最新内容),但也可能更长。尽管映射的映像滞后主数据太多,但异步映射占用带宽较少,而且往往可以最大限度降低对主数据进行操作的负面影响,因此,主系统可能需要定期暂停写入,以便及时进行映射。

另外,异步复制还可用于备份映像等非动态、时间点映像,以提供现场数据丢失和灾难恢复保护。

该技术比映像技术更加易于实施,不仅可以防止出现其他故障,减少移动介质的使用,而且对主应用程序影响更小。备份数据是一种可用于 DR 的很好的复制方法,它不仅是主数据的时间点副本,而且可以通过备份流程与主应用程序隔离开来。阻碍备份数据复制广泛部署一大因素在于:通常情况下,备份数据量较大时,通过广域网复制变得非常困难。

3.将重复数据删除技术应用于复制过程

重复数据删除技术可减少通过网络创建和维护重复数据集所导致的带宽耗费和相应成本,因而,使备份数据复制更加切实可行。支持重复数据删除技术的复制与支持重复数据删除技术的数据存储基本相似。一旦为一个备份数据存储创建了两个映像,要想保持映像或目标内容与源内容相同,就必须定期复制和迁移备份事件所添加的新数据段、元数据映像或命名空间。不同厂商和不同数据简化系统所使用的处理方法可能存在重大差异。此处我们以 Quantum 昆腾在其 DXi 系列磁盘备份和远程复制解决方案中采用的异步复制方法为例进行介绍。DXi 系列设备可以通过复制,在借助 WAN 连接进行数据传输的不同设备上创建并维护备份数据集的备份映像。使用 DXi 系列设备,可以对整个源设备或在源设备中创建的单个 NAS 共享或虚拟磁带库进行复制。复制流程始于将源设备某一共享或某一部分中的所有数据段复制到另一目标设备对等的相应共享或部分。尽管这种初始数据传输可通过网络进行,但由于数据量过大,对源设备和目标设备进行临时共置以使数据集实现同步,或者使用磁带传输初始数据集,都是切实可行的。

在源设备和目标设备实现同步后,对于写入源设备的每个新备份事件,复制流程只发送新的数据段。如果新的备份事件变化率达到 1%,创建映像的最大带宽需求将是复制写入源设备的整个备份数据集所需带宽的百分之一。由于 Quantum 使用两阶段、预传输流程作为其复制软件的一部分,因此,带宽需求可能进一步降低。

在本系统中,将数据发送到目标设备之前,DXi 系列复制软件会将可用于复制的数据块的列表发送至目标设备(该列表通常仅几 MB 大小,比实际数据要小得多)。目标设备可通过已存储的数据段索引来核对该数据段列表,并返回包含本地不可用而需要从源 DXi 系列设备发送的要素的列表。随后,源设备将通过网络发送新数据段的副本。一旦备份作业开始被写入源设备,数据段便会在后台被发送,当新的备份映像元数据被传送时,复制即告完成。此时,备份映像可用于在目标设备上进行恢复。

使用 DXi 系列复制软件可以让多个源设备指向同一个目标设备,而且复制通常都是采用分区到分区的(例如,每个源设备都由将数据复制到源设备上类似映像的特定设备分区构成,分区可能是 NAS 共享库分区,也可能是虚拟磁带库分区)方式。可删除所发送备份映像中所有重复数据段的共用重复数据删除池支持目标设备上的所有复制映像。也就是说,重复数据删除将在不同的源位置间发生,因此,如果相同数据块在源位置 A 和 B 均有备份,当位置 A 和 B 都向同一目标设备复制数据时,将只在共用位置 C 处存储一次。

检查目标位置已有哪些数据段存在的预传输流程是 DXi 系列复制流程的重要功能之一。这意味着,如果昨天已从源位置 A 备份过数据段,而今天要在源位置 B 再备份这些数据段,则这些数据段不会在目标位置再存储一次,而且将不会通过网络发送。只有元数据需要发送和存储。该预传输重复数据段删除功能会显著降低以分布方式使用类似文件设置进行工作的用户环境中进行复制所需的带宽。

转载于:https://blog.51cto.com/datasecurity/448334

将重复数据删除技术应用于数据复制过程 分享修改删除相关推荐

  1. 大数据搜索引擎技术_网络数据搜索技术

    大数据搜索引擎技术 Nowadays this is a very big problem to search appropriate data on web search engines. This ...

  2. GIS时空大数据融合技术——美丽长岛数据融合

    美丽长岛 这次我们介绍一个美丽的海岛--长岛县,山东省人民政府正式批复设立长岛海洋生态文明综合试验区.并在2018年11月,长岛县入选2018全国"幸福百县榜". 第三批" ...

  3. mysql利用触发器删除数据库_[数据库]mysql 触发器的创建 修改 删除

    [数据库]mysql 触发器的创建 修改 删除 0 2015-12-16 23:00:04 //做一个简单的练习,创建一个简单的触发器 完成添加文章的时候,自动加上时间,默认作者 为 '日记本的回忆' ...

  4. 基于Dedup的数据打包技术

    基于Dedup的数据打包技术 作者简介 :刘爱贵,研究方向为网络存储.数据挖掘和分布式计算:毕业于中科院,目前从事存储软件研发工作. Email: Aigui.Liu@gmail.com 注: 作者学 ...

  5. gan 总结 数据增强_[NLP]聊一聊,预处理和数据增强技术

    在基于margin-loss的句子相似度这个项目中,为了验证想法,找不到开放数据集,因此自己从新浪爱问爬取了数据.自己爬的数据和学界开放的数据对比,数据显得非常脏.这里有三个含义:第一:数据不规范,比 ...

  6. 分布式数据流计算系统的数据缓存技术综述

    点击上方蓝字关注我们 分布式数据流计算系统的数据缓存技术综述 袁旭初, 付国, 毕继泽, 张岩峰, 聂铁铮, 谷峪, 鲍玉斌, 于戈 东北大学计算机科学与工程学院,辽宁 沈阳 110169 论文引用格 ...

  7. 海洋大数据关键技术及在灾害天气下船舶行为预测上的应用

    海洋大数据关键技术及在灾害天气下船舶行为预测上的应用 王冬海,卢峰,方晓蓉,郭刚 中电科海洋信息技术研究院有限公司,北京 100041 摘要:随着海洋数据量的爆炸式增长,海洋大数据受到越来越多的关注. ...

  8. docker_4 数据卷技术

    https://gitee.com/fakerlove/docker 文章目录 4. 数据卷技术 4.1 使用 -v 命令挂载目录: 4.2 实战:MySQL同步数据 4.3 具名和匿名挂载 匿名 具 ...

  9. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  10. 数据脱敏技术的实践指南

    本文转载自:https://mp.weixin.qq.com/s/LsL7pIb3jEwCq6i0fsXKPA 一.概述 企业在运营过程中开展数据脱敏工作,往往面对的是大规模的数据集,信息化程度越高的 ...

最新文章

  1. 人群距离监测 DeepSOCIAL 最全汉化论文+源码导读
  2. 分享一些自己常用的科研/软件工具
  3. React中如何优雅的捕捉事件错误
  4. 文章转载-见贤思齐焉,见不贤而内自省也
  5. axure弹窗关闭_干货来袭,Axure插入图标的几种办法
  6. C++语言 对话框程序设计
  7. SGU 286 Ancient decoration(Euler路径+二分匹配)
  8. linux重启切换内核,centos7切换启动内核与切换启动模式的讲解
  9. 拓端tecdat|R语言分位数回归Quantile Regression分析租房价格
  10. 粉红噪音测试软件,粉红噪声
  11. android 仓库管理 毕业论文,基于Android的仓库管理系统的设计与实现.zip
  12. 穿透还原卡和还原软件的代码
  13. Python + folium 制作美美的地图~
  14. 01 - 雷达回波中的可用信息
  15. 使用robo3t操作mongodb以及文档的插入、更新、删除以及查询操作
  16. 微信开发者⼯具介绍及基本使用(1)
  17. Richardson–Lucy滤波的一点个人理解
  18. 狂神说-Spring学习总结
  19. Rivaple 江枫 MC服务器文档(创新生存部分)
  20. mysql学习系列(1)

热门文章

  1. 前向算法(Forward Algorithm)
  2. 如何在Mac上设置QLab工作区
  3. ViewPager中添加Fragment的方法实现
  4. 两个整形变量的值进行交换
  5. Linux内核提供了三种不同形式的中断底半部实现机制:软中断、tasklet和工作队列。...
  6. 对vue饿了么项目重构之后的一些理解
  7. 过滤代码中的html标签
  8. development period
  9. Linux 查看网络速率
  10. Hadoop开发环境