面向大数据的高效存储容量缩减技术研究

【摘要】:随着信息化的发展,全球数据量呈指数式增长,数据中心存储规模快速迈向了PB级甚至是EB级,其中包含了大量的冗余数据。这些冗余数据占用了大量的存储资源,导致存储系统性能降低,数据存储和管理成本增加等问题。在此背景下,存储容量缩减技术在不改变数据基本属性前提下,通过采用重复数据删除技术和数据压缩技术,有效地缩减数据量的规模,提高存储资源利用率,降低管理成本。存储容量缩减技术已经成为业界研究的热点,显示出重要的学术价值和应用价值。然而,大数据的规模巨大、类型繁多、冗余量庞大以及对数据处理的速度要求较高等特点,导致存储容量缩减技术在面对大数据应用时仍然存在许多需要解决的技术问题。例如如何降低数据分块时间开销,减少冗余数据块发现时间以及提高数据压缩速度和压缩率等方面。针对上述问题,从存储容量缩减技术的数据分块策略、冗余数据块的发现机制以及数据块的高速压缩机制等方面进行深入的研究。具体来说,主要从以下三个方面提出了创新性理论或方法:1.基于位串内容感知的数据分块策略(Bit-string Content-aware Chunking Strategy,BCCS):围绕影响数据分块性能的各种因素进行分析和讨论,实现了一种新的基于位串的数字签名技术,并在此基础上提出了BCCS。BCCS从数据块每个正文字节中抽取某一特定比特来构成窗口特征数据,并使用位操作替代传统的比较操作。该策略充分利用每一次失败的匹配尝试所带来的特征信息,尽量排除尽可能多的不能匹配位置,从中获取最大跳跃长度,从而加快二进制串的匹配过程,降低确定块边界的CPU资源消耗。实验结果表明,对于可变数据测试集,相对Rabin算法,BCCS的数据块划分速度最多可以提高197%;对于固定数据测试集,相对于FSP算法,BCCS速度仅仅降低10.8%,而其数据压缩率却较FSP的0.977提高到了1.206,可以提高20%。2.基于二级布隆过滤的冗余数据块发现机制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):针对数据指纹(FingerPrint,FP)数量巨大,不能完全存储在内存中,导致性能下降的问题,提出了RCQM-TBF。RCQM-TBF中第二级布隆过滤器作为第一级布隆过滤器结果的一个整体表现,其每一个比特位代表进入相同准二级假阳性误判状态的所有FP。对于FP假阳性访问,TBF通过降低二级布隆过滤机制中第一级和第二级过滤的假阳性误判率,快速判断新到达数据块的非存在性;对于FP正常性访问,TBF通过建立FP高速缓存链表和对应的FP预取机制来减少直接的硬盘访问,对新到达的数据块存在性进行快速判断;同时TBF创建了一个具有强全局散列特性的哈希函数族,减小碰撞发生的可能性。实验结果表明,对于非冗余测试数据集,RCQM-TBF的FP查询延迟性能和数据块的存储性能较采用标准布隆过滤算法的ZHU-BLOOM FILTER最多提升了28%;对于冗余测试数据集,RCQM-TBF的存储速度较ZHU-BLOOM FILTER最多可以提高100%到135%;当扩充服务器内存时,理论上RCQM-TBF可管理的存储数据容量最大可以达到64PB。3.基于多矩阵并行匹配的高速数据压缩机制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):为了加快压缩速度,并提高存储容量利用率,提出了PMLZSS-MM。该机制实现了一种GPU平台下的多矩阵并行匹配工作模式,将需要压缩的数据动态划分多个字典串和预读串,分别将其作为矩阵的纵轴和横轴,分解到GPU中的不同线程块中,形成多个矩阵进行并行匹配;而对于需串行执行的压缩编码生成部分,仍然在CPU上执行。通过合理的调度策略,协调两者共同完成任务。实验结果表明,PMLZSS-MM容量缩减率有所下降。相对于经典CPU平台上的串行LZSS算法,容量缩减率最多下降了1.5%。但PMLZSS-MM显著提高了大数据的压缩速度,当字典窗口设置为4KB,预读数据窗口设置为64B时,相对于CPU平台上的串行LZSS算法,其压缩吞吐率最大提高了18倍;相对于GPU平台上的并行CULZSS算法,其压缩吞吐率最大提高了20.8%。综上所述,通过采用BCCS,有效地减小数据分块过程中的CPU资源消耗,提高发现块边界的速度;采用RCQM-TBF,提高数据指纹查询速度,获取高效的查询速度;引入PMLZSS-MM,进一步补充和优化前两项技术的不足,获取更高的存储容量缩减率。

【相似文献】

中国期刊全文数据库

前20条

1

史江瑾;王洪生;汪琳;初剑;;存储容量单位表示方法的探讨[J];电子工程师;2006年03期

2

赵国求;;计算机知识点滴[J];武钢技术;1985年01期

3

颜世科,李桂芬;单板(单片)机系统中存储容量大于2~N的扩展方法[J];电子与自动化;1997年05期

4

方卉;存储容量为130MB的软磁盘驱动器[J];计算机工程;1998年12期

5

任伏兵;一种扩展8096存储容量的方法[J];自动化仪表;1994年12期

6

;不断增大的存储容量[J];个人电脑;1997年10期

7

AlixL.Paultre;邮票大小的全息媒体拥有高达1GB的存储容量[J];今日电子;2004年07期

8

Matthew Kendall,Duncan Furness;提高便携式消费电子的存储容量[J];电子产品世界;2005年07期

9

周福新;;大存储容量的激光卡[J];激光与光电子学进展;1986年01期

10

冯蓓;;音乐之旅[J];通信技术;2004年06期

11

;扩展数字家庭的存储容量[J];电子产品世界;2007年09期

12

郭晓峰;;正交技术提高存储容量[J];互联网天地;2006年03期

13

;扩充数字家庭里的存储容量[J];中国电子商情(基础电子);2007年07期

14

;1U NAS上1TB[J];每周电脑报;2003年33期

16

周凯;;具有1Mbit容量的CMOS ROM[J];通信技术;1986年01期

18

;从布衣到贵族——商用PC全面升级[J];电脑采购周刊;2002年13期

19

黄挚雄;时频参数测量中存储容量的压缩方法[J];电子技术应用;2002年03期

20

夏雨人;;DVD光盘/驱动器的物理基本原理介绍[J];记录媒体技术;2003年04期

中国重要会议论文全文数据库

前1条

1

李晓凡;陈岳瑞;孔宇菲;任久春;缪健;陈良尧;;新型三维高密度光存储方法的研究[A];上海市激光学会2005年学术年会论文集[C];2005年

中国博士学位论文全文数据库

前1条

1

周斌;面向大数据的高效存储容量缩减技术研究[D];华中科技大学;2015年

中国硕士学位论文全文数据库

前2条

1

伊莉娅;面向服务的未来互联网络副本存储技术及策略[D];北京邮电大学;2015年

2

戴健雄;VXI总线大存储容量扫描A/D模块研制[D];哈尔滨工业大学;2007年

中国重要报纸全文数据库

前10条

1

通讯员  邱克忠 记者  贺耀堂;存储容量苏北最大[N];连云港日报;2006年

2

丁小鱼编译;学会管理存储容量[N];计算机世界;2007年

3

;如何增加本地存储容量[N];网络世界;2009年

4

;五个步骤改进存储容量规划[N];网络世界;2009年

5

本报记者 邹本堃;移动存储容量也“短斤缺两”[N];中国消费者报;2005年

6

苗建 编译;如何应对存储容量危机?[N];计算机世界;2010年

7

记者 余瀛波;智能手机存储容量虚标成投诉热点[N];法制日报;2013年

8

张驰;从容应对存储容量危机[N];网络世界;2010年

9

记者 王惜纯;手机存储容量投诉量不小[N];中国质量报;2013年

10

编译 郭涛;有效遏制存储年支出增长10%[N];中国计算机报;2009年

caj文件打不开显示内存不足_面向大数据的高效存储容量缩减技术研究相关推荐

  1. caj文件打不开显示内存不足_(图文)手机内存不足怎么清理

    手机长时间使用以后就会出现手机内存空间不足的情况,这个时候就要对手机进行清理释放内存.那手机内存不足怎么清理呢?小编在文中提供三个方法给大家参考一下,解决内存不足的问题,手机使用更快! 方法一:清理运 ...

  2. caj文件打不开显示内存不足_caj打开文件内存不足 cad内存不足一键修复

    手机怎么打开caj文件? 1.首先你的手机需要支持caj阅读器的安装,苹果和安卓手机一般都是支持安装的,如果支持,在知网首页下载该软件安装就可以阅读caj格式文献.2.如果你的手机不支持caj阅读器的 ...

  3. VB如何直接显示内存中的二进制图像数据

    有时在进行网络程序设计时,我们希望客户端接收到服务器传来的图像文件的二进制数组的,能够直接显示,而不是通过保存到临时文件后显示,其实通过COM的IPicture接口,在VB里非常容易做到,代码如下: ...

  4. 面向大数据的异构内存系统

    面向大数据的异构内存系统 王孝远, 廖小飞, 刘海坤, 金海 华中科技大学计算机学院,湖北 武汉 430074 摘要:受限于DRAM和新型非易失性存储器(non-volatile memory,NVM ...

  5. 云计算、人工智能、大数据等当前火热的技术,都离不开它!

    近年来,无论是互联网巨头还是创业新贵,越来越多的公司投身到大数据.人工智能以及云计算的洪流之中.随着科技的进步,全面实现生产过程和业务管理的数字化.智能化是企业保持市场竞争力的关键,在这一过程中对数据 ...

  6. win10系统 CAJ文件打不开 老弹出 File doesn't existed or can't be visited normally! 文件不存在或不能正常访问

    本人试过了 网上给的各种办法 有修改中英文的方法,有重新装个cajveiwer7.1版本的,还有要删除注册表中的TTKN文件和TTOD文件的 全都没有用,都绝望了准备重新装系统了,但是.....现在可 ...

  7. 数据结构堆栈 内存堆栈_零堆栈数据科学家第二部分秋天

    数据结构堆栈 内存堆栈 In Hollywood, it is known that the sequels are rarely better than the original movie/par ...

  8. rdd数据存内存 数据量_「大数据」(七十七) Spark之IO机制

    [导读:数据是二十一世纪的石油,蕴含巨大价值,这是·情报通·大数据技术系列第[77]篇文章,欢迎阅读和收藏] 1 基本概念 与传统的 IO 相比, Spark IO 有很大区别.传统的数据存在单个计算 ...

  9. 内存 增量数据持久_内存中数据模型和大数据持久性

    内存 增量数据持久 ORM框架在需要与关系数据库进行交互时可以帮助开发人员. 对于关系数据库,有许多出色的ORM框架,例如Hibernate和Apache OpenJPA,其中一些确实很棒. 如今,大 ...

最新文章

  1. 1036 跟奥巴马一起编程(15 分)
  2. 【视频】Java从x86到Arm跨平台,实战一下!
  3. sublime快捷键设置
  4. scala中的if esle使用
  5. 代码中,对象类与管理类要分开
  6. chengg0769 近期文章列表 垂直搜索相关(2007-07-10)
  7. npm WARN deprecated
  8. 扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC 卡尔曼滤波估计电池soc ,simulink模型
  9. A/BTest设计方案
  10. 基于单片机的超市储物柜设计_一种超市用储物柜的制作方法
  11. vue + element 实现文件上传
  12. ZZULIOJ 1055兔子繁殖问题
  13. 计算捐款总量 (10 分)
  14. vue-购物车小球抛物线
  15. java生成签名的方法
  16. python 会计应用软件_下列关于会计核算软件记账功能的说法中,正确的有(  )。...
  17. sqlite3错误原因
  18. form表单AJAX提交
  19. 8*8点阵引脚图 行列定义
  20. Mac Outlook左侧文件夹不见了,怎么处理?

热门文章

  1. loaded the “XXXView“ nib but the view outlet was not set 解决方案
  2. 深度学习+pytorch实战Kaggle比赛(一)——房价预测
  3. 微信多群直播助手功能介绍
  4. 不想打工在家创业这个生意让你月入过万
  5. C#之Image使用
  6. python玩王者荣耀皮肤_爬取王者荣耀皮肤图片
  7. 海盗王客户端断线自动重连的解决方案
  8. 湖北省教育考试院湖北省人事考试网报名入口报名时间软考报名
  9. c#中将一个实体类复制到另一个实体类
  10. 音速索尼克 怪人_最奇妙的刺猬索尼克粉丝游戏