在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下如何在Python下使用HDF5文件。我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件,写入数据,读取数据。

Python下的HDF5文件依赖h5py工具包

创建文件和数据集

使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),  #数据集的维度

maxshape = (None,args.patch_size,args.patch_size), #数据集的允许最大维度

dtype=float,compression='gzip',name='train', #数据类型、是否压缩,以及数据集的名字

chunks=(args.chunk_size,args.patch_size,args.patch_size)) #分块存储,每一分块的大小

最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip'以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集'train',也就是变量X以后,可以下面的方法来读写:

data = np.zeros((100,args.patch_size,arg))

X[0:100,:,:] = data

在前面创建数据集的时候,我们定义shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?

可以使用resize方法来扩展在maxshape中定义为None的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。

读数据集

读取h5文件的方法也非常简单,首先利用h5py.File方法打开对应的h5文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同numpy一样了。

h = h5py.File(hd5file,'r')

train = h['train']

train[1]

train[2]

...

但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个chunk_size的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:

h = h5py.File(hd5file,'r')

train = h['train']

X = train[0:100] #一次从硬盘中读取比较多的数据,X将存储在内存中

X[1] #从内存中读取

X[2] #从内存中读取

这样的方法就会快很多。

python怎么打开h5文件_Python 操作 HDF5文件相关推荐

  1. python打开zip文件_Python操作Zip文件

    Python操作Zip文件 需要使用到zipfile模块 读取Zip文件 随便一个zip文件,我这里用了bb.zip,就是一个文件夹bb,里面有个文件aa.txt. import zipfile # ...

  2. python读取hdf5文件_Python处理HDF5文件

    笔记地址:有道云笔记 h5py 的安装 pip install h5py 读取 H5 文件 import h5py import numpy as np # 打开文件 f = h5py.File('t ...

  3. python教案 md文件_python操作pdf文件.md

    ``` # -*- coding: utf-8 -*- """ Created on Sat Aug 15 10:20:41 2020 @author: shuib &q ...

  4. python创建一个csv文件_python操作csv文件

    1 importcsv2 data =[3 #使用数字和字符串的数字都可以 4 ("ken","mafe",23),5 ("Tame",&q ...

  5. python中文件的打开与关闭_python中的文件打开与关闭操作命令介绍

    python中的文件打开与关闭操作命令介绍 1.文件打开与关闭 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件 open(文件名,访问模式). f = open('t ...

  6. 使用h5py操作hdf5文件

    HDF(Hierarchical Data Format)指一种为存储和处理大容量科学数据设计的文件格式及相应库文件.HDF 最早由美国国家超级计算应用中心 NCSA 开发,目前在非盈利组织 HDF ...

  7. python不同数据的读入_python读写不同编码txt文件_python读写txt文件

    python读写不同编码txt文件_python读写txt文件 以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...

  8. matlab查看hdf5数据,Matlab 操作 HDF5文件

    HDF5文件 在使用Matlab对数据进行预处理时,遇到了内存不足的问题,因为数据量太大,在处理完成以前内存已经爆满.如果使用Matlab的.m文件对文件进行存储的话,则需要将数据分割成多个文件,对后 ...

  9. php利用文件做数据储存,PHP_PHP文件读写操作之文件写入代码,在PHP网站开发中,存储数据通 - phpStudy...

    PHP文件读写操作之文件写入代码 在PHP网站开发中,存储数据通常有两种方式,一种以文本文件方式存储,比如txt文件,一种是以数据库方式存储,比如Mysql,相对于数据库存储,文件存储并没有什么优势, ...

最新文章

  1. 这届百度AI究竟什么水平?
  2. app h5 上传按钮多选_稿定小课堂之教你如何制作H5
  3. linux里创建表空间和用户名,linux下oracle的启动和创建表空间用户
  4. 关于ABAP排序不稳定的问题
  5. SQL2008使用json.net实现XML与JSON互转
  6. PyChram简单使用教程
  7. VB实现可执行文件运行时自删除
  8. 力扣-88 合并两个有序数组
  9. 9-Shell的逻辑操作符知识介绍-实践及企业案例脚本剖析
  10. c语言中fac函数杨辉三角,C语言常用算法
  11. CSS内联样式的使用,设置字体属性
  12. python出现syntaxerror_python 报错syntaxerror怎么解决
  13. 贤华老师教你正确护肤,卸妆第一步 选择卸妆产品很重要
  14. css文字背景蒙版_使用CSS创建蒙版的背景效果
  15. 初学三分法之考研路茫茫——早起看书
  16. 如何绘制用户体验地图
  17. c# 傅里叶变换 频域_C# 傅里叶变换 逆变换 调用MathNet包
  18. 谷歌与DeepMind的控制权之战,刚刚开始
  19. svg常用元素和属性
  20. python nlp文本摘要实现_用TextRank算法实现自动文本摘要

热门文章

  1. 常用二极管IN4148和单片机驱动的一些关系
  2. 视频文件损坏无法播放怎么修复?
  3. 蜂房问题-蜜蜂在蜂房中只能向下或者右上方爬,从a位置爬到b位置有多少种途径
  4. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
  5. 2018ACM-ICPC焦作站 补题
  6. Java 线程池及参数动态调节详解
  7. 流量主头像组合微信小程序源码下载支持多种分类并支持姓氏头像制作生成
  8. 阿里云道哥:我曾经是饱受网络攻击摧残的创业者,现在我要帮他们顶住
  9. Java开发常用在线工具
  10. 图像质量评估指标(3) 特征相似度FSIM