python HDF5 h5py 的用法

核心概念

HDF5文件是包含两种对象的容器:数据集,它们是类似数组的数据集合;组,是类似文件夹的容器,用于存放数据集和其他组。使用h5py时要记住的最基本的事情是:
组像字典一样工作,数据集像NumPy数组一样工作

终端安装

使用Anaconda或 Miniconda:

$ conda install h5py

通过Enthought Canopy,使用GUI软件包管理器或:

$ enpkg h5py

使用pip安装

$ pip install h5py

创建文件

我们可以通过在初始化File对象时将设置为mode来创建文件w。其他一些模式是a (用于读/写/创建访问)和 r+(用于读/写访问)。

>>> import h5py
>>> import numpy as np
>>> f = h5py.File("mytestfile.hdf5", "w")

create_dataset,顾名思义,它将创建具有给定形状和dtype的数据集

>>> dset = f.create_dataset("mydataset", (100,), dtype='i')

File对象是上下文管理器;因此以下代码也适用

>>> import h5py
>>> import numpy as np
>>> with h5py.File("mytestfile.hdf5", "w") as f:
>>>     dset = f.create_dataset("mydataset", (100,), dtype='i')

读取文件

打开文件以进行读取:

>>> import h5py
>>> f = h5py.File('mytestfile.hdf5', 'r')

记住h5py.File行为就像Python字典一样,因此我们可以检查键,

>>> list(f.keys())
['mydataset']

根据我们的观察,mydataset文件中只有一个数据集。让我们将数据集作为数据集对象进行检查

>>> dset = f['mydataset']

我们获得的对象不是数组,而是HDF5数据集。像NumPy数组一样,数据集既具有形状又具有数据类型:

>>> dset.shape
(100,)
>>> dset.dtype
dtype('int32')

它们还支持数组样式切片。这是您从文件中的数据集中读取和写入数据的方式:

>>> dset[...] = np.arange(100)
>>> dset[0]
0
>>> dset[10]
10
>>> dset[0:100:10]
array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

组和层次组织

“ HDF”代表“分层数据格式”。HDF5文件中的每个对象都有一个名称,它们使用/-separators 排列成POSIX样式的层次结构 :

>>> dset.name
u'/mydataset'

该系统中的“文件夹”称为组。File我们创建的对象本身就是一个组,在本例中为根组,名为/

>>> f.name
u'/'

创建一个子组是通过恰当地命名create_group。但是我们需要首先以“附加”模式打开文件(如果存在,则进行读/写操作,否则创建)

>>> f = h5py.File('mydataset.hdf5', 'a')
>>> grp = f.create_group("subgroup")

所有Group对象还具有create_*类似于File 的方法:

>>> dset2 = grp.create_dataset("another_dataset", (50,), dtype='f')
>>> dset2.name
u'/subgroup/another_dataset'

顺便说一下,您不必手动创建所有中间组。指定完整路径就可以了:

>>> dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
>>> dset3.name
u'/subgroup2/dataset_three'

组支持大多数Python词典样式的界面。您可以使用item-retrieval语法在文件中检索对象:

>>> dataset_three = f['subgroup2/dataset_three']

遍历一个组可提供其成员的名称:

>>> for name in f:
...     print name
mydataset
subgroup
subgroup2

成员资格测试还使用名称:

>>> "mydataset" in f
True
>>> "somethingelse" in f
False

您甚至可以使用完整路径名:

>>> "subgroup/another_dataset" in f
True

也有熟悉的keys()values()items()iter()方法,以及get()
由于迭代一个组仅产生其直接附接的构件,遍历整个文件与完成的Group方法 visit()visititems(),这取一个可调用:

>>> def printname(name):
...     print name
>>> f.visit(printname)
mydataset
subgroup
subgroup/another_dataset
subgroup2
subgroup2/dataset_three。

属性

HDF5的最佳功能之一是可以将元数据存储在它描述的数据旁边。所有组和数据集都支持附加的命名数据位,即属性。
通过attrs代理对象访问属性,该代理对象又实现了字典接口:

>>> dset.attrs['temperature'] = 99.5
>>> dset.attrs['temperature']
99.5
>>> 'temperature' in dset.attrs
True

详细用法,可参见 官方文档

python HDF5 h5py 的用法相关推荐

  1. python+HDF5+h5py

    python+HDF5+h5py pip install --upgrade --pre h5py HDF(Hierarchical Data Format)是一种设计用于存储和组织大量数据的文件格式 ...

  2. python hdf5 —— h5py

    HDF(Hierarchical Data File)是美国国家高级计算应用中心(NCSA,National Center for Supercomputer Applications)为了满足各种领 ...

  3. Anaconda下Python中h5py与netCDF4模块下载与安装方法

      本文介绍基于Anaconda,下载并安装Python中h5py与netCDF4这两个模块的方法.h5py与netCDF4这两个模块是与遥感图像处理.地学分析等GIS操作息息相关的模块,应用较为广泛 ...

  4. 详细记录python的range()函数用法

    详细记录python的range()函数用法 使用python的人都知道range()函数很方便,今天再用到他的时候发现了很多以前看到过但是忘记的细节.这里记录一下range(),复习下list的sl ...

  5. python Pool常用函数用法总结

    在本篇内容里小编给大家整理的是一篇关于python Pool常用函数用法总结内容,有需要的朋友们可以学习下. 1.说明 apply_async(func[,args[,kwds]):使用非堵塞调用fu ...

  6. 五分钟理解yield在python中的简单用法,让你不再迷惑

    很多同学无论是在学习python还是使用python的过程中,都会遇到yield关键字,这个让人头大的问题,今天,就给大家分享一下我自学yield的心路历程 基本概念: (1)在 Python 中,使 ...

  7. python正则表达式re.sub用法

    python正则表达式re.sub用法 https://cloud.tencent.com/developer/article/1382055 python正则表达式re.sub用法 全面的 http ...

  8. Python 异常处理--raise函数用法

    Python 异常处理--raise函数用法 参考文章: (1)Python 异常处理--raise函数用法 (2)https://www.cnblogs.com/darkgui34/p/405074 ...

  9. format函数python的顺序_[转载] Python中format函数用法

    Python中format函数用法 format优点 format是python2.6新增的格式化字符串的方法,相对于老版的%格式方法,它有很多优点. 1.不需要理会数据类型的问题,在%方法中%s只能 ...

最新文章

  1. WebStorm配置SVN
  2. mysql 中文乱码 或 问号
  3. Fedora20配置tftp服务器
  4. Shell脚本学习-阶段十-Bash脚本实现每次登录Shell时可以查看Linux系统信息
  5. python input函数详解_Python如何使用input函数获取输入,看完你就会了
  6. 使用ActiveMQ 传输文件 以及使用Jetty搭建内嵌文件服务器
  7. 荒野乱斗好友系统分析
  8. 百度云下载神器再升级!
  9. 关于安全的一点理解感悟
  10. 用分区大师无损增加C盘空间
  11. 关于生物医学工程{血站+软件}的看法
  12. Bzoj3441 乌鸦喝水
  13. redux与react-redux
  14. Java哈希表及其应用
  15. 专业python培训报价多少
  16. archery使用手册
  17. 深度总结 | 知识蒸馏在推荐系统中的应用
  18. 安卓银行木马新增“keylogger”功能,攻击能力倍增
  19. 专访Pebble智能手表创始人:Pebble是这样诞生的
  20. CCNP Switching (300-115) Cert Prep: 1 Layer 2 Technologies CCNP交换(300-115)证书准备:1层2技术 Lynda课程中文字幕

热门文章

  1. antd Form.Item 中如何获取到Select的label值
  2. 在ROS中使用奥比中光Orbbec Astra Pro
  3. Machine Learning | (2) sklearn数据集与机器学习组成
  4. 第十七课.Pytorch-geometric入门(二)
  5. 数据包是如何在网络中传输的
  6. java字符串与基本数据_java --字符串与基本数据类型之间的转换
  7. variant 字符串数组_VB数组部分核心知识总结
  8. Python使用matplotlib可视化排序的点图、点图表示数据的等级顺序、沿着水平轴对齐(Ordered Dot Plot)
  9. R语言使用caret包的preProcess函数进行数据预处理:对所有的数据列进行expoTrans指数变换(Exponential transformation、可以处理负数)
  10. 机器学习特征工程之连续变量离散化:等宽分箱