数据集shuffle方法中buffer_size的理解
tensorflow
中的数据集类Dataset
有一个shuffle
方法,用来打乱数据集中数据顺序,训练时非常常用。其中shuffle
方法有一个参数buffer_size
,非常令人费解,文档的解释如下:
buffer_size: A tf.int64 scalar tf.Tensor, representing the number of elements from this dataset from which the new dataset will sample.
你看懂了吗?反正我反复看了这说明十几次,仍然不知所指。
首先,Dataset
会取所有数据的前buffer_size
数据项,填充 buffer
,如下图
然后,从buffer
中随机选择一条数据输出,比如这里随机选中了item 7
,那么buffer
中item 7
对应的位置就空出来了
然后,从Dataset
中顺序选择最新的一条数据填充到buffer
中,这里是item 10
然后在从Buffer中随机选择下一条数据输出。
需要说明的是,这里的数据项item,并不只是单单一条真实数据,如果有batch size
,则一条数据项item包含了batch size
条真实数据。
shuffle是防止数据过拟合的重要手段,然而不当的buffer size,会导致shuffle无意义,具体可以参考这篇Importance of buffer_size in shuffle()
转载自:
https://zhuanlan.zhihu.com/p/42417456
数据集shuffle方法中buffer_size的理解相关推荐
- Bitmap类getPixels()方法中参数stride理解
转载自:http://blog.csdn.net/jie_qing/article/details/7259520 在学习Graphics中遇到位图(Bitmap)中getPixels()方法,对该方 ...
- CALPHAD方法中“外推”的理解
碎碎念 最初接触到CALPHAD方法的时候,我最大的疑惑就是二元体系的热力学模型是如何整合到三元体系?请教了学长得到的答案是,"把二元的相加在一起就是三元啦." 当然这个模糊的答案 ...
- 应用在机器学习中的聚类数据集产生方法
简 介: 本文根据 机器学习中常用的聚类数据集生成方法 中的内容进行编辑实验和整理而得.并在之后对于聚类数据库生成进行不断的补充. 关键词: 机器学习,聚类算法,数据集合 §01 直接生成 这类方 ...
- shuffle函数中的参数buffer_size
学习tensorflow的时候,在加载数据集部分(tf.data.Dataset)遇到了一个打乱数据集的函数shuffle,里面有一个参数buffer_size.官方文档描述为: 参数buffer_s ...
- ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码
ML之FE:特征工程中常用的五大数据集划分方法(特殊类型数据分割,如时间序列数据分割法)讲解及其代码 目录 特殊类型数据分割 5.1.时间序列数据分割TimeSeriesSplit 特殊类型数据分割 ...
- ruby array_Ruby中带有示例的Array.shuffle方法
ruby array Array.shuffle方法 (Array.shuffle Method) In this article, we will study about Array.shuffle ...
- numpy中amin()方法中维度axis=0 1 2 的理解
https://www.jianshu.com/p/6f58d7f39147 numpy中amin()方法中维度axis=0 1 2 的理解 axis=0 从最外一层的维度来比较 (对半比较 虽然 ...
- ArcEngine中IFeatureClass.Search(filter, Recycling)方法中Recycling参数的理解
转自 ArcEngine中IFeatureClass.Search(filter, Recycling)方法中Recycling参数的理解 ArcGIS Engine中总调用IFeatureClass ...
- python中shuffle怎么用_Python|有趣的shuffle方法
问题描述 Pythonrandom的"shuffle方法随机化序列项"是我们在学习中会经常遇到的一个知识点,今天我们就来简单的学习一下吧!解决方案 在学习这个方法时我们就要了解他是 ...
最新文章
- 图片像素、英寸、厘米之间的单位换算
- 升级BIOS解决DELL R730XD虚拟机死机问题
- Windows注册文件类型信息的学习心得
- 介绍理想工作计算机 英语作文,我的理想工作英语作文(精选5篇)
- 常见的一些功能测试用例
- C++字符串处理操作符重载
- 95. Unique Binary Search Trees II 不同的二叉搜索树 II
- (转载)tomcat5下jsp出现getOutputStream() has already been called for this
- 计算机组成原理尾数的求法,计算机组成原理第八讲(运算办法).ppt
- CentOS7.4通过ssh连接到服务器的时候特别慢
- 基于C++的即时通信软件设计
- Metasploit——渗透攻击模块(Exploit)
- Word怎么添加页码
- vue实践学习——keep-alive属性及生命周期
- 辽宁师范大学计算机学院查寝吗,辽宁师范大学影视艺术学院
- LPC1758积累--boot程序bin文件校验
- 中国历史朝代 英文翻译 	 A Brief Chinese Chronology
- springboot大学生兼职网站开发与设计毕业设计源码311734
- Locust使用手册--开始使用Locust
- VoIP系统故障排除:7个常见问题处理方法
热门文章
- python中的format方法和int方法
- python基础教程:类型转换和舍入
- Python正则表达式的7个使用典范
- Python 开发工具链全解
- C语言strchr()函数(字符串中查找子字符)
- SQ_20200326_Z-TEK主动式USB-5m延长线对于Intel Realsense D435掉线情况测试
- Jupyter notebook的内核是什么?Ipython
- python 安装PIL包的方法以及简单介绍
- Redis基本数据类型1--String
- wegame饥荒一直连接中_腾讯WeGame注册用户超3亿 国产游戏销量超500万