【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms
文章目录
- 命名技巧:
- 项目目的:
- 数据源:
- 数据制作:
推荐阅读:数据制作
paper 地址:https://arxiv.org/abs/1708.07747
数据集下载:https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏,于是乎看看这个数据集是个什么样的数据集。
命名技巧:
Fashion-MNIST其命名很有技巧,“蹭”了MNIST,要不然也火不了。就像JAVAsript 的命名,JAVAsript和JAVA没啥关系,就是“蹭”热度,起个好名字啊!引用知乎 的图片:
项目目的:
制作这个数据集的目的就是取代MNIST,作为机器学习算法良好的“检测器”,用以评估各种机器学习算法。为什么不用MNIST了呢? 因为MNIST就现在的机器学习算法来说,是比较好分的,很多机器学习算法轻轻松松可以达到99%,因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容,Fashion-MNIST 与MNIST的格式,类别,数据量,train和test的划分,完全一致。
数据源:
paper中提到,数据来源于Zalando’s website . 这是什么鬼? 查了一下才知道,Zalando是德国的电商, 其主要产品是服装和鞋类。再一看作者,是Zalando研究部门的,好吧。可不可以认为是打广告呢!剩下一大笔广告费啊!作者是华人:肖涵。
数据来自不同gender group: men women kids and neutral ;并且,不包含白色的商品,因为白色商品与背景的对比度较低。
类别如下:
标注编号 | 描述 |
---|---|
0 | T-shirt/top(T恤) |
1 | Trouser(裤子) |
2 | Pullover(套衫) |
3 | Dress(裙子) |
4 | Coat(外套) |
5 | Sandal(凉鞋) |
6 | Shirt(汗衫) |
7 | Sneaker(运动鞋) |
8 | Bag(包) |
9 | Ankle boot(踝靴) |
-----------------------------------------------分割线----------------------------------------------------
名称 | 描述 | 样本数量 | 文件大小 | 链接 |
---|---|---|---|---|
train-images-idx3-ubyte.gz
|
训练集的图像 | 60,000 | 26 MBytes | 下载 |
train-labels-idx1-ubyte.gz
|
训练集的类别标签 | 60,000 | 29 KBytes | 下载 |
t10k-images-idx3-ubyte.gz
|
测试集的图像 | 10,000 | 4.3 MBytes | 下载 |
t10k-labels-idx1-ubyte.gz
|
测试集的类别标签 | 10,000 | 5.1 KBytes | 下载 |
数据制作:
在paper中有一点比较值得学习,就是图片如何制作成 2828的灰度图的过程,可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的,分辨率为7621000 的JPEG图片。然后经过resampled 到 5173 的彩色图片。然后依次经过以下7个步骤,最终得到2828的灰度图
- JPEG --> PNG
- 裁剪背景
- 按比例: max(h,w)28\frac{max(h,w)}{28}28max(h,w) 将图像缩放,也就是将一个维度缩放至28
- 锐化
- 再扩充至28*28,再把object调整至图片中央
- 将所有像素点取反,即 255-intensity (感谢网友Jing_xian的指正)
- 转化成28*28的灰度图
这一套方法觉得比平时仅采用resize或许会好,可以考虑尝试
【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms相关推荐
- 文献阅读2019-Computer-aided diagnosis system for breast ultrasound images using deep learning
文献阅读2019-Computer-aided diagnosis system for breast ultrasound images using deep learning 1 通过生成热图来探 ...
- 文献阅读:Noise Is Also Useful: Negative Correlation-Steered Latent Contrastive Learning
文献阅读:Noise Is Also Useful: Negative Correlation-Steered Latent Contrastive Learning Abstract 论文提出了一种 ...
- 如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629 原文:How we built Tagger News: machine learning on a
如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629 原文:How we built Tagger News: machine learning on a ti ...
- 【文献阅读】小样本学习综述:A Survey on Few-Shot Learning(Y. Wang, 等人,ArXiv,201904)
一.背景 文章题目:<Generalizing from a Few Examples: A Survey on Few-Shot Learning> VQA的工作暂时告一段落,接下来将要 ...
- 论文阅读:智能机器故障诊断方法综述Applications of machine learning to machine fault diagnosis: A review and roadmap
论文链接:link 2020年雷亚国西交团队 文章目录 1 介绍 2 过去:基于传统机器学习理论的IFD问题 2.1 概述 2.2 Step1:数据采集 2.3 Step2:手工特征提取 2.3.1. ...
- 论文阅读 :A survey of visual analytics techniques for machine learning
题目:A survey of visual analytics techniques for machine learning A survey of visual analytics techniq ...
- 【论文阅读】Impact of Texture Information on Crop Classificationwith Machine Learning and UAV Images
日期:2019年2月 期刊:applied sciences 单位:Department of Geoinformatic Engineering, Inha University 目录 Abstra ...
- Fashion MNIST
原文: Fashion MNIST An MNIST-like dataset of 70,000 28x28 labeled fashion images Fashion-MNIST is a da ...
- 文献阅读总结:网络表示学习/图学习
本文是对网络表示学习/图学习(Network Representation Learning / Graph Learning)领域已读文献的归纳总结,长期更新. 朋友们,我们在github创建了一个 ...
最新文章
- 《数学之美》第2章自然语言处理从规则到统计
- 信息系统项目管理师-信息文档与配置管理核心知识点思维脑图
- python getchar_system(“pause”)和getchar()
- cnn神经网络可以用于数据拟合吗_代码详解:最全面的卷积神经网络介绍,都在这里了...
- filter 中用spring StopWatch 监控请求执行时间
- 【JS 逆向百例】百度翻译接口参数逆向
- linux增量安装tomcat_Linux服务器上的tomcat中部署web项目
- python求组合数_求组合数的算法_Cppowboy's Blog - SegmentFault 思否
- 系统设计(二)——TinyURL系统设计
- java 协议开发_用Java的NIO开发网络协议
- python编程入门 适合于零基础朋友-《从零开始学 Python》(第二版)
- php 有序数组,php 归拢两个有序数组
- eclipse下载及安装教程
- 万能的应用商店_WiFi万能助手
- HTTP、HTTPS、SPDY、HTTP2.0、HTTP3.0 —— 通信协议学习笔记(二)
- 深度神经网络为什么有效,神经网络处理什么问题
- 书评与摘抄《如何阅读一本书》
- 喜马拉雅音频下载器 V1.2 支持专辑批量下载 喜马拉雅mp3下载导出 喜马拉雅下载器...
- 基于统计复用的分组交换网络拥塞控制的科普解释
- OutLook中的live.cn(吐血配置)