文章目录

  • 命名技巧:
  • 项目目的:
  • 数据源:
  • 数据制作:

推荐阅读:数据制作

paper 地址:https://arxiv.org/abs/1708.07747
数据集下载:https://github.com/zalandoresearch/fashion-mnist
上个月底突然被Fashion-MNIST刷屏,于是乎看看这个数据集是个什么样的数据集。

命名技巧:

Fashion-MNIST其命名很有技巧,“蹭”了MNIST,要不然也火不了。就像JAVAsript 的命名,JAVAsript和JAVA没啥关系,就是“蹭”热度,起个好名字啊!引用知乎 的图片:

项目目的:

制作这个数据集的目的就是取代MNIST,作为机器学习算法良好的“检测器”,用以评估各种机器学习算法。为什么不用MNIST了呢? 因为MNIST就现在的机器学习算法来说,是比较好分的,很多机器学习算法轻轻松松可以达到99%,因此无法区分出各类机器学习算法的优劣。
为了和MNIST兼容,Fashion-MNIST 与MNIST的格式,类别,数据量,train和test的划分,完全一致。

数据源:

paper中提到,数据来源于Zalando’s website . 这是什么鬼? 查了一下才知道,Zalando是德国的电商, 其主要产品是服装和鞋类。再一看作者,是Zalando研究部门的,好吧。可不可以认为是打广告呢!剩下一大笔广告费啊!作者是华人:肖涵。
数据来自不同gender group: men women kids and neutral ;并且,不包含白色的商品,因为白色商品与背景的对比度较低。

类别如下:

标注编号 描述
0 T-shirt/top(T恤)
1 Trouser(裤子)
2 Pullover(套衫)
3 Dress(裙子)
4 Coat(外套)
5 Sandal(凉鞋)
6 Shirt(汗衫)
7 Sneaker(运动鞋)
8 Bag(包)
9 Ankle boot(踝靴)

-----------------------------------------------分割线----------------------------------------------------

名称 描述 样本数量 文件大小 链接
train-images-idx3-ubyte.gz 训练集的图像 60,000 26 MBytes 下载
train-labels-idx1-ubyte.gz 训练集的类别标签 60,000 29 KBytes 下载
t10k-images-idx3-ubyte.gz 测试集的图像 10,000 4.3 MBytes 下载
t10k-labels-idx1-ubyte.gz 测试集的类别标签 10,000 5.1 KBytes 下载

数据制作:

在paper中有一点比较值得学习,就是图片如何制作成 2828的灰度图的过程,可以借鉴此种方法来对自己的图片进行“resize”。
最原始图片是背景为浅灰色的,分辨率为762
1000 的JPEG图片。然后经过resampled 到 5173 的彩色图片。然后依次经过以下7个步骤,最终得到2828的灰度图

  1. JPEG --> PNG
  2. 裁剪背景
  3. 按比例: max(h,w)28\frac{max(h,w)}{28}28max(h,w)​ 将图像缩放,也就是将一个维度缩放至28
  4. 锐化
  5. 再扩充至28*28,再把object调整至图片中央
  6. 将所有像素点取反,即 255-intensity (感谢网友Jing_xian的指正)
  7. 转化成28*28的灰度图

这一套方法觉得比平时仅采用resize或许会好,可以考虑尝试

【文献阅读】Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms相关推荐

  1. 文献阅读2019-Computer-aided diagnosis system for breast ultrasound images using deep learning

    文献阅读2019-Computer-aided diagnosis system for breast ultrasound images using deep learning 1 通过生成热图来探 ...

  2. 文献阅读:Noise Is Also Useful: Negative Correlation-Steered Latent Contrastive Learning

    文献阅读:Noise Is Also Useful: Negative Correlation-Steered Latent Contrastive Learning Abstract 论文提出了一种 ...

  3. 如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629 原文:How we built Tagger News: machine learning on a

    如何在时间紧迫情况下进行机器学习:构建标记的新闻 数据 库 开发 标记 网站 阅读1629  原文:How we built Tagger News: machine learning on a ti ...

  4. 【文献阅读】小样本学习综述:A Survey on Few-Shot Learning(Y. Wang, 等人,ArXiv,201904)

    一.背景 文章题目:<Generalizing from a Few Examples: A Survey on Few-Shot Learning> VQA的工作暂时告一段落,接下来将要 ...

  5. 论文阅读:智能机器故障诊断方法综述Applications of machine learning to machine fault diagnosis: A review and roadmap

    论文链接:link 2020年雷亚国西交团队 文章目录 1 介绍 2 过去:基于传统机器学习理论的IFD问题 2.1 概述 2.2 Step1:数据采集 2.3 Step2:手工特征提取 2.3.1. ...

  6. 论文阅读 :A survey of visual analytics techniques for machine learning

    题目:A survey of visual analytics techniques for machine learning A survey of visual analytics techniq ...

  7. 【论文阅读】Impact of Texture Information on Crop Classificationwith Machine Learning and UAV Images

    日期:2019年2月 期刊:applied sciences 单位:Department of Geoinformatic Engineering, Inha University 目录 Abstra ...

  8. Fashion MNIST

    原文: Fashion MNIST An MNIST-like dataset of 70,000 28x28 labeled fashion images Fashion-MNIST is a da ...

  9. 文献阅读总结:网络表示学习/图学习

    本文是对网络表示学习/图学习(Network Representation Learning / Graph Learning)领域已读文献的归纳总结,长期更新. 朋友们,我们在github创建了一个 ...

最新文章

  1. 《数学之美》第2章自然语言处理从规则到统计
  2. 信息系统项目管理师-信息文档与配置管理核心知识点思维脑图
  3. python getchar_system(“pause”)和getchar()
  4. cnn神经网络可以用于数据拟合吗_代码详解:最全面的卷积神经网络介绍,都在这里了...
  5. filter 中用spring StopWatch 监控请求执行时间
  6. 【JS 逆向百例】百度翻译接口参数逆向
  7. linux增量安装tomcat_Linux服务器上的tomcat中部署web项目
  8. python求组合数_求组合数的算法_Cppowboy's Blog - SegmentFault 思否
  9. 系统设计(二)——TinyURL系统设计
  10. java 协议开发_用Java的NIO开发网络协议
  11. python编程入门 适合于零基础朋友-《从零开始学 Python》(第二版)
  12. php 有序数组,php 归拢两个有序数组
  13. eclipse下载及安装教程
  14. 万能的应用商店_WiFi万能助手
  15. HTTP、HTTPS、SPDY、HTTP2.0、HTTP3.0 —— 通信协议学习笔记(二)
  16. 深度神经网络为什么有效,神经网络处理什么问题
  17. 书评与摘抄《如何阅读一本书》
  18. 喜马拉雅音频下载器 V1.2 支持专辑批量下载 喜马拉雅mp3下载导出 喜马拉雅下载器...
  19. 基于统计复用的分组交换网络拥塞控制的科普解释
  20. OutLook中的live.cn(吐血配置)

热门文章

  1. 对软件工程的问题及个别软件的分析
  2. sqlserver 字符串中是不是全为数字
  3. cloud源码-Feign
  4. OpenSessionInViewFilter 的配置
  5. chrome打开网址但是没有地址栏
  6. Perl命令行常见用法及技巧
  7. 【SoftwareTestingHomework2】--3013218086--
  8. webapp构建工具库
  9. SwiftUI 打开高德地图
  10. 《设计模式详解》行为型模式 - 解释器模式