使用Python预处理机器学习需要的手写体数字图像文件数据集
封面图片:《Python程序设计实验指导书》,董付国,清华大学出版社
=============
问题描述:为演示机器学习算法对手写体数字识别与分类,需要准备大量数据,如果自己写的话需要很长时间,于是找很多同学帮忙,每位同学提供30张图片,每个图片包含一个数字的手写体,分别命名为0_1.png、0_2.png、0_3.png、1_1.png、1_2.png、1_3.png、...
一般来说,拿到的数据集都是无法直接使用的,这个数据集也不例外。真正作为机器学习数据集的话,需要对这些文件进行预处理,所有图片文件统一命名(虽然这并不是必须的)为0.jpg、1.jpg、2.jpg、3.jpg...同时应提供每个图片中数字对应的标签,也就是图片文件中实际包含的数字。
同学们提交的文件使用董付国老师开发的课堂管理系统统一收集(选用董付国老师系列Python教材的老师可以免费获取软件源码,既可以上课用,也可以作为教学案例),当然也可以通过其他途径收集,该软件教师端界面如下:
收集后文件夹结构如图所示:
下面代码要解决的任务是:遍历所有png图片文件,将其按顺序编号复制到datasets文件夹并改名为jpg文件,同时根据文件名第一个字符获取该图片中实际包含的数字并写入文件digits.txt。
使用广度优先遍历目录树预处理数据集的参考代码:
代码运行后得到统一命名的图片文件,可以发现有同学故意捣乱啊,但这恰好反映了数据预处理的重要性:
生成的标签文件digits.txt中部分内容:
温馨提示
关注本公众号“Python小屋”,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的800篇技术文章列表(可根据关键字在页面上搜索感兴趣的文章),通过“最新资源”==>“微课专区”可以免费观看300节Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。
--------董付国老师Python系列图书--------
友情提示:不建议购买太多,最好先通过京东、当当、天猫查阅图书了解目录和侧重点,然后再选择购买适合自己的书。
1)《Python程序设计(第2版)》清华大学出版社,2016年8月
2)《Python可以这样学》清华大学出版社,2017年2月
3)《Python程序设计基础(第2版)》清华大学出版社,2018年1月
4)《中学生可以这样学Python》清华大学出版社,配套微课:《中学生可以这样学Python》84节微课免费观看地址
5)《Python程序设计开发宝典》清华大学出版社,2018年10月
6)《玩转Python轻松过二级》清华大学出版社,2018年5月
7)《Python程序设计基础与应用》机械工业出版社,2018年9月
8)《Python程序设计实验指导书》清华大学出版社,2019年4月
9)《Python编程基础与案例集锦(中学版)》电子工业出版社,2019年4月
10)《大数据的Python基础》机械工业出版社,预计2019年5月出版
11)译作《Python程序设计》,机械工业出版社(华章),2018年11月出版
12)繁体版《Python也可以这样学》,台湾博硕文化股份有限公司,2017年10月出版,本书为《Python可以这样学》在台湾发行的繁体版,两本书内容一样,不建议重复购买。
《中学生可以这样学Python》84节微课免费观看地址
非计算机专业《Python程序设计基础》教学参考大纲
计算机相关专业“Python程序设计”教学大纲(参考)
《Python程序设计》实验指导书(30个实验)
《Python程序设计基础与应用》课后习题答案
Python课程期末考试编程题自动批卷原理与实现模板
“Python小屋”免费资源汇总(截至2018年11月28日)
Python课堂上我与学生斗智斗勇已8个学期
技术要点|Python监控学生端电脑屏幕自动识别学习状态
课后习题答案
《Python程序设计基础(第2版)》习题答案
《Python程序设计基础与应用》课后习题答案
实验指导书
《Python程序设计》实验指导书(30个实验)
Python实验项目1例:使用进程池统计指定范围内素数的个数
教学大纲
非计算机专业《Python程序设计基础》教学参考大纲
计算机相关专业“Python程序设计”教学大纲(参考)
课件
1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)
1900页Python系列PPT分享七:文件操作(132页)
1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
2000页Python系列PPT分享九:(GUI编程)(122页)
报告PPT
报告PPT(163页):基于Python语言的课程群建设探讨与实践
报告PPT(123页):Python编程基础精要
(PPT)Python程序设计课程教学内容组织与教学方法实践
使用Python预处理机器学习需要的手写体数字图像文件数据集相关推荐
- Python 3 利用机器学习模型 进行手写体数字检测
0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...
- python机器学习手写字体识别_Python 3 利用机器学习模型 进行手写体数字检测
0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...
- Python神经网络编程:手写数字的数据集MNIST
识别人的笔迹这个问题相对复杂,也非常模糊,因此这是一种检验人工智能的理想挑战.这不像进行大量数字相乘那样明确清晰. 让计算机准确区分图像中包含的内容,有时也称之为图像识别问题.科学家对这个问题进行了几 ...
- MNIST手写体数字识别数据集
一.总体介绍 1.1 什么是机器识别手写数字? 1.2 MNIST数据集是什么? (1)该数据集包含60,000个用于训练的示例和10,000个用于测试的示例. (2)数据集包含了0-9共10类手写数 ...
- 基于TensorFlow的手写体数字识别
目录 一.MNIST数据集介绍 二.原理 2.1.卷积神经网络简介( convolutional neural network 简称CNN) 2.1.1卷积运算过程 2.1.2滑动的步长 2.1.3卷 ...
- [转载]Scikit Learn: 在python中机器学习
原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...
- svm手写数字识别python_SVM算法识别手写体数字
sklearn内部集成了一些手写体数字图片数据集,现在我们使用这些数据,用SVM支持向量机算法进行训练识别的练习.笔者习惯用pycharm,今天手痒,用一下Spyder编辑,顺便对比一下哪一个好用.废 ...
- 基于AlexNet卷积神经网络的手写体数字倾斜校正系统研究-附Matlab代码
⭕⭕ 目 录 ⭕⭕ ✳️ 一.引言 ✳️ 二.AlexNet 网络 ✳️ 三.实验验证 ✳️ 3.1 实验数据集 ✳️ 3.2 数据训练 ✳️ 3.3 手写体倾斜数字校正结果 ✳️ 四.参考文献 ✳️ ...
- python手机代码识别数字_python实现kNN算法识别手写体数字的示例代码
1.总体概要 kNN算法已经在上一篇博客中说明.对于要处理手写体数字,需要处理的点主要包括: (1)图片的预处理:将png,jpg等格式的图片转换成文本数据,本博客的思想是,利用图片的rgb16进制编 ...
最新文章
- 地图构建两篇顶级论文解析
- 全民大数据时代已来 阿里数加平台详解
- 实例对象的属性和原型对象中的属性重名问题 神奇的原型链 继承 继承案例
- is array php,PHP 源码 — is_array 函数源码分析
- linux 发送socket命令,如何从linux中的命令行向socket.io websocket发送消息?
- 10.Java面向对象(一)
- JS字符串截取(获取指定字符后面的所有字符内容)
- Future机制原理
- 论文发表费用一般是多少
- 蚂蚁金服 Service Mesh 落地实践与挑战,附全套PPT下载
- Metasploit [基础]
- 向量的夹角余弦公式_向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)...
- Linux-tar打包与解压命令
- 图像数据集标注学习笔记
- 作为投资者,这10个对冲策略你必须烂熟于心
- ios runtime重要性_iOS 之runtime运行机制理解
- LimeSDR入门之软硬件安装
- 彩虹世界未能连接到服务器,彩虹世界免费资源-彩虹世界新版基遇免费资源官网链接 v1.0预约_手机乐园...
- 美信时代监控运维 助力银行“数字化转型”
- 心态不能崩......
热门文章
- python查找客户总金额_该程序查找需要支付给所有表现良好的Python的最低金额
- linux 文件差异备份,Linux使用 tar命令-g参数进行增量+差异备份、还原文件
- python列表切片规则_Python 列表切片
- excel两个表格数据对比_Excel表格技巧—如何统计数据个数
- 服务器怎么做虚拟空间,服务器怎么做虚拟空间
- linux python 操作mysql_python 简单操作MySQL
- Java里面长什么样,Java对象在JVM中长啥样
- vue实现多行数据提交_Vue+Mockjs,模拟接口数据,实现前后端独立开发
- android sudio提示快捷键冲突解决
- RPC系列:基本概念