首页 > 编程语言 >使用Python预处理机器学习需要的手写体数字图像文件数据集

使用Python预处理机器学习需要的手写体数字图像文件数据集

时间:2023-06-10 16:03:02浏览次数:73  
标签:文件 Python 数字图像 jpg 手写体 预处理 png 图片


封面图片:《Python程序设计实验指导书》,董付国,清华大学出版社

=============

问题描述:为演示机器学习算法对手写体数字识别与分类,需要准备大量数据,如果自己写的话需要很长时间,于是找很多同学帮忙,每位同学提供30张图片,每个图片包含一个数字的手写体,分别命名为0_1.png、0_2.png、0_3.png、1_1.png、1_2.png、1_3.png、...

一般来说,拿到的数据集都是无法直接使用的,这个数据集也不例外。真正作为机器学习数据集的话,需要对这些文件进行预处理,所有图片文件统一命名(虽然这并不是必须的)为0.jpg、1.jpg、2.jpg、3.jpg...同时应提供每个图片中数字对应的标签,也就是图片文件中实际包含的数字。

同学们提交的文件使用董付国老师开发的课堂管理系统统一收集(选用董付国老师系列Python教材的老师可以免费获取软件源码,既可以上课用,也可以作为教学案例),当然也可以通过其他途径收集,该软件教师端界面如下:

使用Python预处理机器学习需要的手写体数字图像文件数据集_python

收集后文件夹结构如图所示:

使用Python预处理机器学习需要的手写体数字图像文件数据集_大数据_02

下面代码要解决的任务是:遍历所有png图片文件,将其按顺序编号复制到datasets文件夹并改名为jpg文件,同时根据文件名第一个字符获取该图片中实际包含的数字并写入文件digits.txt。

使用广度优先遍历目录树预处理数据集的参考代码:

使用Python预处理机器学习需要的手写体数字图像文件数据集_python_03

代码运行后得到统一命名的图片文件,可以发现有同学故意捣乱啊,但这恰好反映了数据预处理的重要性:

使用Python预处理机器学习需要的手写体数字图像文件数据集_数据挖掘_04

使用Python预处理机器学习需要的手写体数字图像文件数据集_编程语言_05

生成的标签文件digits.txt中部分内容:

使用Python预处理机器学习需要的手写体数字图像文件数据集_数据挖掘_06

公众号“Python小屋”

标签:文件,Python,数字图像,jpg,手写体,预处理,png,图片
From: https://blog.51cto.com/u_9653244/6454741

相关文章

  • 常用Python标准库对象速查表(1)
    封面图片:《Python程序设计基础(第2版)》,董付国,清华大学出版社===============常用Python标准库对象速查表(1)标准库对象简要说明mathsin(x)、cos(x)、tan(x)正弦函数、余弦函数、正切函数,参数单位为弧度asin(x)、acos、atan(x)反正弦函数、反余弦函数、反正切函数ceil(x)、floor(x)向上......
  • Python批量导入Excel文件中的不重复数据到SQLite数据库
    自从2015年开始,为了上课方便,我编写了一个课堂管理系统并陆续增加了很多功能,已连续使用7个学期,在使用过程中也经常修补和完善其中一些细节。这个软件也是《Python可以这样学》最后一章的完整案例,涉及tkinter、数据库、多线程、Word文件操作、Excel文件操作、进程管理、二进制序列化......
  • Python+matplotlib绘制多门课程学生成绩分布饼状图
    封面图片:《Python程序设计实验指导书》,董付国,清华大学出版社=================饼状图比较适合展示一个总体中各个类别所占的比例,例如商场年度营业额中各类商品、不同员工的占比,家庭年度开销中不同类别的占比等。扩展库matplotlib.pyplot中的pie()函数可以用来绘制饼状图,语法如下:pie......
  • Python+pandas分离Excel数据到同一个Excel文件中多个Worksheets
    封面图片:《Python程序设计(第2版)》,董付国,清华大学出版社===============问题描述:已知文件“超市营业额2.xlsx”中结构与部分数据如图所示:现在要求把每个员工的交易数据写入文件“各员工数据.xlsx”,每个员工的数据占一个worksheet,结构和“超市营业额2.xlsx”一样,并以员工姓名作为work......
  • 1000道Python题库系列分享23(61个填空题)
    封面图片:《玩转Python轻松过二级》,董付国,清华大学出版社=================本期题目,参考答案在文末:公众号“Python小屋”参考答案:......
  • 常用Python标准库对象速查表(2):文件与文件夹操作
    封面图片:《Python程序设计基础与应用》,董付国,机械工业出版社图书详情:https://item.jd.com/12433472.html===========os模块常用成员方法功能说明access(path,mode)测试是否可以按照mode指定的权限访问文件chdir(path)把path设为当前工作目录chmod(path,mode,*,dir_fd=None,fol......
  • Python花式编程:6种方法计算1!+2!+...+n!
    问题描述:给定任意正整数n,计算1!+2!+3!+...+n!的值。 阅读原文......
  • Python自学指南-第一章-安装运行
    1.1【环境】快速安装Python与PyCharm“工欲善其事,必先利其器”,为了自学之路的顺利顺利进行。首先需要搭建项目的开发环境。1.下载解释器进入Python官网,目前Python最新Python稳定版为3.11,点击如下链接直接跳到最后,根据你电脑系统以及的位数Win64位:选择Windows......
  • Python+OpenGL使用Cohen-Sutherland算法实现直线裁剪
    问题描述:编写Python程序,使用OpenGL实现用于直线裁剪的Cohen-Sutherland算法。运行程序,绘制一个矩形表示裁剪窗口,然后通过鼠标单击和移动来绘制直线,鼠标抬起时对刚刚绘制的直线进行裁剪,显示最终落在裁剪窗口中的部分。关于Cohen-Sutherland算法请自行查阅资料。准备工作:安装和配置Py......
  • Python+Pandas读取Excel文件分析关系最好的两个演员
    问题描述:已知Excel文件“电影导演演员.xlsx”中内容如下所示,后台发送消息“20220119”下载文件:编写程序,读取Excel文件中的数据,分析共同参演电影数量最多的两个演员,也就是关系最好的两个演员,要求尽可能多地使用Pandas来完成任务。参考代码:运行结果:['演员3''演员4']公众号“Python小......