一:1.在机器学习中,我们使用学习程序让计算机读取大量数据并根密数据特征自己进行学 。
2.本章中,笔者会介绍于写数字识别这个分类问题的实例。具体来说就是对于写数字图像数据进行识别,并将其分类为数字0~9。
3.本章中,针对手写数字识别问题,我们会使用支持向量机算法。
4.本章中,我们会使用 scikit-leam 这个机器学习库,只需要儿行代码就可以体验机器学习。
在分类问题的机器学习中,我们将学习算法称为学习器,将作为学习结果得到的模型称 分类器。模型就是用于识别的机制。学习器和分类器的本质都是程序。
6,交叉验证是一种不断轮换编写学习器所使用的训练数据和分类器所使用的测试数据来进行机器学习的方法。由此,我们可以检验学习模型的识别幸是否存在因学习数据的类型而出现偏差的情况,据数据特征自己进行学习。
二:机器学习有很多不同的方法,这里要介绍的是有监督学习。有监督学习就是给计算机提供大量带正确答案的数据。以识别手写数字为例,我们可以给计算机提供大量手写数字的图片,并为每张图片配上它所代表的0~9中的正确数字。这里的正确答案就允当了“监督者”的角色。有监督学习适用于手写数字识别这样的分类问题”领城。
三:Python运行程序的方法分为两种,一种是用 Python 解释器对事先编写好的源代码进行解释执行的脚本模式(script mode),另一种是直接启动 Python 解释器,通过键盘逐行输入程序并解释执行的交互模式(interactive mode)。
下面来讲解一下程序的内容。
from sklearn import datasets-----------(1)
digits = datasets.load_digits()-----------(2)
dir(digits)----------(3)
['DESCR', 'data', 'feature _names', 'frame', 'images', 'target',
' target _names']
(1)处从 skleam 模块导人了 datasets对象。
(2)处使用 datasets 对象中的load_digits 方法,将手写数字的数据集加载到内存,并赋值给变量digits。方法指的是对象所具有的功能。
(3)处使用 Python 内置的dir 函数提取出变量 digits 的数据集中所包含的字段。显示结果中的 DESCR、data 等就是字段的名称。