提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
scikit-learn工具介绍
首先是使用python编译器的转变,今天学习中使用的是VSCode。
这里使用到的新的虚拟库命名为sklearn。
数据集(重点介绍和了解)
sklearn玩具数据集介绍
数据量小,数据在sklearn库的本地,只要安装了sklearn,不用上网就可以获取。
首先我们要明白"玩具数据的意义“:“玩具数据集”通常是指那些设计用于教学、测试算法或演示目的的小型、简单的数据集。这些数据集往往具有清晰的结构和标签,使得它们非常适合用来快速理解和实验不同的机器学习模型,而不需要处理真实世界数据集中常见的复杂性和噪声。
采用的函数为(load)
sklearn现实世界数据集介绍
数据量大,数据只能通过网络获取(fetch)
sklearn加载玩具数据集
from sklearn.datasets import load_iris#这个函数是加载玩具数据
iris = load_iris()#使用load_iris()函数来加载lris数据集
#print(iris.data)#数据(特征数据)
print(iris.data.shape)#数据维度
print(iris.feature_names)#特征名称
print(iris.target)#标签(目标) 数组
print(iris.target.shape)
print(iris.target_names)#列表 包含目标标签的名称
这里不放完iris.data数据打印全部的结果,这里的就是有关特征数据。
每一行有一个样本,包含4个特征值。
数据形状采用(iris.data.shape) 打印出来150个样本,每个样本有4个特征
lirs.feature_names 表示每个样本的4个特征的名称
[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]
iris.feature_names 特征名称:
sepal length (cm):花萼长度(厘米)
sepal width (cm):花萼宽度(厘米)
petal length (cm):花瓣长度(厘米)
petal width (cm):花瓣宽度(厘米)
目的标签:每个样本的类别标签,共有 3 个类别,分别用 0、1 和 2 表示。
0、1 和 2 是 Iris 数据集中目标标签的整数编码,用于表示不同的类别。
0:表示样本属于 Iris-setosa 类别。
1:表示样本属于 Iris-versicolor 类别。
2:表示样本属于 Iris-virginica 类别。
数据集总结
对于数据集从我的学习过程中感受到的是sklearn.learn中有相关的小型数据(玩具数据)
通过调用例如鸢尾花、例如调用红酒数据from klearn.datasets import load_iris、from sklearn.datasets import =load_wine
总结而言就是先把相关库导入进来,然后进行数据的初始化举例红酒:wine=load_wine
重要属性:
1、data 特征
2、feature_names 特征描述
3、target 目标
4、target_names 目标描述
5、DESCR数据集的描述
6、filename 下到本地保存后的文件名
掌握薄弱点
1、在初次学习中遇到对于csv文件的保存,打开计事本,写出如下数据,数据之间使用英文下的逗号, 保存文件后把后缀名改为csv
2、函数集划分需要背住的方式,from sklearn.model_selection import train_test_split
特征工程
所谓特征工程就是把对特征进行相关的处理
使用的库采用pandas进行清洗和数据处理和sklearn来进行特征工程。
步骤
1、特征提取,如果不是dataframe类似的数据,要进行特征提取,如字典提取,文本特征提取。
2、无量纲化
归一化minmaxscaler
作为数学原理需要知道处理方式,作为实际意义
需要提到的是作为数学原理中,分母采用Xmax-Xmin,每种特征中的最小值和最大值,分子采用X(当前值,