#加载数据集,返回字典类型的数据
sklearn.datasets.load_iris()
数据示例
iris = sklearn.datasets.load_iris()
#数据集特征值
iris['data']
#数据集标签值
iris['target']
特征和标签相对应
数据集的划分
由于数据集在某些情况下是很珍贵的,并且在训练后需要对模型性能进行验证,因此如果将所有数据都用于训练模型,那么将没有数据可以用来测试模型。所以需要对数据集进行划分,使用一大部分用来训练模型,剩余部分用来测试模型。
工具包提供了划分方法,使用sklearn.model_selection
包下的train_test_split
方法传递分割的参数进行划分。
- 参数依次为:
数据集特征值
、数据集标签值
、测试集规模(浮点数表示)
、随机数种子
- 返回类型为:
数据集特征值
、测试集特征值
、数据集标签值
、测试集标签值
因此demo如下:
#0.2表示划分的测试集规模为20%
x_train, y_train, x_target, y_target = train_test_split(iris['data'], iris['target'], test_size=0.2,random_state=22)
print("训练集特征值:\n", x_train, x_train.shape)
特征提取
概念、意义
将任意数据转换为可用于机器学习的数字特征。
形象化比喻:剥鸡蛋,使计算机更好的去消化数据
- 字典特征提取
- 文本特征提取
- 图像特征提取
特征提取API
sklearn.feature_extraction
字典特征提取
- 作用:对字典数据进行特征值化