归一化与标准化
前言
- 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些模型(算法)无法学习到其它的特征。
- 所以我们需要对特征进行预处理,让不同特征在同一尺度下进行比较,从而避免因特征值大小差异而导致的模型训练偏倚。
一、最小最大值归一化
1.1 原理(公式)
- 这种方法将特征值缩放到指定的区间内,默认是0到1之间。计算公式如下:
x n o r m = x − m i n ( x ) m a x ( x ) − m i n ( x ) x_{norm} = \frac{x-min(x)}{max(x)-min(x)} xnorm=max(x)−min(x)x−min(x) - 如果需要缩放至其他区间[a, b],则可以使用:
x n o r m = a + ( x − m i n ( x ) m a x ( x ) − m i n ( x ) ) ⋅ ( b − a ) x_{norm} = a + (\frac{x-min(x)}{max(x)-min(x)}) \cdot (b-a) xnorm=a+(max(x)−min(x)x−min(x))⋅(b−a)
1.2 API 介绍
- sklearn.preprocessing.MinMaxScaler ( )
1.2.1 参数介绍
- feature_range:tuple (min, max), default=(0, 1)
- 描述:这个参数用于设定缩放的范围。默认情况下,数据会被缩放到 [0, 1] 范围内。但用户可以根据需要设定其他范围,例如 [-1, 1]。
- 作用:通过调整缩放范围,可以对数据的分布进行更精细的控制,以适应不同的机器学习算法和数据特点。
- copy:boolean, optional, default=True
- 描述:这个参数用于指定是否将转换后的数据覆盖原数据。如果设置为 True,则不会修改原始数据,而是返回一个新的缩放后的数据数组。如果设置为 False,则会在原地修改原始数据。
- 作用:通过控制是否覆盖原数据,可以保护原始数据的完整性,避免在数据处理过程中发生数据丢失或修改。
- clip:boolean, optional, default=False
- 描述:clip 参数是一个布尔值,用于控制是否对变换后的数据进行裁剪。
- 作用:当 clip=True 时,变换后的数据将被裁剪到指定的范围内,确保数据的一致性和有效性;当 clip=False 时,变换后的数据可能超出指定的范围,这需要根据具体情况来决定是否启用裁剪功能。
1.2.2 属性介绍
在 MinMaxScaler 类中,还有一些重要的属性,用于存储缩放过程中的相关信息:
- min_:ndarray of shape (n_features,)
- 描述:存储每个特征调整后的最小值。
- scale_:ndarray of shape (n_features,)
- 描述:存储每个特征数据缩放的比例。这个比例是通过计算特征的最大值和最小值之差,然后除以指定的缩放范围(feature_range)来得到的。
- data_min_ 和 data_max_:ndarray of shape (n_features,)
- 描述:分别存储每个特征在训练数据中的最小值和最大值。这些值是在调用 fit 或 fit_transform 方法时计算得到的。
1.2.3 注意事项
- 归一化受到最大值与最小值的影响,这种方法容易受到异常数据的影响, 鲁棒性较差,适合传统精确小数据场景
1.2.4 代码演示
代码如下(示例):
# 导包
from sklearn.preprocessing import MinMaxScaler # 归一化的类
# 1. 准备特征数据. 每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]
# 2. 创建归一化对象.
transfer = MinMaxScaler()
# 3. 具体的 归一化动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)
# 4. 打印 归一化后的结果
print(f'归一化后, 数据集为: {new_data}') # [[1. 0. 0. 0. ]
# [0. 1. 1. 0.83333333]
# [0.5 0.5 0.6 1. ]]
1.3 举例说明
- 1.有以下一个数据集,包含两个特征:年龄(Age)和收入(Income)。我们希望这两个特征进行归一化处理。
Age | Income |
---|---|
20 | 30000 |
22 | 32000 |
35 | 55000 |
45 | 75000 |
50 | 85000 |
-
2.我们将年龄和收入都归一化到0到1的范围内。
-
2.1 年龄归一化:
A g e n o r m = A g e − m i n ( A g e ) m a x ( A g e ) − m i n ( A g e ) Age_{norm} = \frac{Age-min(Age)}{max(Age)-min(Age)} Agenorm=max(Age)−min(Age)Age−min(Age)- A g e n o r m = 20 − 20 50 − 20 = 0 Age_{norm} = \frac{20-20}{50-20} = 0 Agenorm=50−2020−20=0
- A g e n o r m = 22 − 20 50 − 20 = 0.0667 Age_{norm} = \frac{22-20}{50-20} = 0.0667 Agenorm=50−2022−20=0.0667
- A g e n o r m = 35 − 20 50 − 20 = 0.5 Age_{norm} = \frac{35-20}{50-20} = 0.5 Agenorm=50−2035−20=0.5
- A g e n o r m = 45 − 20 50 − 20 = 0.8333 Age_{norm} = \frac{45-20}{50-20} = 0.8333 Agenorm=50−2045−20=0.8333
- A g e n o r m = 50 − 20 50 − 20 = 1 Age_{norm} = \frac{50-20}{50-20} = 1 Agenorm=50−2050−20=1
-
2.2 收入归一化:
I n c o m e n o r m = I n c o m e − m i n ( I n c o m e ) m a x ( I n c o m e ) − m i n ( I n c o m e ) Income_{norm} = \frac{Income-min(Income)}{max(Income)-min(Income)} Incomenorm=max(Income)−min(Income)Income−min(Income)- I n c o m e n o r m = 30000 − 30000 85000 − 30000 = 0 Income_{norm} = \frac{30000-30000}{85000-30000} = 0 Incomenorm=85000−3000030000−30000=0
- I n c o m e n o r m = 32000 − 30000 85000 − 30000 = 0.0364 Income_{norm} = \frac{32000-30000}{85000-30000} = 0.0364 Incomenorm=85000−3000032000−30000=0.0364
- I n c o m e n o r m = 55000 − 30000 85000 − 30000 = 0.4545 Income_{norm} = \frac{55000-30000}{85000-30000} = 0.4545 Incomenorm=85000−3000055000−30000=0.4545
- I n c o m e n o r m = 75000 − 30000 85000 − 30000 = 0.8182 Income_{norm} = \frac{75000-30000}{85000-30000} = 0.8182 Incomenorm=85000−3000075000−30000=0.8182
- I n c o m e n o r m = 85000 − 30000 85000 − 30000 = 1 Income_{norm} = \frac{85000-30000}{85000-30000} = 1 Incomenorm=85000−3000085000−30000=1
-
-
3 原数据集就会变成下面这样
Age | Income |
---|---|
0 | 0 |
0.0667 | 0.0364 |
0.5 | 0.4545 |
0.8333 | 0.8182 |
1 | 1 |
二、标准化
2.1 原理(公式)
- 标准化是将特征值转换为具有零均值和单位方差的形式。计算公式如下:
x s t d = x − μ σ x_{std} = \frac{x-μ}{σ} xstd=σx−μ - 其中, μ μ μ 是特征的平均值, σ σ σ 是特征的标准差。
2.2 API 介绍
- sklearn.preprocessing.StandardScaler( )
2.2.1 参数介绍
- copy:类型:布尔值(Boolean);默认值:True
- 说明:如果设置为 True,则会在操作后创建数据的副本,不会修改原始数据。如果设置为 False,则不会创建副本,操作后会直接替换原始数据。
- with_mean:类型:布尔值(Boolean);默认值:True
- 说明:如果设置为 True,则在转换数据时会减去均值(即进行中心化)。如果设置为 False,则不会在转换时减去均值,但 fit 操作仍然会计算均值,并可以通过 mean_ 属性查看。
- with_std:类型:布尔值(Boolean);默认值:True
- 说明:如果设置为 True,则在转换数据时会除以标准差(即进行缩放)。如果设置为 False,则不会在转换时除以标准差,但 fit 操作仍然会计算标准差,并可以通过 scale_ 属性查看。
2.2.2 属性介绍
- scale_:
- 存放每个特征的标准差,是一个列表,长度为特征数。
- mean_:
- 存放每个特征的均值,是一个列表,长度为特征数。
- var_:
- 存放每个特征的方差,是一个列表,长度为特征数。
- feature_names_in_:
- 存放特征的名字,只有导入的数据中有特征名字时才会被定义。
- n_samples_seen_:
- 导入样本数据的个数。
2.2.3 注意事项
- 对于标准化来说,如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大。
2.2.4 代码演示
代码如下(示例):
from sklearn.preprocessing import StandardScaler
# 1. 准备特征数据. 每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]
# 2. 创建 标准化 对象.
transfer = StandardScaler()
# 3. 具体的 标准化 动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)
# 4. 打印 标准化 后的结果
print(f'标准化后, 数据集为: {new_data}')
# 5. 打印每个特征列的 平均值 和 方差 和 标准差
print(f'均值: {transfer.mean_}')
print(f'方差: {transfer.var_}')
print(f'标准差: {transfer.scale_}')
print(f'样本数: {transfer.n_samples_seen_}')
2.3 举例说明
- 1.有以下一个数据集,包含两个特征:年龄(Age)和收入(Income)。我们希望这两个特征进行归一化处理。
Age | Income |
---|---|
20 | 30000 |
22 | 32000 |
35 | 55000 |
45 | 75000 |
50 | 85000 |
-
2.我们将年龄和收入标准化到具有零均值和单位方差的形式。
-
2.1 年龄标准化:
x s t d = x − μ σ x_{std} = \frac{x-μ}{σ} xstd=σx−μ
μ A g e = 20 + 22 + 35 + 45 + 50 5 = 34.4 μ_{Age} = \frac{20+22+35+45+50}{5} = 34.4 μAge=520+22+35+45+50=34.4
σ A g e = ( 20 − 34.4 ) 2 + ( 22 − 34.4 ) 2 + ( 35 − 34.4 ) 2 + ( 45 − 34.4 ) 2 + ( 50 − 34.4 ) 2 5 = 142.8856 ≈ 11.9536 σ_{Age} = \sqrt{\frac{(20-34.4)^2+(22-34.4)^2+(35-34.4)^2+(45-34.4)^2+(50-34.4)^2}{5}} = \sqrt{142.8856} ≈ 11.9536 σAge=5(20−34.4)2+(22−34.4)2+(35−34.4)2+(45−34.4)2+(50−34.4)2 =142.8856 ≈11.9536- A g e s t d = 20 − 34.4 11.9536 ≈ − 1.2047 Age_{std} = \frac{20-34.4}{11.9536} ≈ -1.2047 Agestd=11.953620−34.4≈−1.2047
- A g e s t d = 22 − 34.4 11.9536 ≈ − 1.037 Age_{std} = \frac{22-34.4}{11.9536} ≈ -1.037 Agestd=11.953622−34.4≈−1.037
- A g e s t d = 35 − 34.4 11.9536 ≈ 0.0502 Age_{std} = \frac{35-34.4}{11.9536} ≈ 0.0502 Agestd=11.953635−34.4≈0.0502
- A g e s t d = 45 − 34.4 11.9536 ≈ 0.8868 Age_{std} = \frac{45-34.4}{11.9536} ≈ 0.8868 Agestd=11.953645−34.4≈0.8868
- A g e s t d = 50 − 34.4 11.9536 ≈ 1.3050 Age_{std} = \frac{50-34.4}{11.9536} ≈ 1.3050 Agestd=11.953650−34.4≈1.3050
-
2.2 收入标准化:
μ I n c o m e = 30000 + 32000 + 55000 + 75000 + 85000 5 = 55 , 400 μ_{Income} = \frac{30000+32000+55000+75000+85000}{5} = 55,400 μIncome=530000+32000+55000+75000+85000=55,400
σ I n c o m e = ( 30000 − 55400 ) 2 + ( 32000 − 55400 ) 2 + ( 55000 − 55400 ) 2 + ( 75000 − 55400 ) 2 + ( 85000 − 55400 ) 2 5 = 486176800 ≈ 22049 σ_{Income} = \sqrt{\frac{(30000-55400)^2+(32000-55400)^2+(55000-55400)^2+(75000-55400)^2+(85000-55400)^2}{5}} = \sqrt{486176800} ≈ 22049 σIncome=5(30000−55400)2+(32000−55400)2+(55000−55400)2+(75000−55400)2+(85000−55400)2 =486176800 ≈22049- I n c o m e n o r m = 30000 − 55400 22049 = − 1.1520 Income_{norm} = \frac{30000-55400}{22049} = -1.1520 Incomenorm=2204930000−55400=−1.1520
- I n c o m e n o r m = 32000 − 55400 22049 = − 1.0613 Income_{norm} = \frac{32000-55400}{22049} = -1.0613 Incomenorm=2204932000−55400=−1.0613
- I n c o m e n o r m = 55000 − 55400 22049 = − 0.0181 Income_{norm} = \frac{55000-55400}{22049} = -0.0181 Incomenorm=2204955000−55400=−0.0181
- I n c o m e n o r m = 75000 − 55400 22049 = 0.8889 Income_{norm} = \frac{75000-55400}{22049} = 0.8889 Incomenorm=2204975000−55400=0.8889
- I n c o m e n o r m = 85000 − 55400 22049 = 1.3425 Income_{norm} = \frac{85000-55400}{22049} = 1.3425 Incomenorm=2204985000−55400=1.3425
-
-
3 原数据集就会变成下面这样
Age | Income |
---|---|
-1.2047 | -1.1520 |
-1.037 | -1.0613 |
0.0502 | -0.0181 |
0.8868 | 0.8889 |
1.3050 | 1.3425 |
三、案例代码:利用KNN算法进行鸢尾花分类
代码如下(示例):
# 0.导入工具包
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 1.加载数据集
iris_data = load_iris()
# print(iris_data)
# print(iris_data.target)
# 2.数据展示
iris_df = pd.DataFrame(iris_data['data'], columns=iris_data.feature_names)
iris_df['label'] = iris_data.target
# print(iris_data.feature_names)
# sns.lmplot(x='sepal length (cm)',y='sepal width (cm)',data = iris_df,hue='label')
# plt.show()
# 3.特征工程(预处理-标准化)
# 3.1 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=22)
print(len(iris_data.data))
print(len(x_train))
# 3.2 标准化
process = StandardScaler()
x_train = process.fit_transform(x_train)
x_test = process.transform(x_test)
# 4.模型训练
# 4.1 实例化
model = KNeighborsClassifier(n_neighbors=3)
# 4.2 调用fit法
model.fit(x_train,y_train)
# 5.模型预测
x = [[5.1, 3.5, 1.4, 0.2]]
x=process.transform(x)
y_predict =model.predict(x_test)
print(model.predict_proba(x))
# 6.模型评估(准确率)
# 6.1 使用预测结果
acc =accuracy_score(y_test,y_predict)
print(acc)
# 6.2 直接计算
acc = model.score(x_test,y_test)
print(acc)
总结
- 文章总结了特征预处理中的归一化和标准化,并对每一种方法做了详细讲解,最后用一个综合案例,使用前面学过的的KNN算法来验证预处理的必要性。