首页 > 其他分享 >【scikit-learn基础】--『预处理』之 正则化

【scikit-learn基础】--『预处理』之 正则化

时间:2023-12-18 09:55:54浏览次数:32  
标签:L1 -- 模型 scikit 正则 L2 learn 范数 数据

数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的正则化处理,主要功能是对每个样本计算其范数,然后对该样本中每个元素除以该范数,
这样处理的结果是使得每个处理后样本的范数(如l1-norm、l2-norm)等于1。

1. 原理

介绍正则化之前,先简单介绍下范数的概念。

1.1. 范数

范数常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小,
可以简单理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。

对于向量(\(x = [x_1, x_2, ...,x_m]\)),常见的范数有:

  1. L1范数,向量元素绝对值之和,x 到零点的曼哈顿距离(\(\parallel x \parallel_1=\sum_{i=1}^m \mid x_{i}\mid\))
  2. L2范数,向量元素绝对值的平方和再开方,表示x到零点的欧式距离(\(\parallel x \parallel_2=\sqrt{\sum_{i=1}^m \mid x_{i}^2\mid}\))
  3. p-范数,向量元素绝对值的p次方和的1/p次幂,表示x到零点的p阶闵氏距离(\(\parallel x \parallel_p=(\sum_{i=1}^m \mid x_{i}\mid^p)^\frac{1}{p}\))
  4. 无穷范数,所有向量元素绝对值中的最大值(\(\parallel x \parallel_{\infty}=max_i\mid x_i \mid\))
  5. 等等。

numpy中已经提供了计算向量范数的函数。

import numpy as np

# 范数计算

arr = np.random.randint(0, 100, 10)
print("向量: {}".format(arr))

L1 = np.linalg.norm(arr, 1)
print("L1范数: {}".format(L1))
L2 = np.linalg.norm(arr, 2)
print("L2范数: {}".format(L2))

LInf = np.linalg.norm(arr, np.inf)
print("无穷范数: {}".format(LInf))

# 运行结果
向量: [12 22 30 75 20 28 38 72  2 33]
L1范数: 332.0
L2范数: 126.72016414130783
无穷范数: 75.0

1.2. 正则化

有了范数的概念之后,再来看正则化,根据选用的范数不同,正则化也分为L1正则化,L2正则化等等。
范数正则化过程中扮演了重要的角色,被用来限制优化参数的大小,帮助防止模型过拟合。

from sklearn import preprocessing as pp

data = np.random.randint(1, 100, size=(3, 3))
L1 = pp.normalize(data, norm="l1")
L2 = pp.normalize(data, norm="l2")
LMax = pp.normalize(data, norm="max")

print("L1正则化: {}".format(L1))
print("L2正则化: {}".format(L2))
print("Max正则化: {}".format(LMax))

# 运行结果
L1正则化: 
[[0.29677419 0.09677419 0.60645161]
 [0.20408163 0.46938776 0.32653061]
 [0.05       0.67       0.28      ]]

L2正则化:
[[0.43510613 0.14188244 0.88912993]
 [0.33614632 0.77313654 0.53783412]
 [0.06869324 0.92048947 0.38468217]]

Max正则化:
[[0.4893617  0.15957447 1.        ]
 [0.43478261 1.         0.69565217]
 [0.07462687 1.         0.41791045]]

正则化之后,所有的数值都被压缩到了 0~1之间。
后续介绍机器学习算法时,可以看到正则化如何缓解训练结果过拟合的问题。

2. 作用

对数据进行正则化处理的主要作用有:

2.1. 防止过拟合

过拟合是指模型在训练数据上表现很好,但在测试数据上表现不佳的现象。
主要原因是模型在训练数据上学习了过多的噪声和异常值,导致对训练数据过度拟合。

正则化通过对模型的复杂性进行惩罚,使得模型在训练数据上表现良好的同时,也能够对测试数据有较好的预测能力。

2.2. 提升稳定性和鲁棒性

稳定性是指模型对于输入数据的小变化能够产生可接受的结果。
也就是说,如果输入数据在一定范围内发生微小变化,模型的输出结果也会相应地按照相同的排列顺序发生微小变化,而不是发生较大的颠覆性变化。

鲁棒性则是指模型在一定条件下对于某些性能的保持能力。
也就是说,当输入数据中存在噪声、异常值或不完全信息时,模型能够通过适当的处理和算法,保持其原有的性能表现,不会因为这些干扰因素而出现大幅度性能下降。

在实际应用中,稳定性鲁棒性往往是相互制约的。
过于强调稳定性可能导致模型过于简单,无法处理复杂的数据特征;
而过于强调鲁棒性可能导致模型过于复杂,容易受到噪声和异常值的影响。
因此,需要根据实际应用场景和数据特点来权衡考虑这两种性能指标,以实现最优的性能表现。

正则化可以通过对模型的复杂性进行惩罚,使得模型对于输入数据的小变化不会产生太大的影响,从而提高了模型的稳定性鲁棒性

2.3. 提高泛化能力

泛化能力是指模型在未曾见过的数据上的表现能力,也就是模型对于新的数据的适应能力。

正则化可以通过对模型的复杂性进行惩罚,使得模型更加专注于训练数据中的重要特征,而不是被训练数据中的噪声和异常值所迷惑。
这样可以在一定程度上提高模型的泛化能力,使得模型在未知数据上的表现更好。

3. 总结

scikit-learn中,主要有三种正则化方法,L1正则化,L2正则化和Max正则化。
实际应用中,根据数据的特征和场景对数据选择不同的正则化方法,使得训练后的模型能够有更好的精度和性能。

标签:L1,--,模型,scikit,正则,L2,learn,范数,数据
From: https://www.cnblogs.com/wang_yb/p/17910389.html

相关文章

  • 倾斜摄影三维模型重建的几何坐标变换技术方法浅析
    倾斜摄影三维模型重建的几何坐标变换技术方法浅析 倾斜摄影三维模型数据的坐标变换是将相机坐标系下获取的倾斜摄影图像转换为地理坐标系下的三维模型数据,以实现地理空间信息的表达与分析。在实际应用中,需要进行坐标变换的主要包括航片图像、相机姿态参数和控制点坐标等数据。......
  • electric 基于pg 的现代应用的同步层框架
    electric是使用Elixir开发的基于pg的应用数据同步层中间件,electric支持多种集成模式支持模式drivers 支持基于sqlite的应用同步,包含了本地,移动端,以及后端前端支持 包含了对于一些主流前端框架的支持后端 对于各种后端框架的支持对于evnetsourcing的支持 包含了cd......
  • 第三章 分布式配置中心
    1.简介为什么需要分布式配置中心分布式配置中心是为了解决在分布式系统中进行配置管理的需求而引入的。在传统的单体应用中,通常使用配置文件集中管理系统的配置信息。然而,在分布式系统中,由于系统规模变大、节点众多,并且可能部署在不同的服务器上,传统的配置文件方式会面临一些挑......
  • 2023/12/9
    实验三:JFinal极速开发框架实验 (2023.12.13日完成)    根据参考资料,学习JFinal极速开发框架的使用并如下任务:    任务一:了解Maven及其使用方法,总结其功能作用(占20%)    任务二:学习JFinal框架,基于Maven建立JFinal工程,并对JFinal框架功能进行总结介绍(占30%)    任......
  • 2023/12/8
    实验二:百度图像增强与特效SDK实验(2023.12.6日完成)    任务一:下载配置百度图像增强与特效的Java相关库及环境(占10%)。    任务二:了解百度图像增强与特效相关功能并进行总结(占20%)。    任务三:完成图像增强GUI相关功能代码并测试调用,要求上传自己的模糊照片进行图像增......
  • 十二、路由参数和应用数据共享
    数据传递页面跳转,使用路由传递。//page1跳转传递参数router.pushUrl({url:'pages/ParamRouter2',params:{name:'HarmonyOS4.0',age:20}})//page2接收参数le......
  • 由初中生实现的 Windows 12 网页版!
    大家好,我是Java陈序员。这几天,逛Github的时候,看到了一个项目win12——仿Windows12网页版!被它实现的页面功能震撼到了,大家可以一起来感受下!首先是登录页面。登录后,再看看“电脑桌面”,这风格完全和Windows操作系统的一模一样!默认的应用程序有“此电脑”、“Microsof......
  • 2023/12/14
     大作业:(2023.12.27日完成)各位同学可根据自身情况进行选择:    选项一:根据实验一、二、三完成如下任务:        任务一:基于Jfinal构建信息管理系统,要求包含用户管理,翻译业务模块管理,图片优化模块管理(占30%)。        任务二:要求不同用户登录后可进行文字翻......
  • 仲裁者模式
    仲裁者模式和中介者模式类似,但作用又有不同之处,仲裁者模式是对多个对象的管理协调,而中介者一般是一代一。仲裁者有两个角色,仲裁者和被仲裁者,使用场景比如winform模式,form就是仲裁者,各种控件就是被仲裁者,仲裁者负责协调管理。代码示例packagedesignMode.mediator;publicinter......
  • linux防止常见的网络攻击
    什么是syn,ddos,pingSYN(Synchronize):在TCP(传输控制协议)中,SYN是握手过程的一部分。当客户端尝试与服务器建立连接时,它发送一个带有SYN标志的数据包。服务器收到SYN数据包后,通常会回复一个带有SYN和ACK(确认)标志的数据包,表示接受连接。最后,客户端再发送一个带有ACK标志......