首页 > 其他分享 >BN是做了线性变换,和加一个线性层有什么区别?

BN是做了线性变换,和加一个线性层有什么区别?

时间:2025-01-14 19:58:02浏览次数:3  
标签:线性变换 特征 BN 层有 学习 维度 线性 输入

BN(Batch Normalization)与线性层的区别

1. Batch Normalization (BN)

功能

BN 是一种正则化方法,用于标准化网络中每一层的输出,从而加速训练并提高模型的稳定性。它对输入数据进行线性变换和标准化,但它的目的是解决深度网络训练中的问题,如梯度消失或梯度爆炸。

公式

BN 对每个 mini-batch 的输入进行标准化和仿射变换:

x ^ = x − μ σ 2 + ϵ \hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} x^=σ2+ϵ ​x−μ​

y = γ x ^ + β y = \gamma \hat{x} + \beta y=γx^+β

其中:

  • x x x: 输入
  • μ , σ 2 \mu, \sigma^2 μ,σ2: 当前 batch 的均值和方差
  • ϵ \epsilon ϵ: 防止分母为 0 的小常数
  • γ , β \gamma, \beta γ,β: 可学习参数,控制输出的尺度和偏移

核心作用

  1. 对每个 mini-batch 的输入标准化:使每一层的输入分布更加稳定,减小梯度消失和爆炸的风险。
  2. 学习可调的仿射变换参数:允许网络保留表达能力。
  3. 加速训练和优化:更高的学习率、更快的收敛。

注意:
BN 并不增加显式的非线性变换,也不会改变输入的特征维度。它主要调整输入的分布,同时引入了少量可学习参数。


2. 加一个线性层

功能

线性层是一种明确的线性变换层,用于改变特征空间的表示,通常伴随着激活函数来引入非线性。它的主要目标是让神经网络学习到更复杂的特征映射。

公式

线性层的计算公式是:

y = W x + b y = Wx + b y=Wx+b

其中:

  • ( x (x (x): 输入(特征向量)
  • ( W (W (W): 权重矩阵(可学习参数)
  • ( b (b (b): 偏置向量(可学习参数)
  • ( y (y (y): 输出

核心作用

  1. 改变特征维度:线性层可以将输入特征从一个维度映射到另一个维度。
  2. 提供可学习的线性变换:配合激活函数形成非线性映射。
  3. 增强模型表达能力:允许模型捕获更复杂的特征和模式。

注意:
线性层会显式改变特征的维度,并提供可学习的权重和偏置。


3. 主要区别

特性Batch Normalization线性层
目的标准化输入分布,稳定训练,加速收敛学习特征映射,改变特征维度
公式 x ^ = x − μ σ 2 + ϵ ,   y = γ x ^ + β \hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}, \ y = \gamma \hat{x} + \beta x^=σ2+ϵ ​x−μ​, y=γx^+β y = W x + b y = Wx + b y=Wx+b
是否改变特征维度
是否引入非线性否(仅标准化和仿射变换)通常配合激活函数引入非线性
可学习参数是( g a m m a gamma gamma, b e t a beta beta)是 ( W , b (W, b (W,b)
核心作用稳定特征分布,提高训练速度,增加网络鲁棒性学习映射关系,增强模型表达能力

4. 为什么它们不同?

  • BN 的作用是处理输入的分布问题,确保网络的输入特性更稳定,从而帮助后续层更好地学习。
  • 线性层 的作用是将特征进行线性变换,改变特征的空间表达,提升模型的学习能力。

结合使用:
BN 和线性层经常结合使用:BN 用于标准化线性层的输出,提高训练稳定性;线性层用于学习特征映射。


5. 是否可以互相替代?

不能直接替代:

  • 如果用 BN 替代一个线性层,无法改变特征的维度,也缺乏显式的特征映射能力。
  • 如果用线性层替代 BN,将失去 BN 提供的稳定性和正则化作用。

它们是互补的模块,而不是竞争关系。

标签:线性变换,特征,BN,层有,学习,维度,线性,输入
From: https://blog.csdn.net/m0_53297170/article/details/145146263

相关文章

  • kea dhcp4 服务报错"No subnet matches interface"的问题分析
    目录环境现象结论环境电脑为Manjaro,KDE环境,已经配置ipv4地址192.168.201.182/24计划使用kea做DHCP服务器,配置新的192.168.182.1ip地址作为DHCPv4服务器地址(原本想直接用配置里的192.0.2.0/24做DHCP服务的)现象设备无法通过电脑获取DHCP地址wireshark看抓包,有DHC......
  • 基于分块贝叶斯非局部均值优化(OBNLM)的图像去噪算法matlab仿真
    1.程序功能描述基于分块贝叶斯非局部均值优化(OBNLM)的图像去噪算法matlab仿真,对比不同的参数对OBNLM算法的影响。2.测试软件版本以及运行结果展示MATLAB2022A版本运行  3.核心程序Im0=imread('test.png');Blks1=3;Blks2=5;Blks3=7;Win......
  • java.sql.SQLException: ORA-00600: 内部错误代码, 参数: [kcbnew_3]的其中一个解决方
    java.sql.SQLException:ORA-00600:内部错误代码,参数:[kcbnew_3]的其中一个解决方法 重启重启重启oracle服务。今天反馈添加数据库报错。试了一下就几各别的表不能插入。别的表好好的 GPT一下并检查了表空间都没什么问题。执行INSERTINTODEVICE_CONTROL(id,........
  • ISP算法之BNR降噪(Bayer域)
    概述BNR(BayerNoiseReduction)即Bayer域降噪算法。对于噪声的分类如下表所示:高斯噪声( Gaussian)高斯噪声也被称为热噪声,通常是由于电路系统中自由电子的热运动,这种噪声幅度分布服从高斯分布,而它的功率谱密度又是均匀分布的。散粒噪声量子涨落现象,​量子涨落也是一种涨......
  • error while loading shared libraries: libncurses.so.5: cannot open shared object
    第一个错误:errorwhileloadingsharedlibraries:libncurses.so.5:cannotopensharedobjectfile解决方法:该错误的原因是因为所依赖的libncurses.so版本问题,默认依赖的版本是libncurses.so.5,但是系统上libncurses.so的版本不是5导致的。可以在/usr/lib64文件夹下查找当......
  • 深入理解批量归一化(BN):原理、缺陷与跨小批量归一化(CBN)
    在训练深度神经网络时,批量归一化(BatchNormalization,简称BN)是一种常用且有效的技术,它帮助解决了深度学习中训练过程中的梯度消失、梯度爆炸和训练不稳定等。然而,BN也有一些局限性,特别是在处理小批量数据和推理阶段时。因此,跨小批量归一化(Cross-BatchNormalization,CBN)作为一种......
  • YOLOv11/10/8算法改进【NO.158】使用一种名为 PRepBN 的新方法,在训练过程中逐步用重新
      前  言    YOLO算法改进系列出到这,很多朋友问改进如何选择是最佳的,下面我就根据个人多年的写作发文章以及指导发文章的经验来看,按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通:首推,是将两种最新推出算法的模块进行融合形......
  • 转载:【AI系统】FBNet 系列
    本文主要介绍FBNet系列,在这一篇会给大家带来三种版本的FBNet网络,从基本NAS搜索方法开始,到v3版本的独特方法。在本文中读者会了解到如何用NAS搜索出最好的网络和训练参数。FBNetV1模型FBNetV1:完全基于NAS搜索的轻量级网络系列,结合了DNAS和资源约束。采用梯度优......
  • 转载:【AI系统】FBNet 系列
    本文主要介绍FBNet系列,在这一篇会给大家带来三种版本的FBNet网络,从基本NAS搜索方法开始,到v3版本的独特方法。在本文中读者会了解到如何用NAS搜索出最好的网络和训练参数。FBNetV1模型FBNetV1:完全基于NAS搜索的轻量级网络系列,结合了DNAS和资源约束。采用梯度优......
  • 达梦DOTNET驱动DM.Provider8.3.1.30495存在空字符串插入变DBNull的问题
    达梦数据库的DOTNET驱动DM.Provider,这个版本8.3.1.30495有bug,会把空字符串改成DBNull处理,反编译代码发现Dm.DmSetValue.SetString方法中判断字符串长度==0就设置成DBNull。解决办法就是降低版本到8.3.1.28188。//Dm.DmSetValueusingSystem;usingSystem.Globalization;usi......