首页 > 其他分享 >详解三种常用标准化:Batch Norm、Layer Norm和RMSNorm

详解三种常用标准化:Batch Norm、Layer Norm和RMSNorm

时间:2025-01-23 21:22:25浏览次数:1  
标签:RMS nn torch 标准化 Batch RMSNorm 小批量 Norm Normalization

在深度学习中,标准化技术是提升模型训练速度、稳定性和性能的重要手段。本文将详细介绍三种常用的标准化方法:Batch Normalization(批量标准化)、Layer Normalization(层标准化)和 RMS Normalization(RMS标准化),并对其原理、实现和应用场景进行深入分析。

一、Batch Normalization

1.1 Batch Normalization的原理

Batch Normalization(BN)通过在每个小批量数据的每个神经元输出上进行标准化来减少内部协变量偏移。具体步骤如下:

  1. 计算小批量的均值和方差
    对于每个神经元的输出,计算该神经元在当前小批量中的均值和方差。

    [
    \muB = \frac{1}{m} \sum{i=1}^m x_i
    ]

    [
    \sigmaB^2 = \frac{1}{m} \sum{i=1}^m (x_i - \mu_B)^2
    ]

  2. 标准化
    使用计算得到的均值和方差对数据进行标准化。

    [
    \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}
    ]

  3. 缩放和平移
    引入可学习的参数进行缩放和平移。

    [
    y_i = \gamma \hat{x}_i + \beta
    ]

    其中,(\gamma)和(\beta)是可学习的参数。

1.2 Batch Normalization的实现

在PyTorch中,Batch Normalization可以通过 torch.nn.BatchNorm2d实现。

import torch
import torch.nn as nn

# 创建BatchNorm层
batch_norm = nn.BatchNorm2d(num_features=64)

# 输入数据
x = torch.randn(16, 64, 32, 32)  # (batch_size, num_features, height, width)

# 应用BatchNorm
output = batch_norm(x)
​
   

1.3 Batch Normalization的优缺点

优点

  • 加速训练:通过减少内部协变量偏移,加快了模型收敛速度。
  • 稳定性提高:减小了梯度消失和爆炸的风险。
  • 正则化效果:由于引入了噪声,有一定的正则化效果。

缺点

  • 依赖小批量大小:小批量大小过小时,均值和方差估计不准确。
  • 训练和推理不一致:训练时使用小批量的均值和方差,推理时使用整个数据集的均值和方差。

二、Layer Normalization

2.1 Layer Normalization的原理

Layer Normalization(LN)通过在每一层的神经元输出上进行标准化,独立于小批量的大小。具体步骤如下:

  1. 计算每一层的均值和方差
    对于每一层的神经元输出,计算其均值和方差。

    [
    \muL = \frac{1}{H} \sum{i=1}^H x_i
    ]

    [
    \sigmaL^2 = \frac{1}{H} \sum{i=1}^H (x_i - \mu_L)^2
    ]

  2. 标准化
    使用计算得到的均值和方差对数据进行标准化。

    [
    \hat{x}_i = \frac{x_i - \mu_L}{\sqrt{\sigma_L^2 + \epsilon}}
    ]

  3. 缩放和平移
    引入可学习的参数进行缩放和平移。

    [
    y_i = \gamma \hat{x}_i + \beta
    ]

    其中,(\gamma)和(\beta)是可学习的参数。

2.2 Layer Normalization的实现

在PyTorch中,Layer Normalization可以通过 torch.nn.LayerNorm实现。

import torch
import torch.nn as nn

# 创建LayerNorm层
layer_norm = nn.LayerNorm(normalized_shape=64)

# 输入数据
x = torch.randn(16, 64)

# 应用LayerNorm
output = layer_norm(x)
​
   

2.3 Layer Normalization的优缺点

优点

  • 与小批量大小无关:适用于小批量训练和在线学习。
  • 更适合RNN:在循环神经网络中表现更好,因为它独立于时间步长。

缺点

  • 计算开销较大:每一层都需要计算均值和方差,计算开销较大。
  • 对CNN效果不明显:在卷积神经网络中效果不如BN明显。

三、RMS Normalization

3.1 RMS Normalization的原理

RMS Normalization(RMSNorm)通过标准化每一层的RMS值,而不是均值和方差。具体步骤如下:

  1. 计算RMS值
    对于每一层的神经元输出,计算其RMS值。

    [
    \text{RMS}(x) = \sqrt{\frac{1}{H} \sum_{i=1}^H x_i^2}
    ]

  2. 标准化
    使用计算得到的RMS值对数据进行标准化。

    [
    \hat{x}_i = \frac{x_i}{\text{RMS}(x) + \epsilon}
    ]

  3. 缩放和平移
    引入可学习的参数进行缩放和平移。

    [
    y_i = \gamma \hat{x}_i + \beta
    ]

    其中,(\gamma)和(\beta)是可学习的参数。

3.2 RMS Normalization的实现

在PyTorch中,RMS Normalization没有直接的内置实现,可以通过自定义层来实现。

import torch
import torch.nn as nn

class RMSNorm(nn.Module):
    def __init__(self, normalized_shape, epsilon=1e-8):
        super(RMSNorm, self).__init__()
        self.epsilon = epsilon
        self.gamma = nn.Parameter(torch.ones(normalized_shape))
        self.beta = nn.Parameter(torch.zeros(normalized_shape))

    def forward(self, x):
        rms = torch.sqrt(torch.mean(x**2, dim=-1, keepdim=True) + self.epsilon)
        x = x / rms
        return self.gamma * x + self.beta

# 创建RMSNorm层
rms_norm = RMSNorm(normalized_shape=64)

# 输入数据
x = torch.randn(16, 64)

# 应用RMSNorm
output = rms_norm(x)
​
   

3.3 RMS Normalization的优缺点

优点

  • 计算效率高:计算RMS值相对简单,计算开销较小。
  • 稳定性好:在某些任务中可以表现出更好的稳定性。

缺点

  • 应用较少:相较于BN和LN,应用场景和研究较少。
  • 效果不确定:在某些情况下效果可能不如BN和LN显著。

四、比较与应用场景

4.1 比较

特性 Batch Norm Layer Norm RMSNorm
标准化维度 小批量内各特征维度 每层各特征维度 每层各特征维度的RMS
计算开销 中等 较大 较小
对小批量大小依赖 依赖 不依赖 不依赖
应用场景 CNN、MLP RNN、Transformer 各类神经网络
正则化效果 有一定正则化效果 无显著正则化效果 无显著正则化效果

4.2 应用场景

  • Batch Normalization

    • 适用于卷积神经网络(CNN)和多层感知机(MLP)。
    • 对小批量大小有依赖,不适合小批量和在线学习。
  • Layer Normalization

    • 适用于循环神经网络(RNN)和Transformer。
    • 独立于小批量大小,适合小批量和在线学习。
  • RMS Normalization

    • 适用于各种神经网络,尤其在计算效率和稳定性有要求的任务中。
    • 相对较新,应用场景和研究较少,但在某些任务中可能表现优异。

五、总结

Batch Normalization

、Layer Normalization和RMS Normalization是深度学习中常用的标准化技术。它们各有优缺点,适用于不同的应用场景。通过理解其原理和实现,您可以根据具体需求选择合适的标准化方法,提升模型的训练速度和性能。

标签:RMS,nn,torch,标准化,Batch,RMSNorm,小批量,Norm,Normalization
From: https://www.cnblogs.com/ll55522201/p/18688625

相关文章

  • 替代saveBatch
    publicBooleanextendDetailUser(SalaryAccountingItemParamparam){//获取上期已选人员关联的项目List<SalaryAccountingItemDetailUser>extendDetailUserList=this.list(Wrappers.<SalaryAccountingItemDetailUser>lambdaQuery().eq(S......
  • [BZOJ3451] Normal 题解
    这题分三步:葺网(期望)、淀粉质(点分治)、蓉翅(容斥),再佐以芬芳团(FFT),一道巨难无比的luogu黑题就诞生了。期望先考虑在淀粉树上,\(i\)点在\(j\)点的子树里的概率。实际上这个问题的每种情况相当于是\(n\)个点的各种排列方式。这也就相当于,我们在选择\(j\)点之前,没有选择路径\((......
  • PCL点云库入门——PCL库点云特征之点云法向量(NormalEstimation)及其可视化
    1、PCL点云库中点云特征综述  1.1、点云特征综述        点云特征描述在三维数据处理领域扮演着至关重要的角色,它直接决定了后续的识别、分类以及重建等关键任务的执行效果。在众多的特征描述方法中,我们可以看到基于几何形状的特征、基于统计信息的特征以及基于变......
  • wx.batchGetStorageSync
    Array.wx.batchGetStorageSync(Array.keyList)基础库2.25.0开始支持,低版本需做兼容处理。小程序插件:不支持微信鸿蒙OS版:支持相关文档:存储策略功能描述从本地缓存中同步批量获取指定key的内容。参数Array.keyList本地缓存中指定的key数组返回值Arra......
  • wx.batchSetStorage
    wx.batchSetStorage(Objectobject)基础库2.25.0开始支持,低版本需做兼容处理。以Promise风格调用:支持小程序插件:不支持微信鸿蒙OS版:支持相关文档:存储策略功能描述将数据批量存储在本地缓存中指定的key中。会覆盖掉原来该key对应的内容。除非用户主动删......
  • WPF ViewPort3D ModelVisual3D GeometryModel3D MeshGeometry3D Positions Normals
    <Windowx:Class="WpfApp107.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.microsoft......
  • Elasticsearch:normalizer
    一、概述‌Elasticnormalizer‌是Elasticsearch中用于处理keyword类型字段的一种工具,主要用于对字段进行规范化处理,确保在索引和查询时保持一致性。Normalizer与analyzer类似,都是对字段进行处理,但normalizer不会对字段进行分词,即没有tokenizer。它主要用于keyword类型的......
  • 【Basic Abstract Algebra】Exercises for Section 3.2 — Normal subgroups and fact
    If\(H<G\)and\([G:H]=2\),showthat\(H\triangleleftG\).Proof:If\([G:H]=2\),then\(gH=Hg\)forall\(g\inG\),so\(H\triangleleftG\).【BasicAbstractAlgebra】ExercisesforSection3.1—CosetsandLagrange'sTheorem-只会......
  • ElasticSearch normalizer与analyzer的区别
    ElasticSearchnormalizer与analyzer的区别1、区别normalizer与analyzer的作用类似,都是对字段进行处理,但是不同之处在于normalizer不会对字段进行分词,也就是说normalizer没有tokenizera所以normalizer是作用于keyword类型的字段的,相当于我们需要给keyword类型字段做一个额外的处......
  • scipy.stats.norm.rvs函数
    在scipy.stats模块中,norm.rvs函数用于从正态分布(高斯分布)中生成随机样本。它是SciPy提供的一个非常常用的概率分布采样工具,适合模拟正态分布的随机变量。1.函数定义scipy.stats.norm.rvs(loc=0,scale=1,size=1,random_state=None)参数说明loc:均值......