首页 > 其他分享 >大模型--BN 批量正则化--33

大模型--BN 批量正则化--33

时间:2024-12-11 17:45:01浏览次数:6  
标签:__ 训练 nn -- BN torch 33 self

目录

1. 参考

详解归一化、标准化、正则化以及batch normalization
论文

Batch Normalization

BatchNorm层通常在激活函数之前应用。
它会自动计算每个特征的均值和方差,并根据小批量数据的统计信息进行归一化处理,在使用时,需要注意训练与评估模式的切换,
训练阶段,使用mini-batch的均值和方差,
评估模式(推理模式)下,会默认使用整个批次的均值和方差。

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.bn1 = nn.BatchNorm1d(256)  # BatchNorm1d应用于全连接层输出
        self.fc2 = nn.Linear(256, 10)

    def forward(self, x):
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = self.bn1(x)  # bn 用于激活函数之前
        x = torch.relu(x)
        x = self.fc2(x)
        return x

理论

Batch Normalization由google在2015年提出,主要是为了解决深度神经网络训练过程中的内部协变量偏移问题,同时有助于加速网络的收敛过程。

内部协变量偏移:
Internal Covariate Shift,在深度神经网络中,每一层的输入数据分布随着网络的训练而发生变化,这被称为内部协变量偏移。
这种变化可能导致每层需要不断适应前一层输出的分布变化,使得网络训练过程变得复杂和缓慢。

作用

首先,通过将特征数据的分布调整到标准正态分布,而在这分布下,激活函数的梯度比较大,能够完美解决梯度消失的问题;
其次,由于存在较大的梯度,能够加速模型的训练;
最后,由于数据被调整为比较标准的正态分布,模型能够学习到比较通用化的特征,屏蔽了距离正态分布中心较远的特征,避免了对离群特征点的使用,能够在一定程度上减弱过拟合。

标签:__,训练,nn,--,BN,torch,33,self
From: https://www.cnblogs.com/cavalier-chen/p/18600250

相关文章

  • 为什么 Java 中某些新生代和老年代的垃圾收集器不能组合使用?
    为什么Java中某些新生代和老年代的垃圾收集器不能组合使用?在JVM中,新生代和老年代的垃圾收集器是分工协作的。然而,并非所有的新生代和老年代垃圾收集器都能任意组合使用,这是由于它们的设计目标、算法特性和交互方式不兼容所导致的。例如,新生代的ParNew和老年代的ParallelO......
  • 我理解的跨域问题
    首先,跨域问题也算是计算机中的安全机制,是浏览器的安全机制。跨域问题是什么造成的浏览器的检查访问了不同域名的资源使用的xhr作为请求类型准确的讲,是因为上面的三个条件同时成立的时候,才会有跨域问题的存在如何解决跨域问题一般有以下几种思路:禁止浏览器的限制。这个......
  • 选择排序
    选择排序这里也用到了冒泡排序的写法。由题说明,用指针方法对10个整数按由大到小顺序排序。首先声明选择排序基本和冒泡排序法一样,只不过多加了一个调用函数环节。在后面会说明我的错误电点,同时我也会在另一篇冒泡排序中详细文字叙述效果图和代码可参照本文。代码如下`#include......
  • 网络编程和并发
    进程、线程、协程多线程和多进程是并发编程的两种实现方式。区别:特性多线程多进程执行单位线程,运行在同一进程内,共享内存进程,独立的内存空间开销创建开销小,切换成本低创建开销大,切换成本高GIL影响受GIL限制,多线程不能同时执行多个Python字节码独......
  • 高效实现金蝶分布式调入单与旺店通采购订单数据集成
    金蝶分布式调入单与旺店通采购订单的高效数据集成方案在企业信息化系统中,数据的无缝对接和高效流转是提升业务效率的关键。本文将分享一个实际案例:如何通过轻易云数据集成平台,将金蝶云星空中的分布式调入单数据集成到旺店通·企业奇门的采购订单中。背景概述在本次集成方案......
  • converge许可管理策略
    随着企业规模的扩大和团队协作工具的多样化,制定和优化一个有效的Converge许可管理策略变得至关重要。一个合理的许可管理策略不仅可以确保团队协作的高效性,还能保障企业数据的安全。本文将为您详细阐述如何制定和优化Converge许可管理策略,让您的企业在这个数字化时代中脱颖而出。......
  • linux命令
    ipconfigserviceiptablesstop关闭防火墙serviceiptablesstart开启防火墙serviceiptablesrestart重启防火墙serviceiptablesstatus查看防火墙状态suroot切换到超级用户敲回车输入密码su普通用户切换普通用户查看用......
  • 【免费大屏】积木BI — 数据大屏,新手首个大屏设计攻略
    积木BI重磅推出免费大屏设计器!功能超强大,操作超流畅,体验超酷炫。快来体验一下吧。让我们一起来看一下如何从0到1设计一个大屏。一、积木BI大屏介绍积木BI可视化数据大屏是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示海量数据,10分钟零门槛打造出专业大屏......
  • js逆向-2-跟栈
    wy云js加密逆向登录的时候会加密我们输入的电话号码,我们需要得到这个Params的加密方法首先点击登录之后抓取数据包,点击第一个,并打上断点然后点击发送验证码就会断住这里的arguments里面就有我们想要的值,然后继续跟栈这里显示a的值通过o[0]获取的,然后继续跟进栈显示a=i[......
  • 转载:【AI系统】AI芯片驱动智能革命
    在整个AI系统的构建中,AI算法、AI框架、AI编译器、AI推理引擎等都是软件层面的概念,而AI芯片则是物理存在的实体,AI芯片是所有内容的重要基础。本系列文章将会通过对典型的AI模型结构的设计演进进行分析,来理解AI算法的计算体系如何影响AI芯片的设计指标,进而结合几种......