首页 > 其他分享 >激活函数(1)笔记

激活函数(1)笔记

时间:2024-07-01 19:31:28浏览次数:21  
标签:输出 函数 tanh 梯度 ReLU 笔记 激活 d2l

ReLU函数

最受欢迎的激活函数是修正线性单元(Rectified linear unit,ReLU),因为它实现简单,同时在各种预测任务中表现良好。ReLU提供了一种非常简单的非线性变换。
在这里插入图片描述
在这里插入图片描述

# 导入PyTorch库  
import torch

# 从d2l库中导入与PyTorch相关的模块(这里假设d2l是一个外部库或教程中定义的库)  
from d2l import torch as d2l

# 创建一个一维的tensor x,包含从-5到4.9(步长为0.1)的浮点数,并设置requires_grad=True以支持自动求导  
# 这意味着我们稍后可以对这个tensor进行反向传播以计算梯度  
x = torch.arange(-5, 5, 0.1, requires_grad=True)

# 使用PyTorch的relu函数计算x的ReLU激活值,结果存储在y中  
# ReLU函数是一个非线性函数,其定义为f(x) = max(0, x)  
y = torch.relu(x)

# 使用d2l库中的plot函数绘制x和y的图像。这里x和y都被detach()以避免梯度跟踪  
# 因为我们只是想绘制图像,而不需要计算关于这些值的梯度  
# 'x'和'relu(x)'分别是x轴和y轴的标签  
# figsize参数设置了图像的大小为宽5英寸,高4英寸  
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 4))

# 显示图像。这里假设d2l库有一个plt模块,它可能是对matplotlib.pyplot的封装或别名  
# 如果d2l库没有plt模块,你可能需要直接使用matplotlib.pyplot.show()  
d2l.plt.show()

# 这里,我们对y进行反向传播,以计算x的梯度  
# 因为y是ReLU函数的结果,而x是ReLU函数的输入  
# 我们用torch.ones_like(x)来创建一个与x形状相同且所有元素都为1的张量作为反向传播的梯度输入  
# 这样做是为了确保所有有效的x值(即x>0)的梯度都为1  
# retain_graph=True表示在反向传播后保留计算图,以便我们可以再次进行反向传播(虽然这里我们并没有再次使用)  
y.backward(torch.ones_like(x), retain_graph=True)

# 使用d2l库中的plot函数绘制x和x.grad的图像。这里x.grad是x关于y的梯度  
# 因为ReLU函数在x>0时导数为1,在x<=0时导数为0,所以这里绘制的其实是ReLU函数的导数的图像  
# 'x'和'grad(relu)'分别是x轴和y轴的标签  
# figsize参数设置了图像的大小为宽5英寸,高4英寸  
d2l.plot(x.detach(), x.grad, 'x', 'grad(relu)', figsize=(5, 4))

# 显示图像  
d2l.plt.show()

在这里插入图片描述
在这里插入图片描述
优点:

  • 计算简单且高效:ReLU函数是一个分段线性函数,当输入大于0时,其输出就是输入本身;当输入小于或等于0时,输出为0。这使得ReLU函数的计算非常快速且高效。
  • 缓解梯度消失问题:在sigmoid和tanh等饱和激活函数中,当输入值很大或很小时,梯度接近于0,这会导致在反向传播过程中,梯度逐渐减小,直至消失。而ReLU函数在输入大于0的区域内,梯度始终为1,这有助于缓解梯度消失问题,使模型更容易训练。
  • 稀疏性:ReLU函数在输入小于或等于0时输出为0,这有助于产生稀疏的激活值,即网络中只有一部分神经元处于激活状态。稀疏性有助于减少计算量,并提高模型的泛化能力。
  • 符合生物神经元的特性:生物神经元在接受刺激后,只有当刺激达到一定强度时才会被激活。ReLU函数在输入大于0时才产生激活值,这与生物神经元的特性相似。

不足之处:

  • 死亡ReLU问题:由于ReLU函数在输入小于或等于0时输出为0,且梯度也为0,这会导致这些神经元在训练过程中无法再被激活,即“死亡”。死亡ReLU问题可能导致模型无法充分利用所有神经元,从而影响模型的性能。
  • 非零中心化:ReLU函数的输出始终为正数或0,这导致输出分布不是零中心的。非零中心化的输出分布可能会使下一层神经元的输入分布发生偏移,从而影响模型的训练速度和稳定性。
  • 对参数初始化敏感:ReLU函数对参数的初始化比较敏感。如果参数初始化不当,可能会导致大量神经元在训练初期就处于“死亡”状态,从而影响模型的性能。
  • 为了缓解ReLU函数的不足之处,研究者们提出了多种改进版本,如Leaky ReLU、Parametric
    ReLU(PReLU)、Exponential Linear
    Unit(ELU)等。这些改进版本在保持ReLU函数优点的同时,也尝试解决其不足之处。

Sigmoid函数

Sigmoid函数(也称为逻辑函数或S型函数)是一个在生物学中常见的S型曲线,但在机器学习和深度学习中,它常被用作激活函数,特别是在二分类问题的输出层。其数学表达式为:
在这里插入图片描述
在这里插入图片描述

import torch
from d2l import torch as d2l

x=torch.arange(-5,5,0.1,requires_grad=True)
y=torch.sigmoid(x)
d2l.plot(x.detach(),y.detach(),'x','sigmoid(x)',figsize=(5,4))
d2l.plt.show()
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad(sigmoid)',figsize=(5,4))
d2l.plt.show()

在这里插入图片描述

在这里插入图片描述

Sigmoid函数的优点

  • 易于理解:Sigmoid函数的输出值域在 0 到 1 之间,这使其易于解释为概率值。在二分类问题中,输出值可以解释为正类的概率。
  • 平滑性:Sigmoid函数是连续且可导的,这使得在反向传播算法中可以使用梯度下降法来优化模型参数。
  • 中心化:Sigmoid函数的输出值域关于点 (0, 0.5) 中心对称,这有助于保持数据的平衡性。

Sigmoid函数的不足之处

  • 梯度消失:当输入值 ( x )过大或过小时,Sigmoid函数的梯度(即导数)会趋近于0。这会导致在反向传播过程中,梯度逐渐减小,甚至消失,使得模型难以继续训练。
  • 非零中心化:Sigmoid函数的输出值域虽然关于点 (0, 0.5)中心对称,但整个输出是非零中心化的(即不关于原点对称)。这会导致在反向传播过程中,权重更新的方向总是朝一个方向移动,从而影响模型的收敛速度和稳定性。
  • 计算量大:相比于其他激活函数(如ReLU),Sigmoid函数需要计算指数运算,这会增加计算量,尤其是在处理大规模数据集时。
  • 不适用于多分类问题:Sigmoid函数通常用于二分类问题的输出层,对于多分类问题,需要使用softmax函数或其他策略。

tanh函数

tanh函数,即双曲正切函数,是一种在数学和统计学中常见的非线性函数。它在神经网络、信号处理、数据压缩等领域具有广泛的应用。tanh函数的定义如下:

在这里插入图片描述
在这里插入图片描述

tanh函数的优点

  • 非线性:tanh函数是一个非线性函数,能够对非线性的模式进行学习和表示。
  • 中心化:tanh函数的输出值在[-1,1]之间,且函数中心在坐标轴原点。这使得tanh函数更适合于通过简单的移位操作来更好地适应数据。
  • 梯度消失问题相对较小:与sigmoid函数相比,tanh函数的导数在输入值很大或很小的时候,其值相对较大,因此在反向传播过程中,它们更容易返回大的梯度值,这有助于避免梯度消失的问题。
  • 支持零中心化:tanh函数的输出值可以通过简单的减去均值来实现零中心化,这是训练神经网络时常用的技巧,可以提高模型的训练效率和准确性。
  • 适用于多类别分类:tanh函数可以应用于多类别分类任务,通过将输出值映射到不同的输出类别上来实现分类。

tanh函数的不足之处
计算复杂度较高:tanh函数的计算涉及到指数运算,相对于一些简单的激活函数(如ReLU),其计算复杂度较高,可能会影响模型的训练效率。
梯度消失问题:虽然tanh函数在梯度消失问题上的表现比sigmoid函数要好,但在深层神经网络中,当输入值很大或很小时,tanh函数的导数仍然可能接近于0,导致梯度消失的问题。
输出范围限制:tanh函数的输出范围限制在[-1,1]之间,这可能导致在某些应用中,tanh函数的输出值无法充分表示输入数据的动态范围。

标签:输出,函数,tanh,梯度,ReLU,笔记,激活,d2l
From: https://blog.csdn.net/zsy54577/article/details/140100581

相关文章

  • spring boot(学习笔记第十一课)
    springboot(学习笔记第十一课)Session共享,JPA实现自动RESTful学习内容:Session共享JPA实现自动RESTful1.Session共享Session共享面临问题springboot默认将session保存在webserver的内存里面,会产生什么问题呢。如上图所示,有nginx作为服务器前置负载均衡器的时......
  • 【文化课学习笔记】【化学】选必三:有机化合物的结构特点与研究方法(下)
    【化学】选必三:有机化合物的结构特点与研究方法(下)如果你是从B站一化儿笔记区来的,请先阅读我在第一篇有机化学笔记中的「读前须知」(点开头的黑色小三角展开):链接有机物命名规则有机物的命名有机物结构复杂,种类繁多。为了使每一种有机物对应一个名称,需要按照一定的规则和方......
  • java中的函数式接口:(Consumer、BiConsumer、Supplier、Predicate、Function、BiFunctio
    Consumer说明:(1)consumer接口来自java8中引入的Java.util.function包(2)Consumer是一个功能接口,用来作为lambda表达式或方法引用的任务目标(传递一个参数执行指定的方法)。功能:Consumer的功能接口是一个接受单一参数并且不返回任何结果的操作。必要时,"结果"可以存在在集合......
  • C++纯虚函数的理解,纯虚函数和派生类的关系。
    在C++中,纯虚函数(purevirtualfunction)是一种特殊的虚函数,它在基类中没有实现,只定义了一个接口,要求派生类必须提供具体实现。纯虚函数的定义方式在接口设计和多态性中非常有用。纯虚函数的定义和语法在C++中,纯虚函数的定义使用以下语法:classBase{public:virtual......
  • salesforce学习笔记(8)- 邮件模板
    1、背景最近有这样一个需求:有两个自定义对象A和B,两对象关系为Master(A)-Detail(B),A的详细页面有B的关联列表。现在,要求从A页面的活动(Activity)Tab下,使用标准的电子邮件功能进行邮件发送,邮件内容要求包含对象A中的字段数据和对象B中的字段数据,邮件发送或者抄送给固定的6个人。......
  • salesforce学习笔记(9)- 验证用户电子邮件
    1、背景从Spring’22开始,Salesforce要求所有组织和ExperienceCloud站点的所有用户验证他们的电子邮件地址。如果用户从未经验证的电子邮件地址发送电子邮件,Salesforce会拒绝此电子邮件消息,并不会完成发送。未经验证的电子邮件地址在用户验证他们的电子邮件地址或重置密码之......
  • [刷题笔记] Luogu P1612 [yLOI2018] 树上的链
    ProblemDescriptionDescription给定一棵有\(n\)个节点的树。每个节点有一个点权和一个参数。节点\(i\)的权值为\(w_i\),参数为\(c_i\)。\(1\)是这棵树的根。现在,对每个节点\(u\)(\(1\lequ\leqn\)),请在树上你找到最长的一条链\(v_1,v_2,\dotsv_m\),满足如下条件:......
  • 使用不同函数打印torch.nn模型——print(model),named_children(),named_modules():
    创建模型创建一个具有三级嵌套的模型,结构如图:importtorchimporttorch.nnasnn#定义子子模块classSubSubModule(nn.Module):def__init__(self):super(SubSubModule,self).__init__()self.conv=nn.Conv2d(3,3,kernel_size=3,padding=1)......
  • (技术笔记)机器学习理论导引-关键内容分享
    基础概念: 介绍机器学习的基本概念,包括监督学习、无监督学习、半监督学习和强化学习等。模型和算法: 对常见的机器学习模型和算法进行详细介绍,例如决策树、支持向量机、神经网络、聚类算法等。性能度量: 讨论评估和比较机器学习模型性能的指标,例如准确度、精确度、召回率、F1分......
  • 内存管理-9-内存常用函数和宏
    基于msm-5.41.页与页帧号转换//include/asm-generic/memory_model.h#definepfn_to_page(pfn)(vmemmap+(pfn))#definepage_to_pfn(page)(unsignedlong)((page)-vmemmap)注:使能了CONFIG_SPARSEMEM_VMEMMAP才使用的是这一组宏。vmemmap是一个structpage*类......