深度学习 - softmax交叉熵损失

时间：2024-06-08 11:30:43浏览次数：27

标签：approx 1.221 log 交叉 0.286 softmax 深度 0.249 Softmax

示例代码

import torch
from torch import nn

# 多分类交叉熵损失，使用nn.CrossEntropyLoss()实现。nn.CrossEntropyLoss()=softmax + 损失计算
def test1():
    # 设置真实值: 可以是热编码后的结果也可以不进行热编码
    # y_true = torch.tensor([[0, 1, 0], [0, 0, 1]], dtype=torch.float32)
    # 注意的类型必须是64位整型数据
    y_true = torch.tensor([1, 2], dtype=torch.int64)
    y_pred = torch.tensor([[0.2, 0.6, 0.2], [0.1, 0.8, 0.1]], dtype=torch.float32)
    # 实例化交叉熵损失
    loss = nn.CrossEntropyLoss()
    # 计算损失结果
    my_loss = loss(y_pred, y_true).numpy()
    print('loss:', my_loss)

输入数据

y_true = torch.tensor([1, 2], dtype=torch.int64)
y_pred = torch.tensor([[0.2, 0.6, 0.2], [0.1, 0.8, 0.1]], dtype=torch.float32)

y_true：真实标签，包含两个样本，分别属于类别 1 和类别 2。
y_pred：预测的概率分布，包含两个样本，每个样本有三个类别的预测值。

Step 1: Softmax 变换

Softmax 函数将原始的预测值转换为概率分布。Softmax 的公式如下：

Softmax ( x i ) = e x i ∑ j e x j \text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}} Softmax(xi)=∑jexjexi

对于第一个样本 y_pred = [0.2, 0.6, 0.2]：

计算指数：

e 0.2 ≈ 1.221 , e 0.6 ≈ 1.822 , e 0.2 ≈ 1.221 e^{0.2} \approx 1.221, \quad e^{0.6} \approx 1.822, \quad e^{0.2} \approx 1.221 e0.2≈1.221,e0.6≈1.822,e0.2≈1.221

计算 Softmax 分母：

∑ j e x j = 1.221 + 1.822 + 1.221 = 4.264 \sum_{j} e^{x_j} = 1.221 + 1.822 + 1.221 = 4.264 j∑exj=1.221+1.822+1.221=4.264

计算 Softmax 分子并得到结果：

Softmax ( 0.2 ) = 1.221 4.264 ≈ 0.286 \text{Softmax}(0.2) = \frac{1.221}{4.264} \approx 0.286 Softmax(0.2)=4.2641.221≈0.286

Softmax ( 0.6 ) = 1.822 4.264 ≈ 0.427 \text{Softmax}(0.6) = \frac{1.822}{4.264} \approx 0.427 Softmax(0.6)=4.2641.822≈0.427

Softmax ( 0.2 ) = 1.221 4.264 ≈ 0.286 \text{Softmax}(0.2) = \frac{1.221}{4.264} \approx 0.286 Softmax(0.2)=4.2641.221≈0.286

Softmax 结果为 [[0.286, 0.427, 0.286]]。

对于第二个样本 y_pred = [0.1, 0.8, 0.1]：

计算指数：

e 0.1 ≈ 1.105 , e 0.8 ≈ 2.225 , e 0.1 ≈ 1.105 e^{0.1} \approx 1.105, \quad e^{0.8} \approx 2.225, \quad e^{0.1} \approx 1.105 e0.1≈1.105,e0.8≈2.225,e0.1≈1.105

计算 Softmax 分母：

∑ j e x j = 1.105 + 2.225 + 1.105 = 4.435 \sum_{j} e^{x_j} = 1.105 + 2.225 + 1.105 = 4.435 j∑exj=1.105+2.225+1.105=4.435

计算 Softmax 分子并得到结果：

Softmax ( 0.1 ) = 1.105 4.435 ≈ 0.249 \text{Softmax}(0.1) = \frac{1.105}{4.435} \approx 0.249 Softmax(0.1)=4.4351.105≈0.249

Softmax ( 0.8 ) = 2.225 4.435 ≈ 0.502 \text{Softmax}(0.8) = \frac{2.225}{4.435} \approx 0.502 Softmax(0.8)=4.4352.225≈0.502

Softmax ( 0.1 ) = 1.105 4.435 ≈ 0.249 \text{Softmax}(0.1) = \frac{1.105}{4.435} \approx 0.249 Softmax(0.1)=4.4351.105≈0.249

Softmax 结果为 [[0.249, 0.502, 0.249]]。

Step 2: 计算交叉熵损失

交叉熵损失的公式为：

CrossEntropyLoss ( p , y ) = − ∑ i = 1 N y i log ⁡ ( p i ) \text{CrossEntropyLoss}(p, y) = -\sum_{i=1}^{N} y_i \log(p_i) CrossEntropyLoss(p,y)=−i=1∑Nyilog(pi)

对于第一个样本，真实标签为 1（y_true = 1），Softmax 后的预测概率分布为 [0.286, 0.427, 0.286]：

CrossEntropyLoss = − [ 0 ⋅ log ⁡ ( 0.286 ) + 1 ⋅ log ⁡ ( 0.427 ) + 0 ⋅ log ⁡ ( 0.286 ) ] \text{CrossEntropyLoss} = - [0 \cdot \log(0.286) + 1 \cdot \log(0.427) + 0 \cdot \log(0.286)] CrossEntropyLoss=−[0⋅log(0.286)+1⋅log(0.427)+0⋅log(0.286)]

由于 (0 \cdot \log(0.286) = 0)，忽略后我们得到：

log ⁡ ( 0.427 ) ≈ 0.851 \log(0.427) \approx 0.851 log(0.427)≈0.851

对于第二个样本，真实标签为 2（y_true = 2），Softmax 后的预测概率分布为 [0.249, 0.502, 0.249]：

CrossEntropyLoss = − [ 0 ⋅ log ⁡ ( 0.249 ) + 0 ⋅ log ⁡ ( 0.502 ) + 1 ⋅ log ⁡ ( 0.249 ) ] \text{CrossEntropyLoss} = - [0 \cdot \log(0.249) + 0 \cdot \log(0.502) + 1 \cdot \log(0.249)] CrossEntropyLoss=−[0⋅log(0.249)+0⋅log(0.502)+1⋅log(0.249)]

由于 (0 \cdot \log(0.249) = 0) 和 (0 \cdot \log(0.502) = 0)，忽略后我们得到：

log ⁡ ( 0.249 ) ≈ 1.390 \log(0.249) \approx 1.390 log(0.249)≈1.390

Step 3: 平均损失

计算平均损失：

平均损失 = 0.851 + 1.390 2 ≈ 2.241 2 ≈ 1.1205 \text{平均损失} = \frac{0.851 + 1.390}{2} \approx \frac{2.241}{2} \approx 1.1205 平均损失=20.851+1.390≈22.241≈1.1205

因此，最终的交叉熵损失 my_loss 约为 1.1205。

标签：approx,1.221,log,交叉,0.286,softmax,深度,0.249,Softmax
From： https://blog.csdn.net/weixin_47552266/article/details/139544020

深度学习 - 激活函数
深度学习-激活函数激活函数（ActivationFunction）是神经网络中的关键组件，用于引入非线性，使得网络能够学习和表示复杂的模式和关系。以下是几种常见的激活函数及其详细解释：1.Sigmoid（S型激活函数）作用过程：Sigmoid函数将输入映射到(0,1)之间。公式为：......
【纯干货】深度学习各算法的优缺点和适用场景！建议收藏。（上篇）
..纯干货.目录前馈神经网络1、梯度下降（GradientDescent）2、随机梯度下降（StochasticGradientDescent,SGD）3、小批量梯度下降（Mini-batchGradientDescent）4、动量（Momentum）5、AdaGrad、RMSprop、Adam等自适应学习率算法卷积神经网络1、LeNet-52、AlexNet3、V......
深度解读ChatGPT基本原理
目录一、引言二、ChatGPT概述三、ChatGPT的基本原理Transformer架构预训练与微调语言建模生成式建模四、ChatGPT的应用与优势五、结论一、引言在人工智能领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂的语言模......
Day16 | 104.二叉树的最大深度、111.二叉树的最小深度、222.完全二叉树的节点个数
104.二叉树的最大深度（优先掌握递归）什么是深度，什么是高度，如何求深度，如何求高度，这里有关系到二叉树的遍历方式。大家要先看视频讲解，就知道以上我说的内容了，很多录友刷过这道题，但理解的还不够。题目链接/文章讲解/视频讲解：https://programmercarl.com/0104.二叉树的最大深度.ht......
【机器学习】应用深度Q网络（DQN）在Atari Breakout游戏中实现智能体
1.绪论1.1DQN是什么？DeepQ-Learning，也被称为DeepQ-Network（DQN），是一种结合了深度学习和Q-Learning的强化学习算法。以下是关于DeepQ-Learning的详细解释：背景介绍：-强化学习是一种机器学习方法，使智能体能够通过与环境互动来学习最佳行为。智能体在环境中执行动作，并接......
【深度学习基础】池化层
池化层（PoolingLayer）在卷积神经网络（CNN）中常用于计算机视觉任务，但在自然语言处理（NLP）任务中也有广泛的应用。池化层在NLP任务中可以帮助提取重要特征，降低数据维度，减少计算量，增强模型的泛化能力。本文将介绍池化层在NLP任务中的应用，并提供一个具体的代码示例。1.什么是池化层......
【深度学习基础】模型文件介绍
目录简介文件概述config.jsonmodel_state.pdparamsspecial_tokens_map.jsontokenizer_config.jsonvocab.txt文件内容解析如何查看和使用这些文件示例代码简介本文档详细介绍了深度学习训练过程中生成的关键文件，及其在模型加载和推理中的作用。这些文件包括模型配置文件......
使用Python实现深度学习模型：序列到序列模型（Seq2Seq）
本文分享自华为云社区《使用Python实现深度学习模型：序列到序列模型（Seq2Seq）》，作者：Echo_Wish。序列到序列（Seq2Seq）模型是一种深度学习模型，广泛应用于机器翻译、文本生成和对话系统等自然语言处理任务。它的核心思想是将一个序列（如一句话）映射到另一个序列。本文将详细介绍Seq2Seq......
信息学奥赛初赛天天练-20-完善程序-vector数组参数引用传递、二分中值与二分边界应用
PDF文档公众号回复关键字:2024060512023CSP-J完善程序1完善程序（单选题，每小题3分，共计30分）原有长度为n+1,公差为1等升数列，将数列输到程序的数组时移除了一个元素，导致长度为n的开序数组可能不再连续，除非被移除的是第一个或最后之个元素。需要在数组不连续时，找出......
深度学习--风格迁移原理以及实现--84
目录1.简介4.损失函数参考链接：https://blog.csdn.net/ssshyeong/article/details/1270923541.简介ImageStyleTransferUsingConvolutionalNeuralNetworks：Gram矩阵(CVPR2016)链接TextureSynthesisUsingConvolutionalNeuralNetworks图像经过卷积层后得到的特征图......