梯度

2025-01-05梯度下降法的梯度是什么？
梯度下降法，是神经网络的损失函数更新权重和偏置的方法，具体是用权重或偏置减去损失函数对权重或偏置的微分：这里，和是需要更新的权重和偏置，是学习率，决定步长，和是损失函数对参数的梯度。那么问题来了，梯度到底是什么意思？为什么要使用这种梯度方法？一、梯度的意义损失函数是权重
2025-01-05面试官问：深度网络中loss除以10和学习率除以10等价吗
面试官问：深度网络中loss除以10和学习率除以10等价吗面试题深度网络中loss除以10和学习率除以10等价吗？标准答案在讨论深度学习中，调整loss的尺度与调整学习率是否等价时，答案取决于使用的优化器类型。以下是对常见优化器的分析:第一类：传统优化器(如SGD和MomentumSGD)
2025-01-04非牛顿流体
非牛顿流体，是指不满足牛顿黏性实验定律的流体，即其剪应力与剪切应变率之间不是线性关系的流体。非牛顿流体广泛存在于生活、生产和大自然之中。绝大多数生物流体都属于所定义的非牛顿流体。人身上淋巴液、囊液等多种体液，以及像细胞质那样的“半流体”都属于非牛顿流体。牛顿流体：
2025-01-04【强化学习】双延迟深度确定性策略梯度算法(TD3)详解
2025-01-04Mixed Precision Training
目录概主要内容NarangS.,DiamosG.,ElsenE.,MicikeviciusP.,AlbenJ.,GarciaD.,GinsburgB.,HoustonM.,KuchaievO.,VenkateshG.andWuH.Mixedprecisiontraining.ICLR,2018.概本文提出了混合精度训练.主要内容从FP32到FP16的一个重要问题是,
2025-01-02线性回归模型的构建与训练
1.基本的导入与配置#Tosupportbothpython2andpython3from__future__importdivision,print_function,unicode_literals#Commonimportsimportnumpyasnpimportpandasaspdimportos#tomakethisnotebook'soutputstableacrossrunsnp.random
2025-01-01如何在梯度计算中处理bf16精度损失：混合精度训练中的误差分析
如何在梯度计算中处理bf16精度损失：混合精度训练中的误差分析在现代深度学习训练中，为了加速计算并节省内存，越来越多的训练任务采用混合精度（MixedPrecision）技术，其中常见的做法是使用低精度格式（如bf16或fp16）进行前向传播和梯度计算，而使用高精度格式（如fp32）进行参数更新
2024-12-28yolov4算法及其改进
yolov4算法及其改进1、yolov4介绍2、mosaic与mish激活函数2.1、mosaic数据增强2.2、Mish激活函数3、backbone网络框架的改进4、PAN-FPN的介绍5、样本匹配和损失函数5.1、样本匹配5.2、YOLOV4损失函数5.2.1、GIOUloss5.2.2、DIOUloss5.2.3、CIOULoss1、yolov4介
2024-12-28简历专业技能
熟悉常用的设计结构，利用xxx的设计结构，用到我自己的论文代码中（3000行）一份论文代码需要多次迭代和调参求解最优解结果，论文的图片需要不同的变量对照组体现结果的差异不使用设计结构，每次迭代的时候要大量的调整代码的结构。整个很流程混乱。经过设计模式的调整后，每次迭代调整结果
2024-12-26Pytorch知识框架梳理
在学习和掌握PyTorch的过程中，理解其框架结构和各个模块之间的关系非常重要。下面我将帮助你梳理一个PyTorch知识框架图，并详细讲解其中的重点内容。PyTorch知识框架图基础组件Tensor:PyTorch的基本数据结构，相当于NumPy中的ndarray，可以在CPU和GPU上进行计算。Autograd（自
2024-12-24深度探秘神经网络模型：核心要点、多样类型与实践应用
基本概念神经元与生物启发：人工神经网络受人类大脑中的生物神经元启发，生物神经元由细胞体、树突和轴突等组成，可处于兴奋或抑制状态，通过突触传递信息。神经网络组成：由大量相互连接的神经元组成，包括输入层接收数据、隐藏层处理数据、输出层产生最终结果，各层神经元通过权重连接，还有
2024-12-24梯度提升树模型全解析：原理、参数、应用与优化
一、基本概念定义梯度提升树（GradientBoostingTree，GBT）是一种基于boosting框架的集成学习算法，用于回归和分类问题。它通过迭代地训练决策树，并将前一棵树的残差作为下一棵树的训练目标，逐步减少预测误差。集成学习是将多个弱学习器（在梯度提升树中，弱学习器通常是决策树）组合成一
2024-12-24机器学习：线性回归：梯度下降法应用多元线性回归（持续更新）
目录第二节梯度下降法在线性回归中的应用情景带入这里提出误差函数即残差函数的概念：我们这里采用MSE损失函数来刻画预测值与真实值之间的误差大小下面是基于梯度下降法求解线性回归方程中参数(θ)(θ)的推导过程：于是我们重复的过程是：我们先观察各个特征数据与房价的
2024-12-24新手入门：大语言模型训练指南
在这个信息爆炸的时代，人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车，AI的应用无处不在。而在这些令人惊叹的技术背后，大语言模型（LLM）扮演着至关重要的角色。它们不仅能够理解和生成自然语言，还能在多种场景下提供智能决策支持
2024-12-23优化算法
优化算法是一类旨在寻找给定问题最优解的算法，广泛应用于机器学习、金融、工程、物流等领域。根据不同的分类标准，优化算法可以分为多种类型。以下是一些常见的优化算法：一、按数学特性分类线性规划算法主要用于求解目标函数和约束条件均为线性的优化问题。常见的线性规划算法
2024-12-23新手入门：大语言模型训练指南
在这个信息爆炸的时代，人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车，AI的应用无处不在。而在这些令人惊叹的技术背后，大语言模型（LLM）扮演着至关重要的角色。它们不仅能够理解和生成自然语言，还能在多种场景下提供智能决策支持
2024-12-22深度学习笔记——dVAE（DALL·E的核心部件）
详细介绍DALL·E的核心部件之一——dVAE，在VQ-VAE的基础上使用Gumbel-Softmax实现采样，用于图像生成。文章目录前情提要VAEVQ-VAEVAEvs.VQ-VAE区别不可导问题及解决方法dVAEVQ-VAE和dVAE的对比背景：VQ-VAE的停止梯度策略局限性dVAE的结构dVAE引入Gumbel-Sof
2024-12-20梯度的详细讲解-ChatGPT4o作答
梯度的详细讲解**梯度（Gradient）**是多变量微积分中的一个重要概念，它是标量函数（即只有大小，没有方向的函数）在某一点上的变化率向量，描述了函数在这一点处变化最快的方向和变化率大小。梯度广泛应用于优化问题、机器学习、物理学、工程学等领域，用于研究标量场（如温度场、势能场
2024-12-17深度学习一些基础知识
1、过拟合问题1、数据增强对图像进行旋转、翻转、裁剪等操作，创造出更多样的数据样本。2、正则化凡是能解决模型泛化误差而不是训练误差的方法，都被称为正则化。模型的泛化误差主要是由模型过拟合引起的，所以正则化的各种方法用于解决模型过拟合的问题。L1和L2正则化：在损失函数
2024-12-16线性神经网络(线性回归)
1.什么是线性回归？线性回归是一种用于预测的统计方法，它通过建立自变量（特征）与因变量（目标值）之间的线性关系来进行建模。简单来说，线性回归试图找到一条直线，使得这条直线能够尽可能接近所有的数据点。 1.1现实例子某公司希望根据房屋的面积和房龄来估算房屋价格。为了开发一个
2024-12-14【全连接神经网络】核心步骤及其缺陷
前向传播计算公式（其中一种）x1/x2：输入值，一般是神经网络上一层的输出或者输入数据本身，上图中表示两个节点w11w13：权重，在神经网络中，权重是学习的参数，表示每个输入对输出的影响程度b1：表示偏置顶，是一个额外的常数值，用来帮助神经网络调整输出。偏置项的作用是让神经元能够更好
2024-12-14yolov7源码解读1-训练前准备
一、怎么解决图片输入尺度不统一的问题YOLOv7的矩形训练是指在训练时对输入图片进行尺寸调整，以提高模型处理长宽比差异较大的图片时的性能，同时避免过多的图像变形。具体来说，以下是矩形训练的处理过程：1.矩形训练的核心目标目标：尽量保留图片的原始长宽比例，减少因为强制拉
2024-12-12转载：【AI系统】完全分片数据并行 FSDP
上一篇文章内容介绍了通用的数据并行和分布式数据并行，主要是对神经网络模型的输入数据mini-batch进行分布式处理。并且讨论了同步数据并行和异步数据并行的差异点，深入到PyTorchAI框架的弹性数据并行是如何实现与处理的。在本文内容中，将会重点关注AI框架中如何实现针对权重
2024-12-11算法优化器有哪些，优缺点
定义与作用在深度学习领域中，优化器扮演着核心角色，它是用于最小化或最大化特定目标函数的算法。其主要职责是在模型训练过程中调整可训练参数，以实现损失函数的最小化。通过不断迭代和更新参数，优化器帮助模型逐步改进其预测能力，最终达到理想的性能水平。这种持续的参数调整过
2024-12-11初学者：神经网络（2）
上一篇文章中我们说神经网络的基本结构，神经网络训练的基本原理，这篇文章我们先来说一说神经网络中一个特别重要的东西---激活函数。还是引用上一篇文章的老图。如果按照上图的结构来输出最终的结果，那么计算过程如下：hj=i=1nxicijy=j=