• 2025-01-04模型训练二三事:参数个数、小批量、学习率衰减
    获取torch参数总数在PyTorch中,要获取一个模型的参数总数,可以使用以下命令:total_params=sum(p.numel()forpinmodel.parameters())这里,model 是你的模型实例。model.parameters() 返回模型中所有参数的迭代器,p.numel() 返回单个参数的元素总数。sum 函数用来将这
  • 2025-01-03感知机参数更新策略
    1.逐个数据训练(在线学习)定义:每次使用一个训练样本来更新感知机的权重。训练过程:对每个训练样本,计算预测结果。如果预测结果与真实标签不一致,更新权重和偏置。重复这个过程直到所有训练样本都被处理完,通常会进行多轮迭代。优点:速度较快:每个样本都会被即时处理和更新,因此
  • 2024-12-24深入理解批量归一化(BN):原理、缺陷与跨小批量归一化(CBN)
    在训练深度神经网络时,批量归一化(BatchNormalization,简称BN)是一种常用且有效的技术,它帮助解决了深度学习中训练过程中的梯度消失、梯度爆炸和训练不稳定等。然而,BN也有一些局限性,特别是在处理小批量数据和推理阶段时。因此,跨小批量归一化(Cross-BatchNormalization,CBN)作为一种
  • 2024-07-01batchNorm和 layerNorm的区别
    LayerNormalization(层归一化)和BatchNormalization(批量归一化)都是深度学习中常用的归一化技术,用于加速训练过程和改善模型性能。它们的主要区别在于归一化的方式和应用的场景。BatchNormalization(批量归一化):归一化方式:BatchNormalization对每个特征在小批量数据上进行归一
  • 2024-04-03朗之万方程,机器学习与液体中的粒子运动
    目录一、说明二、朗之万方程的诞生2.1牛顿力学2.2流体中的随机运动三、小质量物体布朗运动方程四、布朗运动的Python代码五、稳定性讨论5.1波尔兹曼分布5.2梯度下降算法六、随机梯度下降(SGD)和小批量梯度下降七、机器学习与物理,作为朗之万过程的梯度下降结论一
  • 2024-03-10PARA第6部分:提升专注、创造力和判断力的小批量项目 (Small-Batch Projects for Focus, Creativity, and Perspective)
    内容简介:这部分主要讲的是把项目拆成小项目,再去执行的重要性。对这些小项目的要求是:短期内可以完成、结果明确并且有最后的完成期限。把项目拆小的好处:可以让我们聚焦于小项目,不再焦虑;有助于捕捉灵感,提高创造力;有助于产生新鲜感,再枯燥的项目也不怕。正文在P.A.R.A第一部分中,我
  • 2023-12-11机器学习-线性回归-小批量-梯度下降法-04
    1.随机梯度下降法梯度计算的时候随机抽取一条importnumpyasnpX=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)X_b=np.c_[np.ones((100,1)),X]n_epochs=10000learn_rate=0.001m=100theta=np.random.randn(2,1)forepoch
  • 2023-11-10机器学习——语言模型和数据集
     语言模型 马尔可夫模型和n元语法 自然语言统计 读取长序列数据由于序列数据本质上是连续的,因此我们在处理数据时需要解决这个问题。在 8.1节中我们以一种相当特别的方式做到了这一点:当序列变得太长而不能被模型一次性全部处理时,我们可能希望拆分这样的序列方
  • 2023-10-01小批量梯度下降
    在小批量梯度下降中,试分析为什么学习率要和批量大小成正比在标准的梯度下降中,参数的更新公式是:θ=θ−η∇θJL(θ)\theta=\theta-\eta\nabla_\thetaJL(\theta)θ=θ−η∇θ​JL(θ)其中,η\etaη是学习率,∇θJL(θ)\nabla_\thetaJL(\theta)∇θ​JL(θ)是损失函数JL
  • 2023-09-287.mini-batch梯度下降
    importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.ioimportmathimportsklearnimportsklearn.datasetsfromopt_utilsimportload_params_and_grads,initialize_parameters,forward_propagation,backward_propagationfromopt_utilsimportcomp
  • 2023-05-193.5 图像分类数据集
     1.下载数据并将数据读到内存 图像分类中广泛使用的数据集之一,但作为基准数据集过于简单。我们将使用类似但更复杂的Fashion-MNIST数据集。mnist_train是一个torchvision.datasets.mnist.FashionMNIST类型(数据集类型?)的对象:它是一个有60000张图片及其标签的数据集:它的
  • 2022-12-03深度学习基础课:使用小批量随机梯度下降
    大家好~本课程为“深度学习基础班”的线上课程,带领同学从0开始学习全连接和卷积神经网络,进行数学推导,并且实现可以运行的Demo程序线上课程资料:本节课录像回放加QQ群,获得
  • 2022-08-183.最优化问题
    1.小批量数据梯度下降在大规模的应用中(比如ILSVRC挑战赛),训练数据可以达到百万级量级。如果像这样计算整个训练集,来获得仅仅一个参数的更新就太浪费了。一个常用的方法是计