BATCH

2025-01-07用通俗易懂的方式讲解：大模型面试八股含答案
今天终于整理好了LLM相关的全流程八股题，共计3w字，有点累的吐血，希望对大家的面试有所帮助基础知识1.transformer八股文这一部分给出之前文章已详细解答了，在你十分清楚transformer结构后，可以加强这些题目来强化对于transformer的理解。当然如果你是一知半解，也可以读来做
2025-01-05利用huggingface尝试的第一个简单的文本分类任务
`'''这是一个简单的文本分类任务，基本的流程步骤还是挺清晰完整的，和之前那个简单的cnn差不多，用到了transformers包，还需用到huggingface的模型rbt3，但是好像连接不上``''''''遇到的问题：1.导入的包不可用，从AutoModelForTokenClassification换成了AutoModelForSequenceClassific
2025-01-05PyTorch Geometric框架下图神经网络的可解释性机制：原理、实现与评估
在机器学习领域存在一个普遍的认知误区，即可解释性与准确性存在对立关系。这种观点认为可解释模型在复杂度上存在固有限制，因此无法达到最优性能水平，神经网络之所以能够在各个领域占据主导地位，正是因为其超越了人类可理解的范畴。其实这种观点存在根本性的谬误。研究表明，黑盒
2025-01-04模型训练二三事：参数个数、小批量、学习率衰减
获取torch参数总数在PyTorch中，要获取一个模型的参数总数，可以使用以下命令：total_params=sum(p.numel()forpinmodel.parameters())这里，model 是你的模型实例。model.parameters() 返回模型中所有参数的迭代器，p.numel() 返回单个参数的元素总数。sum 函数用来将这
2025-01-04只使用tensorflow而不使用keras实现一个简单的神经网络
1、实现一个简单的Dense类，就是实现图中层的定义这是一个类，这个层主要实现数据变换的操作，即输入一个tensor，先与权重矩阵W相乘，然后加上b，最后经过激活函数activation运算，输出一个新的张量。为了实现这个操作，我们将这个任务划分成几个子任务：（1）定义需要输入的属性，用于支持数据变换
2024-12-29线性回归的从零实现
1.生成数据集从标准正态分布中采样两个特征，根据带有噪声的线性模型构造一个人造数据集defsynthetic_data(w,b,num_examples):X=torch.normal(0,1,(num_examples,len(w)))#从正态分布去生成输入的X值y=torch.matmul(X,w)+b#根据真实的权重偏置生成结果y
2024-12-21Agentic Design Patterns
AgenticDesignPatternshttps://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io Reflection:TheLLMexaminesitsownworktocomeupwithwaystoimproveit. ToolUse:TheLLMisgiventoolssuch
2024-12-19YOLOv9-0.1部分代码阅读笔记-autobatch.py
autobatch.pyutils\autobatch.py目录autobatch.py1.所需的库和模块2.defcheck_train_batch_size(model,imgsz=640,amp=True): 3.defautobatch(model,imgsz=640,fraction=0.8,batch_size=16): 1.所需的库和模块fromcopyimportdeepcopyimportnumpyasn
2024-12-18深度学习基础理论————"优化"方法(归一化/dropout)
深度学习基础理论————"优化"方法(归一化/dropout)1、归一化方法（LayerNorm/BatchNorm/GroupNorm）归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch,Layer,GroupNormalization）会显著影响训
2024-12-17【Azure Batch Account】批处理服务是否可以固定出口访问IP地址呢？
问题描述使用AzureBatchAccount服务（批处理），所访问的资源受防火墙保护。现在需要把BatchAccount服务池中的实例地址IP加入到防火墙白名单中，但是由于BatchAccount被没有指定的出口访问IP地址，所以需要把BatchAccount服务的全部IP地址加入到白名单中，但是，它的范围的确太多了！如
2024-12-16第三章 3.9 在训练过程中修改学习率
Learning_rate_annealing.ipynb#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################
2024-12-16第三章：3.8.1 绘制各层参数分布图 hist
Chapter03/Varying_learning_rate_on_scaled_data.ipynb绘制各层参数分布图#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree###
2024-12-16第三章 3.7 优化器的影响
代码：#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################第三章读取数据集并显示fro
2024-12-16第三章 3.6 批大小的影响
第三章3.4训练神经网络 #https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################第三章
2024-12-11RNN 手动实现
RNN原理RNN的整体架构如图RNN每次看到一个词，通过状态hi来积累看到的信息。例如，h0包含x0的信息，h1包含x0和x1的信息，最后一个状态ht包含了整句话的信息，从而可以把它作为整个句子的特征，用来做其他任务。注意，无论RNN的链条有多长，都只有一个参数矩阵A，A可以随机初始化，然后再通过训练
2024-12-10BAPI_BATCH_CHANGE在更新后不自动更新批次特征
1、问题介绍在CL03中看到分类特性配置了制造日期字段，并绑定了生产日期字段MCH1~HSDATMSC2N修改批次的生产日期字段时，自动修改了对应的批次特性但是通过BAPI：BAPI_BATCH_CHANGE修改生产日期时，并没有更新到批次特性中2、BAPI根据官方提示，需要使用BAPI：BAPI_BATCH_SAVE_REPL
2024-12-04da白话讲深度学习-线性回归
在学习线性回归之前可以简单了解梯度下降的过程，这是相关的内容资料：da白话讲深度学习-梯度下降-CSDN博客线性回归是机器学习入门知识之一，应用十分广泛，线性回归利用数理统计中的回归分析，来确定两种及两种以上变量间相互依赖的定量关系，其表达形式为：其中e表示为服从均值误差为0
2024-12-04一个简单的图像分类神经网络
importtorchimporttorch.onnxfromtorchimportnnfromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasetsfromtorchvision.transformsimportToTensorbatch_size=64device="cuda"#这部分代码加载了FashionMNIST数据集，datasets.Fa
2024-12-03大模型面试题：当Batch Size增大时，学习率该如何随之变化？
我整理了1000道算法面试题：获取该问题大答案的理论分析请参考苏剑林的科学空间，地址位于https://kexue.fm/archives/10542说下结论：从方差的角度来分析，有两个角度来说明学习率应该和Batchsize的关系，一个是呈现根号的关系，也即Batchsize增大x倍，学习率增大根号x倍，另一个角度是
2024-12-02【人人都能学得会的NLP - 文本分类篇 05】使用LSTM完成情感分析任务
【人人都能学得会的NLP-文本分类篇05】使用LSTM完成情感分析任务NLPGithub项目：NLP项目实践：fasterai/nlp-project-practice介绍：该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验AI藏经阁：https://gitee.com/faste
2024-11-29【Unity】DrawCall 研究随记
参考文档：1.BatchBatchBatch.PDF参考文档：2.DrawCall，Batches，SetPasscalls是什么？原理？【匠】DrawCall(绘制调用)是什么DrawCall就是CPU调用图像编程接口，比如DirectX的DrawPrimitive/DrawIndexedPrimitive，OpenGL的glDrawElement/glDrawArrays，以命令GPU进行渲染的操作
2024-11-29序列到序列的学习 (seq2seq - 词嵌入 - Embedding层 - mask掩码 - 后续会加入注意力机制) + 代码实现 —— 笔记3.10《动手学深度学习》
目录0.前言1.编码器 (encoder)补充1：词嵌入(WordEmbedding)补充2：嵌入层(EmbeddingLayer)2.解码器(decoder)3.损失函数4.训练5.预测6.预测序列的评估(BLEU)7.小结0.前言课程全部代码（pytorch版）已上传到附件本章节为原书第9章(现代循环网络)，共分为8
2024-11-28深度学习基本单元结构与输入输出维度解析
深度学习基本单元结构与输入输出维度解析在深度学习领域，模型的设计和结构是理解其性能和应用的关键。本文将介绍深度学习中的基本单元结构，包括卷积神经网络（CNN）、反卷积（转置卷积）、循环神经网络（RNN）、门控循环单元（GRU）和长短期记忆网络（LSTM），并详细讨论每个单元的输入和输出维度
2024-11-27YOLOv8-ultralytics-8.2.103部分代码阅读笔记-autobatch.py
autobatch.pyultralytics\utils\autobatch.py目录autobatch.py1.所需的库和模块2.defcheck_train_batch_size(model,imgsz=640,amp=True,batch=-1): 3.defautobatch(model,imgsz=640,fraction=0.60,batch_size=DEFAULT_CFG.batch): 1.所需的库和模块#Ultr
2024-11-25如何更改训练策略——利用torch.utils.data.batchsampler修改batch处理逻辑
问题背景给了个任务，小老板单独给了个训练集，要按照他创造的mimo策略进行训练/验证。mimo策略其中第一步就是对数据集进行处理，要把每个batch重复n_infers遍，之后组合所有的batch生成一个单独的epoch。原码是使用torch.utils.dataloader进行数据集加载的，并使用sampler(torch.utils.d