- 2025-01-07用通俗易懂的方式讲解:大模型面试八股含答案
今天终于整理好了LLM相关的全流程八股题,共计3w字,有点累的吐血,希望对大家的面试有所帮助基础知识1.transformer八股文这一部分给出之前文章已详细解答了,在你十分清楚transformer结构后,可以加强这些题目来强化对于transformer的理解。当然如果你是一知半解,也可以读来做
- 2025-01-05利用huggingface尝试的第一个简单的文本分类任务
`'''这是一个简单的文本分类任务,基本的流程步骤还是挺清晰完整的,和之前那个简单的cnn差不多,用到了transformers包,还需用到huggingface的模型rbt3,但是好像连接不上``''''''遇到的问题:1.导入的包不可用,从AutoModelForTokenClassification换成了AutoModelForSequenceClassific
- 2025-01-05PyTorch Geometric框架下图神经网络的可解释性机制:原理、实现与评估
在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。其实这种观点存在根本性的谬误。研究表明,黑盒
- 2025-01-04模型训练二三事:参数个数、小批量、学习率衰减
获取torch参数总数在PyTorch中,要获取一个模型的参数总数,可以使用以下命令:total_params=sum(p.numel()forpinmodel.parameters())这里,model 是你的模型实例。model.parameters() 返回模型中所有参数的迭代器,p.numel() 返回单个参数的元素总数。sum 函数用来将这
- 2025-01-04只使用tensorflow而不使用keras实现一个简单的神经网络
1、实现一个简单的Dense类,就是实现图中层的定义这是一个类,这个层主要实现数据变换的操作,即输入一个tensor,先与权重矩阵W相乘,然后加上b,最后经过激活函数activation运算,输出一个新的张量。为了实现这个操作,我们将这个任务划分成几个子任务:(1)定义需要输入的属性,用于支持数据变换
- 2024-12-29线性回归的从零实现
1.生成数据集从标准正态分布中采样两个特征,根据带有噪声的线性模型构造一个人造数据集defsynthetic_data(w,b,num_examples):X=torch.normal(0,1,(num_examples,len(w)))#从正态分布去生成输入的X值y=torch.matmul(X,w)+b#根据真实的权重偏置生成结果y
- 2024-12-21Agentic Design Patterns
AgenticDesignPatternshttps://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io Reflection:TheLLMexaminesitsownworktocomeupwithwaystoimproveit. ToolUse:TheLLMisgiventoolssuch
- 2024-12-19YOLOv9-0.1部分代码阅读笔记-autobatch.py
autobatch.pyutils\autobatch.py目录autobatch.py1.所需的库和模块2.defcheck_train_batch_size(model,imgsz=640,amp=True): 3.defautobatch(model,imgsz=640,fraction=0.8,batch_size=16): 1.所需的库和模块fromcopyimportdeepcopyimportnumpyasn
- 2024-12-18深度学习基础理论————"优化"方法(归一化/dropout)
深度学习基础理论————"优化"方法(归一化/dropout)1、归一化方法(LayerNorm/BatchNorm/GroupNorm)归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch,Layer,GroupNormalization)会显著影响训
- 2024-12-17【Azure Batch Account】批处理服务是否可以固定出口访问IP地址呢?
问题描述使用AzureBatchAccount服务(批处理),所访问的资源受防火墙保护。现在需要把BatchAccount服务池中的实例地址IP加入到防火墙白名单中,但是由于BatchAccount被没有指定的出口访问IP地址,所以需要把BatchAccount服务的全部IP地址加入到白名单中,但是,它的范围的确太多了!如
- 2024-12-16第三章 3.9 在训练过程中修改学习率
Learning_rate_annealing.ipynb#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################
- 2024-12-16第三章:3.8.1 绘制各层参数分布图 hist
Chapter03/Varying_learning_rate_on_scaled_data.ipynb绘制各层参数分布图#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree###
- 2024-12-16第三章 3.7 优化器的影响
代码:#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################第三章读取数据集并显示fro
- 2024-12-16第三章 3.6 批大小的影响
第三章3.4训练神经网络 #https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterThree########################################第三章
- 2024-12-11RNN 手动实现
RNN原理RNN的整体架构如图RNN每次看到一个词,通过状态hi来积累看到的信息。例如,h0包含x0的信息,h1包含x0和x1的信息,最后一个状态ht包含了整句话的信息,从而可以把它作为整个句子的特征,用来做其他任务。注意,无论RNN的链条有多长,都只有一个参数矩阵A,A可以随机初始化,然后再通过训练
- 2024-12-10BAPI_BATCH_CHANGE在更新后不自动更新批次特征
1、问题介绍 在CL03中看到分类特性配置了制造日期字段,并绑定了生产日期字段MCH1~HSDATMSC2N修改批次的生产日期字段时,自动修改了对应的批次特性但是通过BAPI:BAPI_BATCH_CHANGE修改生产日期时,并没有更新到批次特性中2、BAPI根据官方提示,需要使用BAPI:BAPI_BATCH_SAVE_REPL
- 2024-12-04da白话讲深度学习-线性回归
在学习线性回归之前可以简单了解梯度下降的过程,这是相关的内容资料:da白话讲深度学习-梯度下降-CSDN博客线性回归是机器学习入门知识之一,应用十分广泛,线性回归利用数理统计中的回归分析,来确定两种及两种以上变量间相互依赖的定量关系,其表达形式为:其中e表示为服从均值误差为0
- 2024-12-04一个简单的图像分类神经网络
importtorchimporttorch.onnxfromtorchimportnnfromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasetsfromtorchvision.transformsimportToTensorbatch_size=64device="cuda"#这部分代码加载了FashionMNIST数据集,datasets.Fa
- 2024-12-03大模型面试题:当Batch Size增大时,学习率该如何随之变化?
我整理了1000道算法面试题:获取该问题大答案的理论分析请参考苏剑林的科学空间,地址位于https://kexue.fm/archives/10542说下结论:从方差的角度来分析,有两个角度来说明学习率应该和Batchsize的关系,一个是呈现根号的关系,也即Batchsize增大x倍,学习率增大根号x倍,另一个角度是
- 2024-12-02【人人都能学得会的NLP - 文本分类篇 05】使用LSTM完成情感分析任务
【人人都能学得会的NLP-文本分类篇05】使用LSTM完成情感分析任务NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/faste
- 2024-11-29【Unity】DrawCall 研究随记
参考文档:1.BatchBatchBatch.PDF参考文档:2.DrawCall,Batches,SetPasscalls是什么?原理?【匠】DrawCall(绘制调用)是什么DrawCall就是CPU调用图像编程接口,比如DirectX的DrawPrimitive/DrawIndexedPrimitive,OpenGL的glDrawElement/glDrawArrays,以命令GPU进行渲染的操作
- 2024-11-29序列到序列的学习 (seq2seq - 词嵌入 - Embedding层 - mask掩码 - 后续会加入注意力机制) + 代码实现 —— 笔记3.10《动手学深度学习》
目录0.前言1.编码器 (encoder)补充1:词嵌入(WordEmbedding)补充2:嵌入层(EmbeddingLayer)2.解码器(decoder)3.损失函数4.训练5.预测6.预测序列的评估(BLEU)7.小结0.前言课程全部代码(pytorch版)已上传到附件本章节为原书第9章(现代循环网络),共分为8
- 2024-11-28深度学习基本单元结构与输入输出维度解析
深度学习基本单元结构与输入输出维度解析在深度学习领域,模型的设计和结构是理解其性能和应用的关键。本文将介绍深度学习中的基本单元结构,包括卷积神经网络(CNN)、反卷积(转置卷积)、循环神经网络(RNN)、门控循环单元(GRU)和长短期记忆网络(LSTM),并详细讨论每个单元的输入和输出维度
- 2024-11-27YOLOv8-ultralytics-8.2.103部分代码阅读笔记-autobatch.py
autobatch.pyultralytics\utils\autobatch.py目录autobatch.py1.所需的库和模块2.defcheck_train_batch_size(model,imgsz=640,amp=True,batch=-1): 3.defautobatch(model,imgsz=640,fraction=0.60,batch_size=DEFAULT_CFG.batch): 1.所需的库和模块#Ultr
- 2024-11-25如何更改训练策略——利用torch.utils.data.batchsampler修改batch处理逻辑
问题背景给了个任务,小老板单独给了个训练集,要按照他创造的mimo策略进行训练/验证。mimo策略其中第一步就是对数据集进行处理,要把每个batch重复n_infers遍,之后组合所有的batch生成一个单独的epoch。原码是使用torch.utils.dataloader进行数据集加载的,并使用sampler(torch.utils.d