logits

2024-11-15不可以色色！使用autodl平台搭建深度学习模型实现自动“鉴黄”！
Falconsai色情内容色情内容是非常有害的，它们既不符合我国的法律也要求，同时也毒害了人们的思想精神。在过去，通过使用人工“鉴黄”的方式，找一个专门的工作者，去判断一个内容是否是色情内容，虽然，他们通过努力不懈，阻止了色情内容的传播，但是，这样的工作对于鉴黄师本人来说，却是很大的
2024-11-13深度学习 PyTorch 中的 logits 和交叉熵损失函数
在深度学习中，理解损失函数是训练模型的关键一步。在分类任务中，交叉熵损失函数是最常用的损失函数之一。本文将详细解释PyTorch中的logits、交叉熵损失函数的工作原理，并展示如何调整张量的形状以确保计算正确的损失。什么是logits？logits是模型输出的未归一化预测值，通常
2024-11-01forward_MDCS
最好的效果47.35defforward(self,output_logits,target,extra_info=None):ifextra_infoisNone:returnself.base_loss(output_logits,target)#output_logitsindicatesthefinalpredictionloss=0temperature_mean
2024-09-25大模型应用曙光 - 10X压缩技术
关注TechLead，复旦AI博士，分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员，国家级大学生赛事评审专家，发表多篇SCI核心期刊学术论文，上亿营收AI产品研发负责人。如何在不牺牲性能的情况下将大型语言模型缩小十倍虽然LLM的巨大规模赋予了它们在各
2024-08-29负对数似然（NLL）和困惑度（PPL）
让我们通过一个简单的例子来演示这段代码的计算过程，包括负对数似然（NLL）和困惑度（PPL）的计算。为了简化，我们将假设一个非常小的模型输出和数据。假设：我们有两个样本（即batchsize为2）。每个样本有3个可能的类别，S_logits是模型输出的logits。smask是一个掩码，假设全部为True
2024-08-15大模型微调实战演练：使用代码剖析 Transformers Pipelines工作原理
在自然语言处理（NLP）领域，Transformers模型已经成为了主流技术之一。无论是文本分类、情感分析，还是机器翻译，Transformers都展现了强大的性能。今天，我们来详细解析一下TransformersPipelines的运行原理，帮助大家更好地理解其内部机制。一、基本流程TransformersPipeline
2024-08-05hello
点击查看代码defforward(self,output_logits,target,extra_info=None):ifextra_infoisNone:returnself.base_loss(output_logits,target)#output_logitsindicatesthefinalpredictionloss=0temperature_mean=1
2024-07-18LLM训练5-MoE并行
前置知识MOE(MixerOfExpert)moe的主要原理是替换attention层后的MLP层,通过将不同类型的token按照门控单元计算出的概率分配给最大概率处理的专家网络处理,对比单一MLP更适合处理复杂多样化的数据集.主要思想和集成学习感觉很像,而且扩展性(遇到新的目标任务可以新增专家网
2024-07-16LLM大模型：推理优化-知识蒸馏
1、有些模型比较大，推理时的效果还不错，但非常耗费计算资源；并且产生token的速度也很慢，大概1秒1个token(我的RAG在最后一步使用的secGPT-13B大概就是这个速度)，一个问题回答完毕要耗费分钟级别的时间，用户直接抓狂，继续提升推理的速度！大模型本质是大量的矩阵运算，想要提高效
2024-07-01昇思25天学习打卡营第12天|网络构建
IT专业入门，高考假期预习指南七月来临，各省高考分数已揭榜完成。而高考的完结并不意味着学习的结束，而是新旅程的开始。对于有志于踏入IT领域的高考少年们，这个假期是开启探索IT世界的绝佳时机。作为该领域的前行者和经验前辈，你是否愿意为准新生们提供一份全面的学习路线图呢？快来
2024-06-30昇思25天学习打卡营第5天|网络构建
☀️最近报名参加了昇思25天学习打卡训练营☀️第1天初步学习了MindSpore的基本操作☀️第2天初步学习了张量Tensor☀️第3天初步学习了数据集Dataset☀️第4天初步学习了数据变换Transforms☀️第5天学习初学入门/初学教程/06-网络构建Transforms1.代码跑通流程神经
2024-06-23【MindSpore学习打卡】初学教程-06网络构建-使用MindSpore构建神经网络模型
在深度学习的世界中，构建和训练神经网络模型是核心任务之一。MindSpore作为一款开源的深度学习框架，提供了丰富的API和工具，使得构建神经网络模型变得更加简洁和高效。在这篇博客中，我们将以Mnist数据集分类为例，逐步讲解如何使用MindSpore定义模型、构建网络层并进行预测。通过
2024-06-18Transformer模型代码（详细注释，适合新手）
#Hyperparametersbatch_size=4#Howmanybatchespertrainingstepcontext_length=16#Lengthofthetokenchunkeachbatchd_model=64#Thesizeofourmodeltokenembeddingsnum_blocks=8#Numberoftransformerblocksnum_heads=4#Numbe
2024-06-04【SVG 生成系列论文（九）】如何通过文本生成 svg logo？IconShop 模型推理代码详解
SVG生成系列论文（一）和SVG生成系列论文（二）分别介绍了StarVector的大致背景和详细的模型细节。SVG生成系列论文（三）和SVG生成系列论文（四）则分别介绍实验、数据集和数据增强细节。SVG生成系列论文（五）介绍了从光栅图像（如PNG、JPG格式）转换为矢量图形（如SVG、EPS格式）的关
2024-05-27clip-cnblog
CLIPgithubLearningTransferableVisualModelsFromNaturalLanguageSupervisionCLIP全称ConstrastiveLanguage-ImagePre-training，是OpenAI推出的采用对比学习的文本-图像预训练模型。CLIP惊艳之处在于架构非常简洁且效果好到难以置信，在zero-shot文本-图像检索，zero-sho
2024-05-03使用 __get__ 向已有类实例注入函数
突然有这样的特殊需求：向已经实例化的类对象添加新方法。例如，我的model本没有实现predict_step方法，现在我想向model注入这个函数：defpredict_step(self,batch,batch_idx,dataloader_idx=0):logits=self(**batch)["logits"]pred=F.softmax(logits,dim=-1)
2024-03-11ChatGLM3 源码分析（四）
ChatGLMForSequenceClassificationclassChatGLMForSequenceClassification(ChatGLMPreTrainedModel):def__init__(self,config:ChatGLMConfig,empty_init=True,device=None):super().__init__(config)#NLabels：分类或者回归的标签数
2024-03-11蒸馏网络中的bias是指什么？ —— 论文《Distilling the Knowledge in a Neural Network》—— 知识蒸馏
论文地址：https://arxiv.org/pdf/1503.02531.pdf在蒸馏网络中会遇到手动调整bias的说法，但是这个bias在论文中又没有明细说明是怎么个bias，具体论文出处：Ifthisbiasisincreasedby3.5查询Gemini，得到回答：Assumingyou'rereferringtotheprevioussentenceaboutl
2024-03-07ChatGLM3 源码解析（三）
RotaryEmbedding#旋转位置嵌入，应用于每一层Q和KclassRotaryEmbedding(nn.Module):def__init__(self,dim,rope_ratio=1,original_impl=False,device=None,dtype=None):super().__init__()#除法项定义inv_freq=1.0/(10000**(to
2024-01-30CS231N Assignment3 入门笔记（Q4 GANs）
斯坦福2023年春季CS231N课程第三次作业（最后一次）解析、笔记与代码，作为初学者入门学习。在这项作业中，将实现语言网络，并将其应用于COCO数据集上的图像标题。然后将训练生成对抗网络，生成与训练数据集相似的图像。最后，将学习自我监督学习，自动学习无标签数据集的视觉表示。本作业的
2023-12-26大语言模型生成模型的源码结构复习
modeling_gpt2.py:1099iflabelsisnotNone:#movelabelstocorrectdevicetoenablemodelparallelismlabels=labels.to(lm_logits.device)#Shiftsothattokens<npredictnshift_logits=lm
2023-09-04ChatGLM2 源码解析：`ChatGLMForConditionalGeneration.forward`
classChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):def__init__(self,config:ChatGLMConfig,empty_init=True,device=None):super().__init__(config)self.max_sequence_length=config.max_lengthself.transformer=C
2023-07-19logits 与 pre-logits
logits为fc的输出，应用softmax之前的向量，（b,len)pre-logits这个东西我是从论文《Tied-Augment:ControllingRepresentationSimilarityImproves DataAugmentation 》中看到的，根据源码的解释，pre-logits为特征图flatten之后（应用fc之前）的向量：特此记录
2023-06-13CLIP损失函数的理解
参考资料：[一个写的相当好的教程][CLIPhuggingface源码：CLIPModel][CLIPhuggingface训练例程]这篇文章首先展示CLIP损失函数的两种底层实现代码，然后聊一聊自己的理解。说实话念硕士的时候没有接触过CLIP这个东西，来实习之后发现这个多模态的模型使用
2023-05-31测试
测试从图中我们可以发现，随着训练次数的增加，Loss越来越小，准确率也是越来越高·。但是在到达某个节点后，随着训练次数的增多Loss反而不稳定起来，准确率也发生波动。所以说明模型的训练并不是次数越多越好。这是因为对于同一个训练集，不断地训练会让模型记住这些样本的一些表面属性，使