• 2024-07-01昇思25天学习打卡营第12天|网络构建
    IT专业入门,高考假期预习指南七月来临,各省高考分数已揭榜完成。而高考的完结并不意味着学习的结束,而是新旅程的开始。对于有志于踏入IT领域的高考少年们,这个假期是开启探索IT世界的绝佳时机。作为该领域的前行者和经验前辈,你是否愿意为准新生们提供一份全面的学习路线图呢?快来
  • 2024-06-30昇思25天学习打卡营第5天|网络构建
    ☀️最近报名参加了昇思25天学习打卡训练营☀️第1天初步学习了MindSpore的基本操作☀️第2天初步学习了张量Tensor☀️第3天初步学习了数据集Dataset☀️第4天初步学习了数据变换Transforms☀️第5天学习初学入门/初学教程/06-网络构建Transforms1.代码跑通流程神经
  • 2024-06-23【MindSpore学习打卡】初学教程-06网络构建-使用MindSpore构建神经网络模型
    在深度学习的世界中,构建和训练神经网络模型是核心任务之一。MindSpore作为一款开源的深度学习框架,提供了丰富的API和工具,使得构建神经网络模型变得更加简洁和高效。在这篇博客中,我们将以Mnist数据集分类为例,逐步讲解如何使用MindSpore定义模型、构建网络层并进行预测。通过
  • 2024-06-18Transformer模型代码(详细注释,适合新手)
    #Hyperparametersbatch_size=4#Howmanybatchespertrainingstepcontext_length=16#Lengthofthetokenchunkeachbatchd_model=64#Thesizeofourmodeltokenembeddingsnum_blocks=8#Numberoftransformerblocksnum_heads=4#Numbe
  • 2024-06-04【SVG 生成系列论文(九)】如何通过文本生成 svg logo?IconShop 模型推理代码详解
    SVG生成系列论文(一)和SVG生成系列论文(二)分别介绍了StarVector的大致背景和详细的模型细节。SVG生成系列论文(三)和SVG生成系列论文(四)则分别介绍实验、数据集和数据增强细节。SVG生成系列论文(五)介绍了从光栅图像(如PNG、JPG格式)转换为矢量图形(如SVG、EPS格式)的关
  • 2024-05-27clip-cnblog
    CLIPgithubLearningTransferableVisualModelsFromNaturalLanguageSupervisionCLIP全称ConstrastiveLanguage-ImagePre-training,是OpenAI推出的采用对比学习的文本-图像预训练模型。CLIP惊艳之处在于架构非常简洁且效果好到难以置信,在zero-shot文本-图像检索,zero-sho
  • 2024-05-03使用 __get__ 向已有类实例注入函数
    突然有这样的特殊需求:向已经实例化的类对象添加新方法。例如,我的model本没有实现predict_step方法,现在我想向model注入这个函数:defpredict_step(self,batch,batch_idx,dataloader_idx=0):logits=self(**batch)["logits"]pred=F.softmax(logits,dim=-1)
  • 2024-03-11ChatGLM3 源码分析(四)
    ChatGLMForSequenceClassificationclassChatGLMForSequenceClassification(ChatGLMPreTrainedModel):def__init__(self,config:ChatGLMConfig,empty_init=True,device=None):super().__init__(config)#NLabels:分类或者回归的标签数
  • 2024-03-11蒸馏网络中的bias是指什么? —— 论文《Distilling the Knowledge in a Neural Network》—— 知识蒸馏
    论文地址:https://arxiv.org/pdf/1503.02531.pdf在蒸馏网络中会遇到手动调整bias的说法,但是这个bias在论文中又没有明细说明是怎么个bias,具体论文出处:Ifthisbiasisincreasedby3.5查询Gemini,得到回答:Assumingyou'rereferringtotheprevioussentenceaboutl
  • 2024-03-07ChatGLM3 源码解析(三)
    RotaryEmbedding#旋转位置嵌入,应用于每一层Q和KclassRotaryEmbedding(nn.Module):def__init__(self,dim,rope_ratio=1,original_impl=False,device=None,dtype=None):super().__init__()#除法项定义inv_freq=1.0/(10000**(to
  • 2024-01-30CS231N Assignment3 入门笔记(Q4 GANs)
    斯坦福2023年春季CS231N课程第三次作业(最后一次)解析、笔记与代码,作为初学者入门学习。在这项作业中,将实现语言网络,并将其应用于COCO数据集上的图像标题。然后将训练生成对抗网络,生成与训练数据集相似的图像。最后,将学习自我监督学习,自动学习无标签数据集的视觉表示。本作业的
  • 2023-12-26大语言模型生成模型的源码结构复习
    modeling_gpt2.py:1099iflabelsisnotNone:#movelabelstocorrectdevicetoenablemodelparallelismlabels=labels.to(lm_logits.device)#Shiftsothattokens<npredictnshift_logits=lm
  • 2023-09-04ChatGLM2 源码解析:`ChatGLMForConditionalGeneration.forward`
    classChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):def__init__(self,config:ChatGLMConfig,empty_init=True,device=None):super().__init__(config)self.max_sequence_length=config.max_lengthself.transformer=C
  • 2023-07-19logits 与 pre-logits
    logits为fc的输出,应用softmax之前的向量,(b,len)pre-logits这个东西我是从论文《Tied-Augment:ControllingRepresentationSimilarityImproves DataAugmentation 》中看到的,根据源码的解释,pre-logits为特征图flatten之后(应用fc之前)的向量: 特此记录
  • 2023-06-13CLIP损失函数的理解
    参考资料:[一个写的相当好的教程][CLIPhuggingface源码:CLIPModel][CLIPhuggingface训练例程]这篇文章首先展示CLIP损失函数的两种底层实现代码,然后聊一聊自己的理解。说实话念硕士的时候没有接触过CLIP这个东西,来实习之后发现这个多模态的模型使用
  • 2023-05-31测试
    测试从图中我们可以发现,随着训练次数的增加,Loss越来越小,准确率也是越来越高·。但是在到达某个节点后,随着训练次数的增多Loss反而不稳定起来,准确率也发生波动。所以说明模型的训练并不是次数越多越好。这是因为对于同一个训练集,不断地训练会让模型记住这些样本的一些表面属性,使
  • 2023-05-31论文阅读 | Learn from Others and Be Yourself in Heterogeneous Federated Learning
    在异构联邦学习中博采众长做自己代码:https://paperswithcode.com/paper/learn-from-others-and-be-yourself-in摘要联邦学习中有异质性问题和灾难性遗忘。首先,由于非I.I.D(相同独立分布)数据和异构体系结构,模型在其他领域的性能下降,并且与参与者模型之间存在通信障碍。其次,在局
  • 2023-05-25PPO算法的一个简单实现:对话机器人
    综上,PPO算法是一种具体的Actor-Critic算法实现,比如在对话机器人中,输入的prompt是state,输出的response是action,想要得到的策略就是怎么从prompt生成action能够得到最大的reward,也就是拟合人类的偏好。具体实现时,可以按如下两大步骤实现首先定义4个模型:Actor(action_logits)、SFT(s
  • 2023-05-09tensorflow 输出权重的值
    1.确定权重名称:tvars1=tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)fortmpintvars1:print('all-->',tmp.name)2.根据网络结构从1中找到想要打印的权重名称weight_name,通过下面的方式进行打印fc_logits=tf.get_default_graph().get_tensor_by_name(weigh
  • 2023-05-06使用BERT的两层encoder实现tweet sentiment extraction
    文章目录使用BERT的两层encoder实现tweetsentimentextraction1.前言1.1Required1.2分析给定的数据2.模型构造2.1数据清洗2.2模型结构使用BERT的两层encoder实现tweetsentimentextractionTweetsentimentextraction是kaggle的一个比赛,这个代码主要是想尝试利用BERT模型实
  • 2023-04-11nlp推理后处理中的一些技术细节
    前言:在一些序列生成任务中,比如seq2seq的机器翻译模型,或者是验证码识别的CTC算法中,输出的每一个时间步都会有一个分布。最终的序列会使用BeamSearch或者Viterbi等算法搜索Top-K概率的序列。这类方法介于逐时间步argmax的完全贪心策略和全局动态规划的优化策略之间。常
  • 2023-04-10模型蒸馏
     蒸馏过程:forepochinrange(epochs):student_model.train()forbatch,(data,target)inenumerate(train_loader):student_logits=student_model(data)//教师不更新withtorch.no_grad():teacher_logits=teacher
  • 2023-03-23Discretizing Continuous Action Space for On-Policy Optimization
    发表时间:2020(AAAI2020)文章要点:作者想说,连续动作通常都假设每个维度是高斯分布的,这就限制了策略一定是一个单峰,而离散动作就没有这个约束,所以有离散的必要。然后这篇文章
  • 2023-03-19tensorflow中交叉熵损失函数详解
    1前言tensorflow中定义了3个交叉熵损失函数:softmax_cross_entropy_with_logits(logits,labels)softmax_cross_entropy_with_logits_v2(logits,labels)sparse_softm
  • 2023-02-272022-10-27-各种Normallize的区别
    layout:posttitle:CS231N-课后思考后笔记subtitle:CS231N-课后思考后笔记description:CS231N-课后思考后笔记date:2022-10-26categories:deep