首页 > 其他分享 >自然语言处理预训练——近似训练

自然语言处理预训练——近似训练

时间:2023-11-17 11:33:56浏览次数:35  
标签:采样 训练 词汇表 近似 负例 softmax 自然语言 节点

近似训练是一种用于加速训练过程的技术。

 

负采样

负采样是在训练过程中对目标函数进行简化的一种方法。在传统的训练中,需要计算整个词汇表的概率分布,这在大规模任务中会非常耗时。负采样的思想是通过随机采样一小部分负例来近似计算全局的目标函数。具体来说,对于每个正例(例如一个正确的词对应的上下文),从词汇表中随机选择一些负例(不在上下文中出现的词)作为训练样本。这样可以大幅减少计算量,同时保持了模型的训练效果。

 

具体而言,负采样会根据词频分布对词汇表进行采样,选择一些常见的词作为噪声词。这样做的目的是使得模型能够更好地区分中心词和噪声词,从而提高词向量的质量。同时,由于只考虑了部分负例,负采样的训练计算量与每一步的噪声词数成线性关系,大大降低了计算成本。

 

 

分层sofmax 

层序softmax是一种用于加速并行计算的技术,特别适用于具有大型输出空间的任务,例如词汇表很大的情况。传统的softmax要求对整个输出空间计算概率分布,计算复杂度较高。层序softmax通过将词汇表组织成一颗二叉树,每个节点代表一个词,通过自顶向下的递归方式计算概率。具体操作是,在二叉树中从根节点开始,依次选择左右子节点,直到到达叶子节点。

 

总结

  • 负采样通过考虑相互独立的事件来构造损失函数,这些事件同时涉及正例和负例。训练的计算量与每一步的噪声词数成线性关系。

  • 分层softmax使用二叉树中从根节点到叶节点的路径构造损失函数。训练的计算成本取决于词表大小的对数。

标签:采样,训练,词汇表,近似,负例,softmax,自然语言,节点
From: https://www.cnblogs.com/yccy/p/17838277.html

相关文章

  • 使用FP8加速PyTorch训练
    现代的人工智能硬件架构(例如,NvidiaHopper,NvidiaAdaLovelace和HabanaGaudi2)中,FP8张量内核能够显著提高每秒浮点运算(FLOPS),以及为人工智能训练和推理工作负载提供内存优化和节能的机会。在这篇文章中,我们将介绍如何修改PyTorch训练脚本,利用NvidiaH100GPU的FP8数据类型的......
  • 手把手教你yolov5训练自己的数据集(代码+教程)
    在这篇博文中,我们对YOLOv5模型进行微调,用于自定义目标检测的训练和推理。目录引言:YOLOv5是什么?YOLOv5提供的模型YOLOv5提供的功能使用YOLOv5进行自定义目标检测训练自定义训练的方法自定义训练代码准备数据集克隆YOLOv5存储库训练小模型(yolov5s)训练YOLOv5中型模型冻结层训练中型Y......
  • 智能语音和自然语言处理技术
    一、定义智能语音和自然语言处理技术是指通过计算机技术实现人机交互的一种技术。它可以让计算机和人类之间进行自然而流畅的交流,从而实现更高效、更便捷、更智能的信息交流和处理。智能语音和自然语言处理技术主要包括语音识别、语音合成、自然语言理解、自然语言生成、文本分类、......
  • ChatGPT的训练费用以及成功原因
     参考:https://baijiahao.baidu.com/s?id=1772914234034992726&wfr=spider&for=pc  ================================  关于ChatGPT的成功原因,引用国产大模型混战加速,速成幻觉又是一场大厂陪跑赛?中的回答:益于ChatGPT商业和营销方面的成功,能够瞬间让人们目睹了大模型......
  • transformer模型训练、推理过程分析
    复杂度分析推理过程图示DoubleQLORA示意图......
  • [整理]赛前训练
    第一场A是简单题,注意到矩形形成的是一个单调的阶梯,我们只需要排序然后枚举计算即可。需要注意处理一下完全包含的情况,用二维数点即可。(找单调性)B见到树上路径,想到拆分成点到根的异或和。注意到每个点的异或和确定了,边权就都确定了(钦定1的异或和是0),这样就和树的结构无关了,直......
  • 损失函数---训练集降低,验证集升高
     损失函数在训练集下降而在验证集上升,通常被称为过拟合(overfitting)的现象。这意味着模型在训练数据上表现得很好,但在新的、未见过的数据上表现较差。过拟合可能是由于模型过于复杂,以至于学到了训练数据中的噪声或细微特征,而这些特征在验证数据中并不普遍存在。 我通过降低学......
  • 基于时间频率一致性对时间序列进行自监督对比预训练《Self-Supervised Contrastive Pr
    2023年11月10日,今天看一篇论文,现在17:34,说实话,想摆烂休息,不想看,可还是要看,拴Q。论文:Self-SupervisedContrastivePre-TrainingforTimeSeriesviaTime-FrequencyConsistency或者是:Self-SupervisedContrastivePre-TrainingforTimeSeriesviaTime-FrequencyConsistenc......
  • 初学者如何上手服务器训练模型
    拿到一个服务器很迷茫,不知道如何使用,写一份本实验室的服务器使用方法:1下载Xshell和Xftp现在提供了家庭/学习免费版2安装后新建会话3bash命令切换到bash界面bash,全称BourneAgainShell,是绝大多数Linux系统默认的命令解释器,能够处理用户所输入的命令,以及执行指定的Shell脚......
  • 解决 keras 首次装载预训练模型VGG16 时下载失败问题
    解决:Exception:URLfetchfailureonhttps://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5:None--[Errno104]Connectionresetbypeer解决方案:1、先将数据集单独下载下来:models/vgg16_weights_tf_d......