首页 > 其他分享 >GIT RE-BASIN: MERGING MODELS MODULO PERMUTATION SYMMETRIES (1)

GIT RE-BASIN: MERGING MODELS MODULO PERMUTATION SYMMETRIES (1)

时间:2024-11-11 15:11:03浏览次数:1  
标签:loss GIT MODULO 训练 MODELS 初始值 MERGING SYMMETRIES basin

在深度学习模型的训练过程中,经常会遇到这样的现象:每次训练,虽然初始值、随机种子、训练数据的顺序不一样,但是得到的loss曲线都差不多,在验证集上的结果也差不多.这篇论文从land scape的角度解释了这个问题:神经网络的loss landscape并不是我们想象中的很混乱、毫无规律,而是在permutation symmetry的意义下只有一个basin,这样即使每次训练的初始值、随机种子、训练数据的顺序不一样,最终都是进入到这个basin里面,所以loss曲线和验证集上的结果都差不多.

将神经网络中同一层的神经元顺序交换一下并不会改变这一层的输出,也就是说变换前后的模型在permutation symmetry的意义下是等价的,如下图所示:

ΘA与ΘB在两个不同的basin,但是通过等效变换以后,把ΘB变换到∏(ΘB),它们实际上是在同一个basin里面.

 

标签:loss,GIT,MODULO,训练,MODELS,初始值,MERGING,SYMMETRIES,basin
From: https://www.cnblogs.com/mstk/p/18539735

相关文章

  • [豪の学习笔记] Git的使用
    一、本地仓库1.1-工作流程1.2-本地仓库操作①全局配置:gitconfig--globaluser.name"用户名"gitconfig--globaluser.email"邮箱地址"②创建仓库:当需要让Git去管理某个项目时,就需要创建仓库。PS:创建仓库时使用的目录不一定要求是空目录,选择一个非空目录也可以......
  • 第九章:Gitee码云
    目录一、Gitee码云的注册与创建远程库二、IDEA集成Gitee及相关操作三、Gitee导入GitHub项目总结一、Gitee码云的注册与创建远程库前面大家都发现了GitHub的速度很慢,因为其服务器在国外,由此Gitee码云应运而生。Gitee是开源中国推出的基于Git的代码托管中心,可以通过浏览器......
  • LLMOps Essentials: A Practical Guide to Operationalizing Large Language Models
    LLMOpsEssentials:APracticalGuidetoOperationalizingLargeLanguageModelshttps://www.datacamp.com/blog/llmops-essentials-guide-to-operationalizing-large-language-models Whenwe,asusers,interactwithChatGPT,wesimplytypeapromptintothewe......
  • 在 Github Action 管道内集成 Code Coverage Report
    GithubActions我们的开源项目Host在Github,并且使用它强大的Actions功能在做CICD。单看GithubActions可能不知道是啥。其实它就是我们常说的CICDpipeline或者叫workflow。当我们Push代码到Github,它会自动触发这些管道。它会帮我们自动build代码,跑testcases,构......
  • 【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Mode
    ......
  • 什么是git,什么是github,git和github的使用
    Git实战注意:本项目是学习笔记,来自于哔哩哔哩武沛齐老师的Git实战视频,网址:【武沛齐老师讲git,看完绝对上瘾!!!】https://www.bilibili.com/video/BV1ne4y1E7np/?share_source=copy_web&vd_source=2c9a5d5590d3759367594e264ff079c4另外,因为这个博客是我直接从typora上复制粘贴过......
  • 神书《从零构建大模型》分享,尚未发布,GitHub标星22k!!
    《从零构建大模型》是一本即将于今年10月底发布的书籍,github已经吸引了惊人的21.7k标星!作者是威斯康星大学麦迪逊分校的终身教授,在GitHub、油管、X上拥有大量粉丝,是一位真正的大佬。本书免费获取地址在本书中,读者将从内到外了解LLM的工作原理。在这本富有洞察力的书中......
  • InDepth Guide to Denoising Diffusion Probabilistic Models DDPM:DDPM扩散概率模型去
    AnIn-DepthGuidetoDenoisingDiffusionProbabilisticModelsDDPM–TheorytoImplementation中文翻译:DDPM扩散概率模型去噪深度指南——理论到实现https://learnopencv.com/denoising-diffusion-probabilistic-models/#forward-diffusion-equationhttps://github.com/......
  • 【论文阅读】您的 AI 生成的代码真的安全吗?Evaluating Large Language Models on Secu
    IsYourAI-GeneratedCodeReallySafe?EvaluatingLargeLanguageModelsonSecureCodeGenerationwithCodeSecEval标题:您的AI生成的代码真的安全吗?基于CodeSecEval对LLMs代码生成的安全性进行评估摘要:*【Background】大语言模型(LLMs)在代码生成和代码修复方面取......
  • [ARC158C] All Pair Digit Sums 题解
    C-AllPairDigitSums题意:设\(f(x)\)为\(x\)的数字和。例如\(f(158)=1+5+8=14\)。给定一个长度为\(N\)的正整数序列\(A\),求\(\sum_{i=1}^{N}\sum_{j=1}^{N}f(A_i+A_j)\)。分析:首先明确\(f(x)\)为\(x\)的数位和。举例情况:若有两个数分别为:\(12,21\)。\[f(......