mixture

2024-09-28A Closer Look into Mixture-of-Experts in Large Language Models
本文是LLM系列文章，针对《ACloserLookintoMixture-of-ExpertsinLargeLanguageModels》的翻译。仔细研究大型语言模型中的专家混合摘要1引言2前言：混合专家3概述4静态参数分析5动态行为分析6讨论7相关工作8结论9局限性摘要专家混合（MoE）因其
2024-09-12大模型微调j技术：GaLore、BAdam、Adam-mini、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA的介绍
引言1.1大模型微调的重要性随着人工智能技术的飞速发展，大型语言模型（LLMs）如GPT-3、BERT等已经成为自然语言处理（NLP）领域的核心技术。这些模型通过在大规模文本数据上的预训练，掌握了丰富的语言知识和统计特征。然而，尽管这些预训练模型在通用任务上表现出色，但在特定任务或领
2024-08-26MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts
本文是LLM系列文章，针对《MIXLORA:EnhancingLargeLanguageModelsFine-TuningwithLoRA-basedMixtureofExperts》的翻译。MIXLORA：通过基于LoRA的专家混合来增强大型语言模型的微调摘要1引言2相关工作3MIXLORA4实验5结论摘要微调大型语言模型（LLM）
2024-08-25【大模型理论篇】Mixture of Experts(混合专家模型, MOE)
1.MoE的特点及为什么会出现MoE1.1MoE特点 MixtureofExperts（MoE，专家混合）【1】架构是一种神经网络架构，旨在通过有效分配计算负载来扩展模型规模。MoE架构通过在推理和训练过程中仅使用部分“专家”（子模型），优化了资源利用率，从而能够处理复杂任务。
2024-05-10Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer
目录概MoE训练ShazeerN.,MirhoseiniA.,MaziarzK.,DavisA.,LeQ.,HintonG.andDeanJ.Outrageouslylargeneuralnetworks:Thesparsely-gatedmixture-of-expertslayer.ICLR,2017.概Mixture-of-Experts(MoE).MoE通过一gatingnetwork选择不同的exp
2024-04-19视觉专业英语(三)
1.demonstrates 展示2.ausecase使用案例3.demonstratesvarioususecases展示各种用例4.Gaussian-Mixture-Models(GMM)高斯混合模型5.ExpectationMaximization(EM)algorithm期望最大算法/最大似然法6.Covariancematrices协方差矩阵7.densityf
2024-03-07分类器——高斯混合模型/Gaussian-Mixture-Models(GMM)之图像分割
图像分割之高斯混合模型使用GMM的步骤如下：首先，GMM由create_class_gmm创建。然后，通过add_sample_class_gmm添加训练向量，然后可以使用write_samples_class_gmm将它们写入磁盘。通过train_class_gmm确定分类器中心参数（如上定义）。此外，它们可以与write_class_gmm一起保存，以便以后
2023-12-07GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models
前置知识：【EM算法深度解析-CSDNApp】http://t.csdnimg.cn/r6TXMMotivation目前的语义分割通常采用判别式分类器，然而这存在三个问题：这种方式仅仅学习了决策边界，而没有对数据分布进行建模；每个类仅学习一个向量，没有考虑到类内差异；OOD数据效果不好。生成式分类器通过对联合分布