大模型架构之MOE

时间：2024-04-02 17:33:20浏览次数：16

标签：架构 features 模型 Linear bias proj out MOE 4096

transformers库里面的modeling_mistral.py


MistralModel(
  (embed_tokens): Embedding(32000, 4096)
  (layers): ModuleList(
    (0-1): 2 x MistralDecoderLayer(
      (self_attn): MistralSdpaAttention(
        (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
        (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
        (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
        (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
        (rotary_emb): MistralRotaryEmbedding()
      )
      (mlp): MistralMLP(
        (gate_proj): Linear(in_features=4096, out_features=2, bias=False)
        (up_proj): Linear(in_features=4096, out_features=2, bias=False)
        (down_proj): Linear(in_features=2, out_features=4096, bias=False)
        (act_fn): SiLU()
      )
      (input_layernorm): MistralRMSNorm()
      (post_attention_layernorm): MistralRMSNorm()
    )
  )
  (norm): MistralRMSNorm()
)

debug代码

import transformers
a=transformers.MistralModel
b=a(transformers.MistralConfig(num_hidden_layers=2,intermediate_size=2))
print(1)
import torch
a=b(torch.tensor([1,2,4]).unsqueeze(0))
print(a)
print(1)

标签：架构,features,模型,Linear,bias,proj,out,MOE,4096
From： https://www.cnblogs.com/zhangbo2008/p/18111126

书生浦语第二期第二节课笔记（轻松玩转书生·浦语大模型趣味 Demo）
以下内容是在InternStudio的开发机上运行的一、部署 InternLM2-Chat-1.8B 模型进行智能对话第一步：进入开发机后，在终端中输入以下环境命令配置进行环境配置studio-conda-ointernlm-base-tdemo#与studio-conda等效的配置方案#condacreate-ndemopython==3.10-......
PyTorch学习（5）：并行训练模型权重的本地化与加载
1.并行训练与非并行训练在训练深度神经网络时，我们一般会采用CPU或GPU来完成。得益于开源传统，许多算法都提供了完整的开源代码工程，便于学习和使用。随着GPU的普及，GPGPU已经占据了大部分的训练场景。我们在这里仅以GPU训练场景做一些说明。......
地平线旭日x3 deeplav3训练分割模型训练流程（2024.4.2 笔记）
地平线x3开发资料，版本2.6.2b旭日X3派用户手册https://developer.horizon.ai/api/v1/fileData/documents_pi/Quick_Start/Quick_Start.html地平线X3J3算法工具链https://developer.horizon.cc/api/v1/fileData/horizon_xj3_open_explorer_cn_doc/oe_mapper/source/advanced_con......
展锐平台sensorhub架构(SC9863A)
安卓架构图： Sensorhub架构 SensorHub 是Sensor 软件运行环境，分为Sensor manager：管理sensordriver 采样和上报数据给AP, 接收AP 下发的命令；AP: 应用程序执行环境，HAL：sensorhal 层接口实现，SensorHubDriver: 接收HAL 层的命令并发给sensorhub，反馈sensorhub ......
层次式架构案例
......
信息系统架构
......
大模型智能体操作系统（AIOS: LLM Agent Operating System）
简介：基于大型语言模型（LLM）的智能体的集成和部署充满了挑战，这些挑战损害了它们的效率和功效。这些问题包括LLM上智能体请求的次优调度和资源分配，在智能体和LLM之间的交互过程中维护上下文的困难，以及集成具有不同能力和专业化的异构智能体所固有的复杂性。智能体的数量和复杂性......
YoloV8_从环境安装到训练模型到使用模型
纯干货！！！从零开始训练模型一、环境的安装1.下载安装GIT###如果已经安装GIT则请跳过###本文档所有有下划线的都可以Ctrl+鼠标左键直达连接，如果加载不出来请使用科学多试几次。###下载这个软件是一方面是为了下载ultralytics##标题包，下载这个包有很多种路径，可以......
第二期书生浦语大模型实战营第一次作业（大模型技术报告解读）
书生·浦语大模型全链路开源体系上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0（InternLM2）。这个大模型包含70亿和200亿两种参数规格，以及基座、对话等版本，向全社会开源并提供免费商用授权。书生·浦语2.0（英文名：InternLM2）核心理念：......
ARM架构银河麒麟使用笔记－下载docker软件包及所有依赖包并在离线环境下安装
ARM架构银河麒麟使用笔记－下载docker软件包及所有依赖包并在离线环境下安装arm银河麒麟aptdocker目的是在arm架构的银河麒麟操作系统Ｖ10中安装docker。一、给虚拟机创建快照1.创建qemu-imgsnapshot-cEmptyKylinrootfs.qcow22.查看qemu-imgsnapshot-lrootfs......

大模型架构之MOE

相关文章

赞助商

阅读排行