模型参数量计算

模型参数量计算

时间：2024-10-26 19:59:29浏览次数：3

模型参数量的计算公式

隐藏层大小为：$d_{model}$
transformer的layer数：$N$
嵌入层大小为：$V_{dim}$
transformer模型参数大小 = $N$ * （12 * $d_{model}^2$+ 13*$d_{model}$）+ $V_{dim}$
当$d_{model}$的数量较大时，参数量≈12*$d_{model}^2$*$N$
例如llama3-7b的配置：

$d_{model}$：4096
$N$:32

所以其参数估算约为：6.4b，实际为6.7B

训练

训练内存 = 模型加载内存 + 4 * 可训练参数大小

推理

推理内存 = 参数量与加载字节数的关系
前置知识：

1字节 = 8bit = 8位
float32：表示32位的浮点数，占用字节数为4个
float16：表示16位的浮点数，占用字节数为2个
int8：表示8位的整型，占用字节数为1
int4：表示4位的整型，占用字节数为0.5

把float32变成int8或者int4的过程就叫做模型量化。

参数量	加载方式	内存占用（G）	计算公式
7b	float32	26G内存	4*7b/1024/1024/1024
7b	float16	13G内存	2*7b/1024/1024/1024
7b	int8	6.5G内存	1*7b/1024/1024/1024
7b	int4	3.75G内存	0.5*7b/1024/1024/1024

参考

transformer的参数计算

标签：1024,7b,字节数,模型,量计算,参数,内存,model
From： https://www.cnblogs.com/future-dream/p/18504417

只需初中数学知识就能理解人工智能大语言模型
全面解释人工智能LLM模型的真实工作原理（一）人工智能#大语言模型LLM#机器学习ML#深度学习#数据挖掘序言：为了帮助更多人理解，我们将分成若干小节来讲解大型语言模型（LLM）的真实工作原理，从零开始，不需额外知识储备，只需初中数学基础（懂加法和乘法就行）。本文包含理解LLM所需的全部知......
生产者消费者模型
线程同步互斥锁(互斥量)条件变量生产/消费者模型一、互斥锁C++11提供了四种互斥锁：mutex：互斥锁。timed_mutex：带超时机制的互斥锁。recursive_mutex：递归互斥锁。recursive_timed_mutex：带超时机制的递归互斥锁。包含头文件：#include<mutex>1、mutex类1）加锁lock()互斥锁......
LLAMAFACTORY：一键优化大型语言模型微调的利器
人工智能咨询培训老师叶梓转载标明出处模型适配到特定的下游任务，通常需要进行微调（fine-tuning），这一过程往往需要大量的计算资源。为了解决这一问题，来自北京航空航天大学和北京大学的研究人员共同开发了LLAMAFACTORY，这是一个统一的框架，集成了多种前沿的高效训练方法，使得用户可......
samtools flagstat参数对比对的bam文件进行统计
001、命令samtoolsflagstatsample_name.sorted.bam>sample_name.flagstat.txt##基本命令 a、生成的文件是一个包含16行的文本文件： 002、(base)[b20223040323@admin2workdir]$catAsiatic1.flagstat.txt##查看统计结果622520785+0intotal......
WIFI理论吞吐量计算方法和WIFI网卡选购
WIFI理论吞吐量计算方法和WIFI网卡选购1计算公式 Wi-Fi理论吞吐量=（符号位长×码率×数据子载波数量×空间流数量）÷子载波传输时间2 各计算参数说明2.1符号位长一个Symbol能承载的bit数量11a/g11N11AC11AX最大调制方式64QAM64QAM256QAM1024QA......
KBJ2510-ASEMI整流桥KBJ2510参数、封装、尺寸
编辑：llKBJ2510-ASEMI整流桥KBJ2510参数、封装、尺寸型号：KBJ2510品牌：ASEMI封装：KBJ-4批号：2024+现货：50000+最大重复峰值反向电压：1000V最大正向平均整流电流(Vdss)：25A功率(Pd)：大功率芯片个数：4引脚数量：4安装方式：插件类型：插件桥堆、整流桥正向浪涌电流IFSM：350A正向电压：1.......
数据集&yolo关键点模型 -关键点系列- 手部关键点数据集 handpose keypoints ＞＞ DataBall
数据集&yolo关键点模型-关键点系列-手部关键点数据集handposekeypoints>>DataBall该示例用3k+数据训练，模型采用yolo11n架构，对于一些简单场景可以满足左右手检测及21关键点检测，运算量小，模型效能高。后期会推出yolo11s,yolo11m架构模型或其它yolo系列。一、模型推......
GBJ2510-ASEMI整流桥GBJ2510参数、封装、尺寸
编辑：llGBJ2510-ASEMI整流桥GBJ2510参数、封装、尺寸型号：GBJ2510品牌：ASEMI封装：GBJ-4安装方式：直插批号：2024+现货：50000+正向电流（Id）：25A反向耐压（VRRM）：1000V正向浪涌电流：350A正向电压（VF）：1.10V引脚数量：4芯片个数：4芯片尺寸：MIL功率(Pd)：中小功率工作温度：-55°C~150°C类型：整......
三周精通FastAPI：14 表单数据和表单模型Form Models
官网文档：表单数据-FastAPI表单数据¶接收的不是JSON，而是表单字段时，要使用 Form表单。fromfastapiimportFastAPI,Formapp=FastAPI()@app.post("/login/")asyncdeflogin(username:str=Form(),password:str=Form()):return{"username":user......
三周精通FastAPI：8 请求体 - 多个参数、字段、嵌套模型
本节内容对应FastAPI手册的三节，分别是请求体-多个参数，请求体-字段和请求体-嵌套模型。手册： https://fastapi.tiangolo.com/zh/tutorial/body-multiple-params/源代码示例是python3.10及以上版本。请求体-多个参数¶既然我们已经知道了如何使用 Path 和 Query，下面让......

模型参数量的计算公式

训练

推理

参考

相关文章

赞助商

阅读排行