首页 > 其他分享 >大模型量化4

大模型量化4

时间:2023-10-03 23:23:28浏览次数:45  
标签:name 模型 trainable path 量化 model peft lora

https://huggingface.co/blog/peft

 看代码:

  from transformers import AutoModelForSeq2SeqLM
+ from peft import get_peft_model, LoraConfig, TaskType
  model_name_or_path = "bigscience/mt0-large"
  tokenizer_name_or_path = "bigscience/mt0-large"



peft_config = LoraConfig(
    task_type=TaskType.SEQ_2_SEQ_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1
)


model = AutoModelForSeq2SeqLM.from_pretrained(model_name_or_path)
+ model = get_peft_model(model, peft_config)
+ model.print_trainable_parameters()
# output: trainable params: 2359296 || all params: 1231940608 || trainable%: 0.19151053100118282








 

标签:name,模型,trainable,path,量化,model,peft,lora
From: https://www.cnblogs.com/zhangbo2008/p/17741470.html

相关文章

  • 大语言模型LLM推理及训练显存计算方法
    一、推理:显存计算推理的显存大头就是:参数量,参数类型版本一般有以下四种: float32位浮点数4字节half/BF1616位浮点数2字节int88位整数1字节int44位整数0.5字节 以7B-BF16版本为例,需要显存=数量*类型大小=70亿*2字节=140亿字节 所以140亿......
  • 判别模型和生成模型
    生成模型就像它的名字可以模拟训练数据的特征分布。判别模型只能根据输入变量x判断其类别。抽象一下都是p(Y|x) ......
  • LangChain大模型应用开发指南-传统编程范式思维的应用
    LangChain大模型应用开发指南-传统编程范式思维的应用上节课,我带领小伙伴们完成了baichuan2量化模型的OpenAI标准接口封装,并完成LangChain对大模型的调用与测试。没有看过的小伙伴可以点击链接查看:AI课程合集今天我们将正式开始LangChain大模型应用开发课程。组件总览上图......
  • LangChain大模型应用开发指南-AI大模型衍生的新能力
    LangChain大模型应用开发指南-AI大模型衍生的新能力上节课,我以传统应用编程设计模式和思维为入口和对比对象,介绍了LangcChain中的Chain、Agent、Callback三大核心概念,并整理了LangcChain为众多开发者内置的能力与工具。没有看过的小伙伴可以点击链接查看:大模型OpenAI标准接口封......
  • 大模型量化3
    https://huggingface.co/blog/4bit-transformers-bitsandbytes 1. 8位float TheFP8(floatingpoint8)formathasbeenfirstintroducedinthepaper “FP8forDeepLearning” withtwodifferentFP8encodings:E4M3(4-bitexponentand3-bitmantissa)and......
  • redis7源码分析:redis 多线程模型解析
    多线程模式中,在main函数中会执行InitServerLastvoidInitServerLast(){bioInit();//关键一步,这里启动了多条线程,用于执行命令,redis起名为IO线程initThreadedIO();set_jemalloc_bg_thread(server.jemalloc_bg_thread);server.initial_memory_usage=......
  • redis7源码分析:redis 单线程模型解析,一条get命令执行流程
    有了下文的梳理后redis启动流程再来解析redis在单线程模式下解析并处理客户端发来的命令1.当clientfd可读时,会回调readQueryFromClient函数voidreadQueryFromClient(connection*conn){client*c=connGetPrivateData(conn);intnread,big_arg=0;size_......
  • 聊聊基于Alink库的随机森林模型
    概述随机森林(RandomForest)是一种集成学习(EnsembleLearning)方法,通过构建多个决策树并汇总其预测结果来完成分类或回归任务。每棵决策树的构建过程中都引入了随机性,包括数据采样和特征选择的随机性。随机森林的基本原理可以概括如下:随机抽样训练集:随机森林通过有放回抽样(Boots......
  • python 机器学习 继续训练模型
    您可以使用以下方法反复训练机器学习模型:增量学习:这是一种在现有模型上继续训练的方法。在增量学习中,您可以将新数据集与现有数据集合并,然后使用这些数据重新训练模型。这种方法的优点是可以避免从头开始训练模型,从而节省时间和计算资源。但是,需要注意的是,如果新数据与旧数据有很大......
  • 科技云报道:AI大模型终于走到了数据争夺战
    当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。最近,一项来自EpochAIResearch团队的研究抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋......