首页 > 其他分享 >LLM的轻量化推理:AirLLM

LLM的轻量化推理:AirLLM

时间:2024-08-27 15:05:47浏览次数:17  
标签:output 轻量化 LLM AirLLM input model 推理

AirLLM是一种针对LLM的轻量级推理框架,通常用于优化和加速大模型的推理过程,可以允许70B的LLM在单个4GB的GPU上运行,无需量化、蒸馏、剪枝。

AirLLM是通过分层推理实现的上述功能,本质上是将LLM的每一层拆分出来,分别加载权重进行推理,在推理较大的LLM时会很慢

环境配置

使用pip安装airllm包

pip install airllm

环境需要的其他package与正常推理部署LLM的一致

模型推理

在模型的第一次加载过程中会将模型权重逐层拆分保存,大小与原权重大小相同,请确保有足够的磁盘空间

from airllm import AutoModel

MAX_LENGTH = 128

model = AutoModel.from_pretrained(model_name/model_dir)

input_text = [
        "who is the president of US?"
]

input_tokens = model.tokenizer(
        input_text,
        return_tensors="pt",
        return_attention_mask=False,
        truncation=True,
        max_length=MAX_LENGTH,
        padding=False
)    

generation_output = model.generate(
        input_tokens["input_ids"].cuda(),
        max_new_tokens=20,
        use_cache=True,
        return_dict_in_generate=True
)

output = model.tokenizer.decode(generation_output.sequences[0])

print(output)

 

标签:output,轻量化,LLM,AirLLM,input,model,推理
From: https://www.cnblogs.com/Liang-ml/p/18373533

相关文章

  • 一文详细了解初学者怎么入门大语言模型(LLM)?
    关于如何入门LLM,大多数回答都提到了调用API、训练微调和应用。但是大模型更新迭代太快,这个月发布的大模型打榜成功,仅仅过了一个月就被其他模型超越。训练微调也已经不是难事,有大量开源的微调框架(llamafactory、firefly等),你只要懂部署,配置几个参数就能启动训练。甚至现在有大......
  • 从0开始构建LLM应用程序,超详细分步指南!
    大型语言模型(LLM)正迅速成为现代人工智能的基石。然而,目前尚未有既定的最佳实践,所以研究者们没有明确的路线图可遵循,经常陷入困境需要重新开始。在过去两年里,我帮助多个组织利用LLM构建创新应用。通过这段经历,我开发出了一种久经考验的方法来创建创新解决方案(受LLM.org.il社......
  • Web端3D模型轻量化工具HOOPS:建筑行业数字化转型的助推者!
    随着数字化技术的飞速发展,建筑行业也在不断寻找新的技术手段来提供高产能和建筑质量。其中,Web端3D模型轻量化工具HOOPSCommunicatorSDK在建筑行业中的应用不断地得到了市场的广泛注意和应用。本文将深入探讨HOOPSCommunicator在建筑行业中的应用及其影响。申请HOOPSComm......
  • 3D轻量化新利器!Archicad采用HOOPS技术,提升BIM应用竞赛力
    行业:建筑行业挑战:如何实际发现不同软件之间的数据格式的协同与转换?如何提供高级软件的性能和轻量化渲染效果?如何增加新的功能和扩展性?解决方案:HOOPSExchange为其解决3D模型格式转换问题,HOOPSVisualize与HOOPSCommunicator的应用,为其解决可视化和Web端3D模型轻量化问题。......
  • 一文读懂 LLM 如何进行微调?
    ​你知道吗,咱们用那些已经训练好的大型语言模型,其实有好多不同的玩法。最常见的有三种:一种是用模型提取的特征来训练新的小模型;另一种是直接给模型看新任务的例子,让它学着怎么回答,这招叫做提示;最后一种就是调整模型里面的一些参数,可能是全部,或者就那么几个,来让它更好地完成任务......
  • Bellmanford与Spfa解决存在负边权的单源汇最短路问题
    上个文章讲了Dijkstra算法但是Dijkstra算法只能解决单源汇非负边权的最短路问题这次文章来讲单源汇存在负边权的解决方法Bellmanforda和spfa算法二者适用场景区别:一般来说使用spfa就能解决大部分的问题,但问题出现不超过k条边的时候应当使用Bellmanford算法BellmanFord:随意存......
  • ATF:一种用于在存在无关信息时增强LLM推理的分析到过滤提示方法
    在过去的几年里,随着大型语言模型(LLM)的出现,人工智能领域取得了巨大的发展。这些模型在众多应用中,尤其是在复杂推理任务中,展现出强大的工具作用。通过对大规模数据集的训练,LLM能够理解和生成类似人类的文本,从回答问题到进行有意义的对话。然而,一个重大障碍依然存在——LLM在处理......
  • 2024年秋季招聘:大型语言模型(LLM)相关面试题汇总
    0一些基础术语大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(LargeLanguageModel,LLM)是针对语言的大模型。175B、60B、540B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。强......
  • Qwen2-72B的vLLM部署
    今天尝试本地部署了Qwen2-72B-Instruct-GPTQ-Int4模型,这里记录一下操作的过程。参考:https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.htmlhttps://docs.vllm.ai/en/stable/serving/openai_compatible_server.htmlhttps://techdiylife.github.io/blog/blog.html?......