首页 > 其他分享 >TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务

TGI 多-LoRA: 部署一次,搞定 30 个模型的推理服务

时间:2024-08-12 22:38:24浏览次数:7  
标签:微调 部署 模型 30 TGI LoRA 适配器

你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本? 那么, 如果你可以部署一次就搞定 30 个模型推理服务会如何? 在当今的 ML 世界中,哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界,各个组织会构建大量模型,其中每个模型都针对特定任务进行了高度特化。但是,如何处理为每个细分应用部署模型所带来的麻烦和成本呢?多-LoRA 服务提供了一个有潜力的答案。

动机

对组织而言,基于微调构建多个模型是有意义的,原因有多重:

  • 性能 -足够证据 表明: 在目标任务上,较小的专用模型表现优于较大的通用模型。Predibase 的结果 [5] 表明,针对特定任务对 mistralai/Mistral-7B-v0.1 基础模型进行 LoRA 微调可以获得比 GPT-4 更好的性能。
  • 适应性 - Mistral 或 Llama 等模型的用途极其广泛,你可以选择其中之一作为基础模型,然后针对 各种下游任务 微调出各种专用模型。还有一个好处是,你不会被某个模型锁定,因为你可以轻松换掉该基础模型,然后用你的数据对另一个基础模型进行微调 (稍后会详细介绍)。
  • 独立性 - 对不同任务,不同的团队可以独立进行不同的微调,从而在数据准备、配置、评估标准和模型更新节奏方面保持独立和并行。
  • 隐私 - 专用模型提供了很大的灵活性,使得我们可以根据隐私要求对训练数据进行隔离,不需要将所有数据都暴露成基础模型的训练数据。此外,由于模型的本地运行愈显重要,微调使得在本地设备上运行的小模型有能力执行特定任务。

总之,微调使组织能够释放其数据的价值,当它们使用其独有的、高度专业化的数据时,这种优势变得尤为重要,甚至足以改变游戏规则。

看上去前景光明,有啥问题吗?有的!部署大语言模型 (LLM) 服务提出了多方面的挑战。部署单个模型的成本和操作复杂性已经够让人头疼了,更不用说 n 个模型了。这意味着,虽然微调有万般好,但是它让 LLM 的部署和服务变得更复杂了也是铁的事实。

如何解决“既要又要”的问题,及时雨就应时而现了。TGI 最近推出了新功能 - 多-LoRA 服务 (

标签:微调,部署,模型,30,TGI,LoRA,适配器
From: https://www.cnblogs.com/huggingface/p/18355870

相关文章

  • 洛谷 P4305 不重复数字——题解
    洛谷P4305题解传送锚点摸鱼环节[JLOI2011]不重复数字题目描述给定\(n\)个数,要求把其中重复的去掉,只保留第一次出现的数。输入格式本题有多组数据。第一行一个整数\(T\),表示数据组数。对于每组数据:第一行一个整数\(n\)。第二行\(n\)个数,表示给定的数。输出格......
  • PAT乙级1030 || 完美数列(C示例解决运行超时)
    完美数列给定一个正整数数列,和正整数p,设这个数列中的最大值是M,最小值是m,如果M≤mp,则称这个数列是完美数列。现在给定参数p和一些正整数,请你从中选择尽可能多的数构成一个完美数列。输入格式:输入第一行给出两个正整数N和p,其中N(≤105)是输入的正整数的个数,p(≤109)是......
  • 怎样在 SQL 中创建一个视图,用于显示所有年龄大于 30 岁的员工的信息?
    在数据库管理和数据分析中,视图(View)是一个强大的工具,它能够为我们提供一种便捷、高效的数据展示方式。今天,我们将探讨如何在SQL中创建一个视图,专门用于显示所有年龄大于30岁的员工的信息。首先,让我们假设我们有一个名为“employees”的表,其中包含“id”(员工编号)、“name......
  • 中移ML307A(4G Cat1,C-SDK,OpenCPU)模组学习开发-UART串口
    <p><iframename="ifd"src="https://mnifdv.cn/resource/cnblogs/ML307A_OPEN"frameborder="0"scrolling="auto"width="100%"height="1500"></iframe></p> 测试1,配置串口0为115200波......
  • Doris 夺命 30 连问!(中)
    导言抱歉,作为从S2开始的骨灰级玩家看到EDG·UZI官宣首发上线,兴奋之余忘了写文档--||,还望各位看官老爷见谅,这次错了,下次还敢^_^这是继上次的30问上篇的中篇,也是10个问题,有些还是比较难回答的,欢迎大家在评论区或者私聊我来进行battle~Q&A1.时区zone,因现在国家......
  • 159.302 The 8-Puzzle: Search Algorithms
    159.302ArtificialIntelligenceAssignment#1The8-Puzzle:SearchAlgorithmsMaximumnumberofmemberspergroup:3studentsDeadlineforsubmission:9thofSeptemberInstructionsYourtaskistowriteaC++programthatwillsolvethe8-puzzleprob......
  • 降本30%,酷家乐海量数据冷热分离设计与实践
    降本30%,酷家乐海量数据冷热分离设计与实践发布于 2023-03-2914:22:257520举报文章被收录于专栏:深度学习与python作者|王小波编辑|李忠良降本增效一直是研发团队追求的目标之一,面对不断上涨的数据量,研发侧开始思考如何在不降低用户体验的......
  • springboot电影院购票管理系统-计算机毕业设计源码71301
    目 录摘要1绪论1.1选题背景与意义1.2开发现状1.3论文结构与章节安排2 电影院购票管理系统系统分析2.1可行性分析2.1.1技术可行性分析2.1.2 经济可行性分析2.1.3操作可行性分析2.2系统功能分析2.2.1功能性分析2.2.2非功能性分析2.3 ......
  • CSP真题答案《202309-01、02》基于Python的实现
    注意:注释在测试CSP时应全部删除!!!第一题:#键盘输入两个数以空格隔开,分别为n,mn,m=map(int,input().split())#根据n值可以循环输入n行值,得到一个列表(操作数)madenum=[list(map(int,input().split()))for_inrange(n)]#根据m值可以循环输入m行值,得到一个列表(初始......
  • 【读书笔记-《30天自制操作系统》-1】Day1~Day2
    顾名思义,本书将制作操作系统的整个过程分成了30天来依次讲解。但其实每一天的内容多少与难度各不相同,也并不是每天就可以学习完书中一天的内容。前面的内容要少一些,也比较基础,因此先把第一天和第二天的内容合并起来整理。1.二进制与CPU作者没有从概念开始讲起,而是开篇就......