大模型应用技术系列(二）：大模型部署和推理优化

时间：2024-12-25 20:28:07浏览次数：5

之前的文章《大模型应用技术系列(一）：大模型应用整体技术栈浅析》中，我们浅析了大模型技术栈的构成。从用户到底层，每层中都有很多需要深究的东西。本文将专注介绍大模型部署层面的内容。从一个简单的应用场景出发，通过一个完整的工具链路，来深入了解部署的过程。

简介

模型训练好之后，最终一定是要对外提供服务的，那么就意味着需要将模型部署到服务端，并提供开放的接口来对外提供服务。接口层面一般遵循OpenAI的接口规范，模型服务一般需要提供OpenAI兼容的接口来让用户进行使用。那么，如何对训练好的模型进行部署呢？目前有哪些部署方式呢？本文将从部署演进的视角，来阐述大模型部署方式以及其中设计到的推理优化过程。

模型部署

本地部署

Ollama

Ollama是一个开源的大型语言模型服务工具和框架，它简化了部署模型的流程，使训练好的大语言模型可以方便被部署到docker上。并且它支持不同的平台，也可以很灵活的进行扩展。对于端侧应用来说，是一个不错的选择。

ollama本身是CS架构，用户通过ollama client和启动的server通信，server端主要由两部分构成，api server和lamma.cpp构成。其中api server提供对外的api服务，lamma.cpp负责实际的模型推导。

ollama的好处是，它可以简单方便的部署到本地机器上，甚至不需要GPU，可以让模型在CPU上运行。这对于资源限制或者需要网络隔离的

标签：部署,推理,模型,接口,server,api,ollama,优化
From： https://blog.csdn.net/u011160113/article/details/144698130

完全小白的大模型入门科普
引言：网上关于大模型的文章也很多，但是都不太容易看懂。小枣君今天试着写一篇，争取做到通俗易懂。废话不多说，我们直入主题。█什么是大模型？大模型，英文名叫LargeModel，大型模型。早期的时候，也叫FoundationModel，基础模型。大模型是一个简称。完整的叫法，应该是“人工智能预训练......
【Unity 低多边形像素风格 3D 资源包】PIXELGON Muscle Cars Pack 提供了精心设计的车
PIXELGONMuscleCarsPack是一款专注于肌肉车主题的低多边形像素风格3D资源包，包含多种经典和现代肌肉车设计，适合需要像素艺术风格的游戏项目。这款资源包提供了精心设计的车辆模型，兼具美观与性能优化，能为赛车类、城市模拟、开放世界等项目增添丰富的视觉效果。核心功能与......
Hadoop YARN：调度性能优化实践1
背景YARN作为Hadoop的资源管理系统，负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行S......
Hadoop YARN：调度性能优化实践3
背景YARN作为Hadoop的资源管理系统，负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行S......
Hadoop YARN：调度性能优化实践15
背景YARN作为Hadoop的资源管理系统，负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行S......
什么是 Gas 优化？为什么重要？
在以太坊和其他EVM区块链上，执行智能合约需要支付Gas费用。Gas是衡量智能合约计算成本的单位，用户需要为合约执行支付费用，费用由Gas消耗量和当前Gas价格决定。高效的智能合约设计可以显著降低Gas消耗，从而为用户和开发者节约成本，提升合约的可用性。在实际应用中，以下场景......
优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze
本文分享自华为云社区《GaussDB(DWS)谓词列analyze揭秘》，作者：SmithCoder。1.前言适用版本：【9.1.0.100（及以上）】当前GaussDB(DWS)中存在手动analyze，查询触发的动态analyze，以及后台线程的轮询analyze三种触发形式，其中动态analyze又分为light模式和normal模式，light模式是基于内......
【Unity 3D 工人角色资源包】Line Worker 提供了多个低多边形风格的工人角色模型，适用
LineWorker是一款专为需要工人角色的游戏开发者设计的3D角色资源包。该资源包提供了多个低多边形风格的工人角色模型，适用于建筑工地、城市建设、维修和其他类似主题的游戏。每个角色都经过精心设计，具有鲜明的个性和细节，能够为游戏世界增添生动的角色元素。该资源包特别适......
指标管理+AI大模型深度融合，开启智能数据分析管理新时代
随着企业数字化转型的加速，数据管理和分析变得越来越重要。传统的指标管理平台虽然已经能够帮助企业有效地收集、计算、管理和展示关键指标，但在业务分析层面，面对日益复杂的数据环境和业务需求，单纯依靠人工分析已经难以满足高效、精准的管理要求。为此，将指标管理平台与AI大模型相结......
龙哥量化：TB交易开拓者_趋势跟踪策略_多策略对单品种_A00011880206期货量化策略，不用过
写在前面，做自动交易的宽客们都在寻找圣杯，目前，我找到一只玻璃杯，经过半年的漫长等待，玻璃杯没让我失望。路漫漫其修远兮，吾将上下而求索。如果您需要代写技术指标公式，请联系我。龙哥QQ：591438821龙哥微信：Long622889也可以把您的通达信，文华技术指标改成TB交易开拓者（金字塔、文华8......

大模型应用技术系列(二）：大模型部署和推理优化

简介

模型部署

本地部署

Ollama

相关文章

赞助商

阅读排行